大规模预训练语言模型(Large Language Model, LLM)的出现推动了机器人领域的发展。这些模型通过在大规模文本数据上进行预训练,可以学习到丰富的语言知识和语义表示。然后,这些模型可以通过微调来适应特定的任务或领域。自然语言是一种大众掌握的技能。通过使用自然语言与计算机交互,降低了新手的使用难度,直观有效,降低了学习成本。本项目以机械臂为大语言模型的身体,实现具身智能。 1. 什么是具身智能? 具身智能通过在物理世界和数字世界的学习和进化,达到理解世界、互动交互并完成任务的目标。 具身智能是由“本体”和“智能体”耦合而成且能够在复杂环境中执行任务的智能系统。一般认为,具身智能具有如下的几个核心要素: 第一是本体,作为实际的执行者,是在物理或者虚拟世界进行感知和任务执行的机构。 本体通常是具有物理实体的机器人,可以有多种形态。本体的能力边界会限制智能体的能力发挥,本体具备环境感知能力、运动能力和操作执行能力,是连接数字世界和物理世界的载体,本项目采用三轴步进机械臂。 具身智能的第二个要素是智能体(EmbodiedAgents),是具身于本体之上的智能核心,负责感知、理解、决策、控制等的核心工作。 智能体可以感知复杂环境,理解环境所包含的语义信息,能够和环境进行交互;可以理解具体任务,并且根据环境的变化和目标状态做出决策,进而控制本体完成任务。 本项目的方案 硬件方面: 鲁班猫4、usb摄像头、usb音频模块、机械臂及其控制器 机械臂为三轴步进机械臂。控制器为stm32,接收串口指令完成运动学正逆解以及圆弧直线插补等算法。 上位机为鲁班猫4通过串口与stm32连接,完成对机械臂的控制以及连接usb摄像头和usb音频获取环境。 软件方面: 基于文心一言的强大自然语言理解和推理能力,生成控制机器人的相关代码并通过串口向机械臂发送指令,利用usb摄像头获取环境和物体信息,以及通过usb音频模块获取人类指令并向人类反馈状态。 该项目是基于ERNIE BotSDK打造的具身智能方向的创新探索应用。用户通过语音输入指令即可控制机械臂。 文心大模型对指令进行分析与拆解后,面向硬件场景下的机器决策与控制生成若干逻辑脚本与编排策略,实现机械臂的智能操控。 物体定位:采用opencv OpenCV是一个开源的计算机视觉和机器学习软件库,由英特尔公司发起并开发。它提供了丰富的图像处理和计算机视觉的功能,涵盖了从基本的图像操作、图像处理到目标检测、人脸识别等高级功能。OpenCV广泛应用于各种领域,包括医学图像处理、安防监控、自动驾驶、机器人技术等。 本项目采用将采集到的图片先进行仿射变换完成投影到xy平面后再转换到hsv颜色空间后寻找物体轮廓和定位。 项目介绍: 具智能机械臂是一种基于人工智能技术的高级机器人,旨在提升生产效率、改善工作环境和实现自主化操作。通过引入大语言模型、计算机视觉、语音识别、语音合成等先进技术,结合“具身智能”技术和机械臂技术,可以产生具备和环境交互感知能力,以及基于感知到的任务和环境进行自主规划-决策-行动-执行等一系列行为的能力的智能机器人系统,使其能够适应不同的工作环境和灵活处理各种任务需求。其搭载的系统是一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性,能够理解人类的指令和意图,自主地做出决策,并控制机械臂进行复杂的机械操作任务。通过这种结合,可以创造出具备高度灵活性和适应性的机器人系统,从而极大提高生产和工作效率,使得机器人能够更加方便的服务于人类生活。
文心一言机械臂是通过深度相机感知外界环境,通过语音交互接口与用户进行自然语言沟通,并从对话中获取关键信息和关键词进行语义理解将其转化为机械语言来控制机械臂去实现对应的操作和行为。通过使用文心一言大语言模型来驱动机械臂的运动,可以将自然语言指令转化为机器可理解的指令,从而实现对机械臂的精确控制。无论是口头还是书面输入指令,用户都能够轻松操作机械臂,而无需熟悉繁琐的机械臂指令。它能够分析用户需求,并根据视觉与环境的感知和自身的知识经验,推断出合适的操作步骤和行为来辅助人类完成一些任务。借助大语言模型的驱动,智能机械臂能够理解用户指令并做出相应的反应,具备智能问答智能控制等功能,为用户提供更加自然和便捷的交互方式,从而实现更智能、更人性化的操作方式。 |
|
|