近日,中国科学院自动化研究所深度强化学习团队提出大模型驱动的机器人长序列决策与感知融合的RoboGPT方法,在具身智能测试平台ALFRED榜单中取得第一名。  

  RoboGPT方法将大模型常识推理融入环境感知和探索中,有效避免了无效信息干扰,提升了复杂开放场景下环境感知的效率和泛化能力,解决了机器人环境适应性差、缺乏常识的难点。通过引入环境实时反馈,利用大模型强推理能力实现环境自适应的长序列任务分解,突破了机器人长序列复杂任务难以规划,环境先决条件难以引入决策的难题。  

  该方法包含基于LLM的规划器、重规划(Re-Plan)和技能(RoboSkill)三个模块。在给定任务指令后,基于LLMRoboGPT规划器可将其分解为多个子目标。RoboSkill 根据子目标执行导航或操作技能,产生与环境交互的动作,并按顺序完成所有子目标。如果某个子目标未完成,Re-Plan模块会接收反馈信息,并根据从环境中接收到的数据生成新的规划。  

  具体而言,团队构建了一批高质量的机器人规划数据,提出RoboGPT机器人规划大模型,可完成上百种日常任务的规划。机器人可根据智能体第一视角图像获得深度和分割信息,进行视觉SLAMSimultaneous Localization and Mapping),得到语义地图。在导航算法方面,团队根据语义地图设计了一种知识引导的小物体探索方法,使得机器人很快地找到目标物体。同时,相比于端到端的学习类方法,该方法易于迁移到其他机器人场景中,甚至是实体机器人场景,只需对根据第一视角图像获得深度和分割信息的模型进行场景适应。  

  RoboGPT方法在ALFREDValid Unseen数据和构造的通用任务Gen. Task的表现如表1所示。相较于目前基于ChatGPTLLM-Planner)和基于模版的任务规划方法(Prompter),RoboGPT方法在任务执行成功率(SR, Success Rate)和任务规划的正确性(HLP ACC, ACCuracy of High-Level instruction task Planning)上都取得了显著的优势。相关工作在ALFRED的榜单中排名第一,并已整理成研究论文RoboGPT  

  ALFRED是由华盛顿大学、CMUNvidia等联合创建的具身智能公开测试平台,目前已有60多个全球知名高校、科研院所和公司在该平台上进行了公开测试。榜单提供了7类常见的日常指令任务,如“加热苹果放到橱柜里”,要求机器人具有精准的环境感知能力和强推理能力,仅仅通过第一视角的图像,完成复杂的指令任务。

      

  榜单链接:  

  https://leaderboard.allenai.org/alfred/submissions/public  

  论文链接:  

  https://arxiv.org/abs/2311.15649  

 

1. ALFRED榜单排名(截至2023年12月25日)

2. RoboGPT系统框图

1 ALFRED Valid Unseen和通用任务Gen.Task 实验结果

附件: