3月29日,智源研究院在2025中关村论坛“未来人工智能先锋论坛”上正式发布了一款创新性的跨本体具身大小脑协作框架RoboOS,以及开源的具身大脑RoboBrain。这一框架能够实现跨场景多任务轻量化快速部署和跨本体协作,从而推动单机智能向群体智能迈进,并为构建具身智能的开源统一生态提供底层技术支持。
以下是相关开源链接:
– 具身多模态大脑模型 RoboBrain:
– GitHub:https://github.com/FlagOpen/RoboBrain
– Gitee:https://gitee.com/flagopen/robo-brain
– Huggingface:https://huggingface.co/BAAI/RoboBrain
– 高质量异构数据集 ShareRobot(专为机器人操作任务设计):
– GitHub:https://github.com/FlagOpen/ShareRobot
– Gitee:https://gitee.com/flagopen/share-robot
– Huggingface:https://huggingface.co/datasets/BAAI/ShareRobot
增强长程操作任务能力 打造感知-认知-决策-行动闭环
在具身场景中,长程操作任务是机器人执行复杂任务的核心能力之一。RoboBrain通过融合机器人任务规划、可操作区域感知和轨迹预测的三维能力,将抽象指令映射为具体的动作序列,从而增强长程操作任务的能力。
RoboBrain由三个主要模块组成:
1. 任务规划模块:用于生成操作计划。
2. A-LoRA模块:负责可操作区域感知。
3. T-LoRA模块:专注于轨迹预测。
在推理过程中,模型首先感知视觉输入,并将输入指令分解为一系列可执行的子任务,随后依次进行可操作区域感知和轨迹预测。RoboBrain采用多阶段训练策略,具备长历史帧记忆和高分辨率图像感知能力,显著提升了场景感知和操作规划的能力。
在评测中,RoboBrain在任务规划、可操作区域感知和轨迹预测方面均表现出卓越性能。特别是在任务规划方面,它在多个维度上优于GPT-4V、Claude3等当时的领先闭源/开源多模态语言模型(MLLMs)。此外,在可操作区域感知和轨迹预测基准上,RoboBrain也展现了出色的性能。
跨本体协作框架RoboOS 推动从单体智能到群体智能的跃迁
RoboOS基于“大脑-小脑”分层架构,通过模块化设计、智能任务管理和跨本体协作,为机器人提供了高效、灵活且可扩展的底层支持。其核心要素包括具身大脑RoboBrain、小脑技能库以及跨机器人数据中枢。
– 具身大脑RoboBrain:负责全局感知与决策,构建动态时空感知、规划指导和反馈纠错机制。
– 小脑技能库:负责低延迟精准执行,实现柔性与精密操作等功能。
– 跨机器人数据中枢:负责实时共享空间、时间和本体记忆,为决策规划与优化协作操作提供信息支持。
通过RoboOS的分层架构,具身大脑RoboBrain的复杂场景感知与决策能力可以与小脑技能库的高效执行能力深度结合,确保协作框架在长周期、高动态任务中的稳定运行。此外,RoboOS还支持动态管理多机器人任务队列,优化资源分配,并基于执行反馈动态调整策略,持续优化任务规划,提升系统的鲁棒性。
本文来源: