清华系团队发布GigaBrain-0具身基础模型,AI机器人家务丝滑操作九成数据靠仿真

整理后文章(+SEO优化)

国内初创企业发布新一代具身智能基础模型,推动机器人智能化发展

2024年7月4日,国内AI初创公司极佳视界正式发布了其首款端到端VLA具身智能基础模型——GigaBrain-0 Preview。该模型在训练过程中90%以上的数据来源于该公司自主研发的世界模型平台,仅不到10%依赖真实机器人采集数据,标志着全球首个主要依靠虚拟世界生成数据驱动的具身智能模型诞生。

据悉,极佳视界还将推出面向具身智能研发的世界模型平台Preview版本,进一步拓展其在空间智能领域的布局。

极佳视界:专注4D世界建模的空间智能公司

成立于2023年的极佳视界是一家专注于空间智能技术研发的企业,致力于将传统视频生成技术升级为4D世界建模。通过构建具备空间理解、推理与生成能力的AI大模型,使智能体能够在复杂的物理环境中实现高效交互和自主行动。

公司创始人兼CEO黄冠是清华大学人工智能方向博士,拥有超过十年的AI算法研究与产业落地经验。他曾任职于微软、三星及地平线等知名企业,并在自动驾驶与人工智能领域拥有多次创业经历。

GigaBrain-0 Preview的技术架构解析

GigaBrain-0 Preview在整体架构设计上展现出高度集成与智能化的特点。输入阶段采用RGB图像与深度信息联合编码方式,显著增强了模型对三维空间结构的理解能力和复杂场景的感知表达。

输出方面,系统利用多模态感知模块的中间结果(如2D框、3D框、6DoF抓取点、末端执行器轨迹等)作为监督信号,提升任务决策的准确性与鲁棒性。

此外,模型引入了基于语言任务拆解的“思维链”机制(Chain-of-Thought, CoT),能够将高层用户指令逐步分解为可执行的底层提示,实现任务逻辑的结构化处理。同时,前序感知模块提供的语义信息也为CoT提供了必要的空间推理支持。

最终,低层执行模块会根据prompt激活对应的action expert,并通过降噪解码机制生成机器人可执行的动作序列,从而实现从感知到动作的完整闭环控制。

多项复杂任务表现优异,展现强大泛化能力

在多个高难度任务测试中,GigaBrain-0 Preview展现出卓越的性能。例如,在衣物折叠任务中,模型可以灵活应对不同形态和款式的衣物,完成精细叠放操作,并在过程中实时调整策略以提升叠放质量。

面对杂乱无章的餐桌场景,GigaBrain-0能自主推理最佳清理方案,先规划餐盘摆放位置,再通过双臂协同完成垃圾清扫。即便在人为干扰下随机添加垃圾,模型也能迅速识别并调整策略,持续清理直至环境整洁。

在需要长时间协调操作的任务中,如倒饮料,该模型实现了对长序列任务的有效拆分与指令执行,同时对动作路径进行平滑约束,确保液体不洒出。

值得一提的是,模型还支持自然语言交互。用户只需简单一句话即可触发餐具摆放等任务,极大提升了人机协作体验。

仿真2.0时代来临,数据效率大幅提升

相比传统的真机采集方式,基于世界模型的数据生成效率优势显著。据极佳视界介绍,其自研世界模型平台的数据生成速度可达真实设备采集的10至100倍以上。

这种高效的数据获取方式不仅大幅降低了训练成本,更为大规模模型迭代和通用智能训练提供了强有力的支持,加速了物理世界中AI应用的落地进程。

本文来源: 智东西【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...