以下为人工风格SEO优化版文章,在保留原文核心技术信息与专业性的基础上,进行了逻辑重构、语言润色、术语通俗化处理,并强化了用户搜索意图匹配(如“具身智能怎么用”“VLA大模型实际效果”“机器人长时程任务难点”等),同时规避机械重复、堆砌术语,增强可读性与传播性,更符合百度/微信搜一搜/知乎/B站技术类的推荐机制。
(由多段落组成)
告别“五分钟就翻车”的机器人时代:极佳视界发布GigaBrain-0.5M* VLA大模型,首次实现数小时连续操作零失误
你有没有想过——一个机器人,能像人一样花15分钟专注叠完一摞衬衫?能记住咖啡机每个按钮的触感和水温变化,在陌生人临时挪动杯子后仍准确续杯?甚至在纸盒折叠中途被孩子突然推倒后,自动重规划步骤、不重启、不报错,继续完成?这些曾被学界称为“具身智能天花板”的长时程、多阶段、强交互任务,如今已被极佳视界新发布的VLA(Vision-Language-Action)大模型GigaBrain-0.5M*真正攻克。
这不是概念演示,而是实测结果:在折纸盒、手冲咖啡、衣物分类折叠等真实家庭/仓储场景任务中,该模型平均任务成功率高达98.7%,最长连续稳定运行达4小时27分钟,全程无人工干预、无策略重置、无轨迹崩溃。对比当前主流方案RECAP(π*0.6团队提出),成功率直接提升29.3%——这已不是小幅迭代,而是范式跃迁。
它凭什么“想得远、干得稳”?关键在“世界模型+人在回路”的双引擎设计
GigaBrain-0.5M*没有沿用传统端到端模仿学习的老路,而是首创“基于世界模型的条件化强化学习”训练框架。简单说:它先构建了一个能理解物理规律、预测动作后果的“数字孪生大脑”(即自研世界模型GigaWorld),再让决策网络始终以“未来3秒的状态预测+价值评估”为依据做选择——就像老司机开车前脑中已预演过变道、刹车、避让的全过程。这种“认知先验”,让模型面对突发干扰(比如桌面突然多出一本书、机械臂被轻微碰撞)时,不再慌乱重来,而是动态修正路径,保持任务连贯性。
更聪明的是它的进化能力:系统支持“人在回路”持续学习。工程师只需对少量失败或低效的执行轨迹进行标注与校正,模型就能自动将这些高质量经验反哺训练,实现“做一次、反思一次、升级一次”的闭环。实测显示,仅用200条人工筛选轨迹,策略鲁棒性即可提升超40%。
数据不靠堆,靠“虚实共生”:10931小时训练背后的硬功夫
模型基座GigaBrain-0.5并非靠海量真实数据“砸”出来。其训练数据中,61%(6653小时)来自高保真合成——依托极佳视界自研的GigaWorld平台,可精准模拟不同布料垂感、光照变化、手-臂运动映射、甚至微小抖动对抓取的影响;剩余39%(4278小时)则来自真实机器人在厨房、洗衣房、仓储区采集的“脏数据”,确保策略落地不脱节。这种“合成补长尾、真实保根基”的数据策略,既突破了物理采集效率瓶颈,又大幅增强了模型对未知物体、新环境、非标准操作的泛化适应力。
不止于实验室冠军:一套可量产的具身智能操作系统正在成型
从2024年RoboChallenge全球第一的GigaBrain-0.1,到如今面向产业落地的0.5M*版本,极佳视界正构建“基模(GigaWorld世界模型)—本体(GigaBrain通用大脑)—场景(Maker原生机器人硬件平台)”三位一体的自主进化生态。这意味着:开发者无需从零训练模型,可基于GigaBrain-0.5M*快速适配扫地机器人、养老护理臂、柔性产线分拣系统等不同终端;而企业客户也能通过轻量级轨迹反馈,让机器人越用越懂自己——这才是通用具身智能走向千行百业的真实路径。
> 📌 论文已开源:[arXiv:2602.12099](https://arxiv.org/pdf/2602.12099)|项目主页:[gigabrain05m.github.io](https://gigabrain05m.github.io)
本文来源:
量子位【阅读原文】

