生数科技发布Vidu视频大模型,深度融合具身智能与MotuBrain世界动作模型,实现跨本体复杂长程任务工业级落地

以下为人工风格SEO优化版文章,在忠实保留原文核心事实、技术亮点与逻辑脉络的基础上,进行了深度重写:
✅ 语言更自然流畅,避免机械翻译感与堆砌术语
✅ 结构更符合中文读者阅读习惯(设问引导、场景化表达、小标题分层)
✅ 强化关键词布局(自然融入“具身智能”“世界动作模型”“MotuBrain”“生数科技”“Vidu”等核心词)
✅ 增加搜索友好元素:问题前置、价值提炼、对比强调、落地意义升华
✅ 删除冗余图片代码与无效时间戳,优化可读性与移动端体验

(由多段落组成)

当一家做AI视频的公司,悄悄造出了机器人“通用大脑”

你可能刚在央视动漫里看过《西游记》AI动画短片,也可能刷到过漫威《毒液3》水墨风预告——这些惊艳视觉背后,都站着同一家中国AI公司:生数科技。但最近,它干了一件更让人意外的事:不声不响,让自家新模型MotuBrain同时登顶全球两大具身智能权威榜单——WorldArena与RoboTwin2.0,且全部拿下第一。更关键的是:这不是实验室里的“纸面冠军”,而是已在多款仿人形机器人上实机验证、能端火锅、调鸡尾酒、插花整理的工业级真能力。

为什么视频公司能做出最强机器人大脑?答案藏在“物理世界理解力”里

很多人疑惑:一个以Vidu视频大模型出圈的团队,凭什么跨界拿下具身智能最高分?其实逻辑很清晰——所有真实世界的行动,都始于对物理规律的理解。
一段汽车漂移视频,模型若看不懂轮胎摩擦、重心偏移、惯性轨迹,就无法生成合理画面;而一个真正能干活的机器人,更必须预判“推一下箱子会滑多远”“抓杯子时指尖该用几成力”。
正因如此,生数科技早在2025年12月就开源了世界模型基座Motus,埋下伏笔;仅4个月后,升级商业版本MotuBrain横空出世——它不是简单叠加模块,而是首创World Action Model(世界动作模型)架构,把“看世界”和“动起来”彻底融合在一个统一表征空间里,实现真正的知行合一。

双榜登顶不是巧合,而是“统一建模”带来的断崖式领先

在WorldArena(世界模型能力试金石),MotuBrain包揽三大硬指标第一:
✔️ Motion Quality(动作真实性)——不僵硬、不摆拍,像真人一样发力;
✔️ Flow Score(动作连续性)——插花→浇水→归位,全程无卡顿;
✔️ Motion Smoothness(运动平滑度)——符合牛顿力学,无突兀加速或抖动。

而在更严苛的RoboTwin2.0(行动模型终极考场),它面对50个泛化任务,在“标准实验室”与“随机扰动环境”下分别斩获95.8分与96.1分,是榜单中唯一在随机环境下平均分突破95的模型。更震撼的是:90%的任务得分超90,近半数直接满分。这意味着——它不是靠“刷题”赢,而是靠通用物理认知能力赢。

真机Demo炸裂现场:机器人第一次“带脑子”干活

不到3分钟的演示视频,信息量极大:
🔹 一脑多型:同一模型驱动3款不同结构、不同传感器的仿人机器人;
🔹 长程任务闭环:插花不止于“伸手-抓-放”,而是识别花枝、调整角度、浇水润泽,全程自主决策;
🔹 左右手协同作业:火锅局中,左手稳握漏勺判断空载状态,右手同步倒果汁,无指令中断、无逻辑冲突;
🔹 细节级自主修正:发现勺中无丸子,不盲捞,而是重新规划路径、精准二次入锅——这已接近人类“察言观色+即时反思”的认知水平;
🔹 跨任务知识迁移:调酒过程涵盖液体倾倒、容量控制、薄荷点缀、甚至捏鸭互动,动作间无切换延迟,成功率稳定如一。

技术底座揭秘:不是堆参数,而是重构机器人的“认知操作系统”

MotuBrain的强大,源于其底层的U-ViT统一多模态架构——这是生数科技全球首创的技术基座。它不区分“视觉数据”“动作轨迹”或“语音指令”,而是用同一套逻辑进行编码、对齐与调度。具体表现为:
🔸 五维一体感知-推演-执行闭环:从视觉识别、物理推演、动作生成、逆动力学反解,到实时轨迹微调,全部由同一模型完成;
🔸 不挑硬件、不挑数据:兼容任意摄像头配置,吃透仿真数据、无标签视频、真实机器人轨迹等多源异构数据;
🔸 越学越聪明:任务多样性提升比单纯增加数据量更能拉升成功率——证明它学到的是“操作的本质”,而非“肌肉记忆”。

左手Vidu,右手MotuBrain:打通数字世界与物理世界的“任督二脉”

生数科技的战略从来不是单点突破。它的双轨布局极具纵深:
➡️ Vidu 是面向数字世界的“世界生成引擎”——生成高质量视频的过程,本质是强制模型学习重力、流体、光影、碰撞等物理法则;
➡️ MotuBrain 则是面向物理世界的“世界行动引擎”——将前述物理认知,直接转化为可执行、可泛化、可进化的机器人动作策略。
二者共享同一技术根系(U-ViT + World Action Modeling),形成罕见的“数据飞轮+认知复用”优势:视频模型积累的物理直觉,反哺机器人决策;机器人采集的真实世界反馈,又持续强化世界模型精度。目前,生数已与无界动力、深朴智能、星尘智能等头部具身企业展开联合落地,覆盖工业产线、商服场景及类家庭服务等高价值赛道。

结语:具身智能的拐点,正在从“手有多巧”转向“脑有多通”

行业共识已然改变:资本不再追捧“灵巧但笨拙”的专用机器人,而是全力押注能真正理解、预测并适应真实世界的通用机器人大脑。当多数团队还在World Model与VLA路线间摇摆时,生数科技用MotuBrain证明——统一建模,才是通往AGI in Physical World的最短路径。这一次,中国AI不仅跑出了速度,更定义了下一代智能体的底层范式。

> 官方技术主页:[https://www.shengshu.com/zh/motubrain](https://www.shengshu.com/zh/motubrain)

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...