清华系创企推出首个AIGC机器人大模型,基于VPP视频预测政策学习人类动作,掌握100+复杂任务,引领机器人与生成式模型发展新潮流

(由多段落组成)

星动纪元发布VPP大模型,机器人操作进入新阶段

近日,星动纪元宣布开源首个AIGC生成式机器人大模型VPP(Video Prediction Policy),该模型由清华大学交叉信息学院ISRLab与星动纪元联合研发,并成功入选ICML 2025 Spotlight高分作品。论文作者郭彦东表示,VPP基于类似Sora的AIGC生成式模型,通过海量互联网视频数据训练,能够根据当前场景生成视频并指导机器人完成物理动作。

例如,在实验室环境中,当机器人面对烧杯和移液管时,VPP会生成使用移液管的操作视频,帮助机器人将溶液准确转移至目标容器中。这一技术突破显著提升了机器人在复杂任务中的表现。

VPP的核心特性解析

1. 精准预测未来场景
传统机器人策略如VLA模型通常依赖于当前观测数据进行动作学习,而VPP能够提前预测未来场景,并确保预测结果与实际执行高度一致。这意味着,只要视频能够生成的动作,机器人就能顺利完成。

2. 高效预测机制
VPP摒弃了像素级精确预测的传统方法,转而通过提取视频模型中间层表征,实现单步去噪预测。这种方法不仅提高了预测效率,还为高频次规划和执行提供了支持。

3. 跨本体数据学习能力
VPP能够直接学习各种形态机器人的视频数据,甚至可以将人类操作数据纳入学习范围。这种跨本体学习方式降低了数据获取成本,同时增强了模型的泛化能力。

4. 多任务处理能力
在星动纪元的单臂+仿人五指灵巧手XHAND平台上,VPP可完成100多种复杂操作任务,包括放置、扶正、堆叠、传递等。而在双臂人形机器人平台上,它也能完成50多种复杂任务,展现出卓越的多任务处理能力。

5. 优化任务执行成功率
VPP的预测视觉表示具备一定的可解释性,开发者可以通过预测视频提前发现潜在失败场景,并进行针对性优化。这不仅提升了任务执行的成功率,还减少了对真实世界测试的依赖。

性能优势与应用场景

在Calvin ABC-D基准测试中,VPP的任务完成平均长度达到4.33,接近满分5.0,较此前先进方法实现了18.6%的相对性能提升。在真实场景的复杂灵巧操作任务中,其成功率更是提高了31.6%。

VPP的推出打破了传统机器人对真机数据的过度依赖,为数据获取开辟了新路径。其高效的预测和执行机制,以及在不同本体间的切换能力,为机器人通用性和实时决策能力注入了新活力。未来,VPP有望推动机器人从特定场景应用向更复杂、多元的实际场景迈进。

资源链接
– 论文地址:[https://arxiv.org/pdf/2412.14803](https://arxiv.org/pdf/2412.14803)
– 项目地址:[https://video-prediction-policy.github.io](https://video-prediction-policy.github.io)
– 开源代码:[https://github.com/roboterax/video-prediction-policy](https://github.com/roboterax/video-prediction-policy)

本文来源: 智东西【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...