黄仁勋详解物理AI与世界基础模型:英伟达Cosmos平台如何推动视频生成和自动驾驶汽车发展,技术报告全面解析,华人团队贡献中坚力量

AI 的下一个前沿:物理世界模型平台 Cosmos

在昨天的 CES 发布会上,英伟达 CEO 黄仁勋宣布了一个名为「Cosmos」的物理世界模型平台,标志着 AI 技术迈向了新的里程碑。Cosmos 是一个开源、开放权重的世界模型平台,参数量从 40 亿到 140 亿不等,旨在为机器人和自动驾驶汽车等物理世界中的 AI 系统生成大量照片级真实的合成数据,以解决数据稀缺问题。

Cosmos 平台发布详情

此次发布的 Cosmos 平台共包含 8 个模型,这些模型基于 2000 万小时的视频数据进行训练,分为扩散模型(连续 token)和自回归模型(离散 token)两类。这些模型支持文本生成视频和文本 + 视频生成视频两种方式。目前,已有包括 1X、Agile Robots、Agility 和 Uber 等领先公司成为 Cosmos 的首批用户。

物理 AI 普及化

黄仁勋表示,Cosmos 的目标是让每个开发者都能使用通用机器人技术,推动物理 AI 的普及化。这类似于大型语言模型对自然语言处理的影响,但针对的是物理世界的 AI 应用。为了实现这一目标,Cosmos 提供了一系列工具和技术,帮助开发者更容易地构建和微调自己的物理 AI 系统。

技术报告核心

技术报告详细介绍了 Cosmos 世界基础模型(WFM)的构建过程。作者主要关注视觉世界基础模型,其中观察结果以视频形式呈现,扰动可以以多种形式存在。预训练 WFM 使用大规模视频数据集进行训练,使其成为一个通才模型;后训练 WFM 则通过特定环境的数据集进行微调,用于目标明确的物理 AI 设置。

数据整理与处理

为了构建高上限的预训练 WFM,作者开发了一个视频数据整理 pipeline,从 2000 万小时的视频中提取了约 1 亿个视频片段。每个片段使用视觉语言模型(VLM)进行标注,并通过一系列过滤步骤确保高质量和动态信息的丰富性。视频处理是计算密集型工作,作者利用现代 GPU 硬件实现高效解码和转码。

扩散模型与自回归模型

技术报告探讨了两种用于构建预训练 WFM 的可扩展方法:基于 Transformer 的扩散模型和自回归模型。扩散模型通过逐步去除噪声来生成视频,而自回归模型则根据之前的生成逐段生成视频。这两种方法都能将复杂的生成问题分解为更简单的子问题,从而提高生成效率。

安全防护系统

为了安全使用所开发的世界基础模型,英伟达还开发了一套全面的安全系统(护栏),包括前置防护系统和后置防护系统,用于阻止有害输入和输出。这套系统确保了模型在实际应用中的安全性。

华人学者贡献

技术报告的贡献者名单显示,华人学者在该项目中承担了大量工作,有些小组甚至全员为华人。例如,Prompt Upsampler 小组就是由全华人团队完成的。知名研究者如 Ming-Yu Liu 和凌欢也在名单中出现,展示了他们在深度生成模型和计算机视觉领域的卓越贡献。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...