10 万亿 tokens!英伟达贡献全球最大规模开源数据集,并推四大开源 AI 模型

(由多段落组成):

在2026年CES国际消费电子展的聚光灯下,英伟达CEO黄仁勋以一场重磅主题演讲拉开序幕,正式宣布公司全面加码开源AI生态建设。此次发布的全新模型与数据集覆盖语言智能、机器人技术、自动驾驶及生物医疗四大前沿领域,标志着英伟达正从硬件巨头向全栈式AI平台引领者加速转型。通过开放核心算法与海量训练资源,英伟达旨在推动全球开发者和企业共同参与下一代人工智能的技术革新。

本次开源行动中,英伟达贡献了包括全球规模领先的多模态数据集和高效训练框架在内的关键技术资产。该数据集涵盖高达10万亿个语言tokens、50万条机器人操作轨迹、45.5万个蛋白质三维结构信息以及100TB真实车辆传感器采集数据,构建起一个横跨自然语言理解、物理交互、生命科学与智能出行的综合性AI基础设施。这一举措不仅降低了AI研发门槛,也为学术界与产业界提供了前所未有的高质量训练资源。

在智能体AI方向,英伟达推出全新Nemotron系列模型,聚焦语音识别、检索增强生成(RAG)与安全三大应用场景。其中,Nemotron Speech在实时语音转写与车载字幕生成方面实现性能飞跃,实测响应速度较现有主流模型提升达10倍,已获博世采用以优化智能座舱语音体验。与此同时,Nemotron Safety则被CrowdStrike、Fortinet等网络安全领军企业集成,用于强化AI系统对敏感信息识别与有害过滤的能力,显著提升企业级应用的合规性与可信度。

面向“物理世界”的AI进化,英伟达发布Cosmos世界模型平台,致力于让机器具备类人级别的环境理解与推理能力。其中,Cosmos Reason 2增强了机器人对动态场景的感知精度,而Cosmos Transfer 2.5可通过生成高保真合成视频,为视觉AI提供大规模虚拟训练样本。基于此平台,英伟达同步推出了专为人形机器人打造的Isaac GR00T N1.6模型,支持全身协调控制与复杂环境决策。Franka Robotics等合作伙伴已在仿真环境中完成行为验证,并逐步将成果迁移至实际部署场景。

针对自动驾驶研发中的关键挑战,英伟达首次公开Alpamayo系列开源项目。作为业内首个面向自动驾驶的大规模视觉-语言-动作(VLA)推理模型,Alpamayo 1不仅能理解道路环境,还可解释其驾驶逻辑,极大提升了系统的可解释性与安全性。配合开源仿真工具AlpaSim,开发者可进行闭环测试以应对极端边缘案例。此外,英伟达还发布了包含1700多小时真实驾驶记录的物理AI数据集,覆盖城市、山区、雨雪天气等多种复杂路况,为L4级以上自动驾驶技术研发提供坚实支撑。

在生物医药领域,英伟达借助Clara AI平台进一步深入微观世界,助力新药研发提速降本。新推出的La-Proteina模型支持原子级蛋白质设计,有望加速针对癌症、神经退行性疾病等难治性疾病的突破;ReaSyn v2则引入化学合成路径预测,确保理论设计方案具备现实可行性。KERMT模型则专注于早期药物安全性评估,能精准预测候选药物在人体内的代谢反应与潜在毒性。结合同步开源的45.5万个合成蛋白质结构数据集,这些工具正在重塑制药行业的研发范式,降低创新成本并缩短上市周期。

目前,包括博世、Salesforce、Uber和Palantir在内的多家行业巨头已接入英伟达的开源体系,积极构建各自的下一代AI系统。随着更多企业和研究机构加入这一开放生态,英伟达正逐步建立起一个跨行业、跨领域的协同创新网络,推动人工智能从“感知”迈向“认知”与“行动”的深度融合。

英伟达, 开源AI模型, 自动驾驶, 机器人技术, 新药研发

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...