谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

(由多段落组成):

在人工智能飞速发展的今天,一个名为“寒武纪”(Cambrian)的项目悄然走红,成为AI感知领域的新焦点。不同于传统AI芯片公司“寒武纪科技”,这个由谢赛宁主导、李飞飞与Yann LeCun联合支持的研究项目,目标并非制造硬件芯片,而是致力于构建一种全新的“超感知”能力——让人工智能真正像人类一样理解并体验动态世界。

该项目的核心成果是Cambrian-S系列模型,专注于提升AI在视频中的空间智能表现。它不仅具备强大的图像和视频理解能力,更在长时程空间推理任务中实现了突破性进展。尤其是在短视频空间关系推理方面,该模型已达到当前最优水平(SOTA),甚至能处理长达数小时的复杂视频,展现出远超主流大模型的空间记忆与持续推理能力。

“超感知”这一概念的提出,标志着团队对多模态智能本质的深刻反思。他们指出,当前大多数视觉语言模型只是将图像“翻译”成文字描述,本质上仍是依赖语言系统进行推理,并未真正“看见”或“感知”场景。而真正的智能,应当像人一样记住物体的位置、理解动作轨迹、预判行为趋势。正如谢赛宁所强调:“在实现超感知之前,超级智能只是一个空想。”

为了验证AI是否具备这种深层感知力,研究团队首创了VSI-SUPER评测基准,包含两大核心挑战任务:一是长时程空间记忆测试(VSR),要求模型观看数小时室内漫游视频后准确回忆异常物品位置;二是持续计数任务(VSC),考验模型在长时间视频中追踪特定物体数量的能力。测试结果令人震惊——即便是Gemini Live、GPT-Realtime等商业级实时视觉模型,在10分钟视频上的平均准确率也不足15%,超过两小时则几乎完全失效。

面对行业短板,团队并未盲目堆参数,而是从数据源头入手,构建了包含59万条高质量样本的VSI-590K训练数据集。这些数据融合真实拍摄与模拟环境,精细标注了物体的空间坐标、运动轨迹及上下文关系,相当于为AI打造了一套系统的“空间认知教材”。在此基础上训练出的Cambrian-S模型家族,参数规模从0.5B到7B不等,虽非最大,但针对性极强。

其核心技术在于引入“预测感知模块”,通过预测视频下一帧的方式,训练模型主动识别关键变化点。这种方法不仅显著提升了对长视频的理解效率,还能有效控制GPU内存占用,避免依赖昂贵硬件堆叠来维持性能。实验表明,该模型在多项空间推理任务中超越开源模型30%以上,部分指标甚至媲美顶尖商业系统。

值得一提的是,该项目背后汇聚了一批年轻而富有潜力的研究者。纽约大学博士生杨澍升(Shusheng Yang)担任项目负责人,曾参与通义千问(Qwen)开发并在腾讯实习;Jihan Yang博士专注于长视频与统一模型研究;本科生黄品志曾在Google Gemini团队实战历练;Ellis Brown则拥有卡内基梅隆大学硕士背景,深耕计算机科学与数学交叉领域。这支国际化青年科研力量,在李飞飞与LeCun的战略指导下,正推动空间智能迈向新高度。

随着视觉智能逐渐从“看得见”向“看得懂”演进,Cambrian项目无疑为下一代AI提供了重要方向。未来,这类具备真实世界感知能力的模型,有望广泛应用于机器人导航、自动驾驶、智能家居等场景,真正实现AI与物理世界的无缝交互。

空间智能, 视频大模型, 多模态AI, 超感知, 长视频理解

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...