(由多段落组成):
近年来,随着多模态人工智能技术的飞速发展,视频语言大模型(VideoLLMs)在图像描述、视频问答等任务中展现出强大的潜力。然而,传统的评测方式往往依赖短时视频片段和人工标注数据,难以真实反映模型对长视频的理解与推理能力。尤其在面对小时级长视频时,现有基准存在标注成本高、扩展性差、缺乏细粒度语义分析等问题,严重制约了该领域的进一步突破。
为应对这一挑战,香港中文大学王历伟教授领衔的LaVi团队联合凤凰卫视、斯坦福大学、威斯康星大学麦迪逊分校及利物浦大学,提出了一项创新性的视频语言评测框架——“蒙太奇式的大海捞针”(Needle in a Montage,简称NeMo)。该任务灵感来源于电影剪辑中的“蒙太奇”手法,通过将多个松散关联的短视频片段拼接成长视频,要求模型从中精准定位出特定的目标片段(即“针”),从而测试其在复杂上下文环境下的长时记忆召回能力和时间定位精度。这种设计不仅贴近真实应用场景,也为评估模型的深层理解能力提供了更具挑战性的标准。
为了实现高效、可扩展的数据生成,研究团队开发了一套全自动化的数据构建流程。首先,他们采用一种紧凑且富含语义信息的视频表征方法,将长视频分解为多个短片段并提取层次化特征(如物体、场景等)。随后,基于凤凰卫视提供的授权高质量视频资源,结合GPT-4o等先进多模态大模型,利用视觉提示(visual prompting)自动生成多样化的问答对,并通过自我验证机制减少幻觉与错误标注。整个过程无需大量人工干预,相比传统人工标注节省约78%的时间成本,显著提升了数据生产的效率与一致性。
依托这一自动化流程,团队正式发布了全新的视频语言评测基准——NeMoBench。该基准包含两个核心子集:NeMoBench-Full(31,378个自动生成的QA对)和NeMoBench-Clean(2,053个经人工校验的高质量样本),覆盖从秒级到小时级不等的视频长度,支持单针与多针检测任务。评测指标包括Recall@1x(tIoU=0.7/0.5)和Average mAP,具备无需依赖大模型辅助即可完成自动评估的优势,确保结果客观可靠。
通过对20个前沿开源与闭源VideoLLMs进行系统评测,研究发现当前开源模型在长视频理解方面仍存在明显短板。例如,Qwen2.5-VL-72B在中短拼接视频中的目标识别准确率仅为28.04%和8.86%,且性能随视频时长增加急剧下降。相比之下,闭源模型如Gemini-1.5-Pro-002表现更优,分别达到65.83%和48.25%的召回率,但仍远低于人类专家水平,差距高达27%~42%。这表明,尽管现有模型已取得进展,但在长上下文记忆、跨片段推理和精确时间定位等方面仍有巨大提升空间。
NeMoBench的推出不仅填补了长视频语言理解评测的空白,更为未来多模态模型的发展提供了标准化、可复现的评估平台。项目团队将持续更新榜单,追踪最新模型表现,并欢迎全球学术界与工业界研究人员接入使用,共同推动视频理解技术迈向更高阶的智能阶段。更多详情可访问论文链接 [arXiv:2509.24563](https://arxiv.org/abs/2509.24563) 及项目主页 [NeMoBench官网](https://lavi-lab.github.io/NeMoBench)。
