NeurIPS 2025放榜:阿里Qwen门控注意力获最佳论文,何恺明Faster R-CNN获时间检验奖

(由多段落组成):

2025年11月26日,人工智能领域顶级会议NeurIPS正式揭晓了本年度的最佳论文奖与时间检验奖(Test of Time Award)。这一消息迅速引发学术界和产业界的广泛关注。今年共评选出4篇最佳论文(Best Paper)及3篇荣誉提名(Runner-up),其中多项研究聚焦于大语言模型、扩散模型理论、自监督强化学习等前沿方向,展现了AI技术在深度与广度上的持续突破。

尤为引人注目的是,来自阿里通义千问团队的《Gated Attention for Large Language Models》荣获最佳论文奖。该研究提出了一种新型门控注意力机制,在不引入额外计算负担的前提下显著提升了大模型训练的稳定性与推理性能。实验表明,该方法能有效缓解“注意力沉陷”问题——即模型过度关注输入序列首个token的现象,将原本高达46.7%的注意力集中度降至仅4.8%。同时,其在长文本理解任务中表现优异,在RULER基准测试中实现超过10分的提升。目前,这项技术已集成至Qwen3-Next系列模型中,并开源相关代码,推动行业共同发展。

另一项备受瞩目的成果是华盛顿大学Liwei Jiang主导的研究《Artificial Hivemind: The Open-Ended Homogeneity of Language Models》,揭示了当前主流大语言模型在开放式生成任务中的“思维趋同”现象。研究发现,无论模型规模、结构或是否开源,面对如“写一个关于时间的隐喻”这类开放性问题时,输出高度集中在少数几种表达模式上,例如“时间是一条河流”或“时间是一位织工”。为系统评估这一问题,团队构建了包含26,000个真实世界查询的INFINITY-CHAT数据集,并收集超3万条人类标注,首次建立起衡量语言模型多样性的标准化框架。该研究警示了AI创造力同质化的潜在风险,呼吁未来模型设计应更注重激发多元表达能力。

普林斯顿大学与OpenAI联合研究的《1000 Layer Networks for Self-Supervised RL》则挑战了传统强化学习的网络架构极限。研究人员成功训练出深达1024层的神经网络,结合对比式自监督学习算法,在无奖励信号的环境下实现了惊人的性能跃升。实验显示,随着网络深度增加,智能体不仅成功率大幅提升,甚至涌现出翻墙、坐姿移动等前所未见的行为策略。研究进一步指出,深度扩展比宽度扩展更具计算效率,且仅在在线学习场景下效果显著,为未来RL系统的规模化发展提供了全新思路。

此外,来自巴黎高等科学与研究学院的团队深入剖析了扩散模型为何不易过拟合的核心机制。论文《Why Diffusion Models Don’t Memorize》通过理论建模与大规模实验验证,提出了“隐式动力学正则化”概念。研究发现,扩散模型训练过程中存在两个关键时间尺度:泛化时间与记忆化时间。前者相对稳定,后者随数据集增大而线性延长,从而形成一个不断扩大的“泛化窗口”。只要控制训练时长在此窗口内,模型即可避免记忆训练样本,实现良好泛化。这一发现为理解高参数量生成模型的训练动态提供了重要理论支撑。

值得一提的是,本届时间检验奖授予了2015年由何恺明、任少卿、Ross Girshick和孙剑共同提出的经典目标检测框架Faster R-CNN。时隔十年,该工作仍因其深远影响力脱颖而出。其核心创新在于引入区域提议网络(RPN),取代传统耗时的选择性搜索方法,使目标检测真正迈向端到端、实时化。RPN通过共享卷积特征图并利用锚点机制预测候选框,大幅提升了检测速度与精度。在VOC与COCO等权威数据集上,Faster R-CNN长期保持领先,成为后续Mask R-CNN、Cascade R-CNN等工作的基石,广泛应用于自动驾驶、安防监控等多个实际场景。其开源实现也极大促进了计算机视觉领域的技术普及与迭代。

总体来看,NeurIPS 2025的获奖成果既体现了对基础理论的深刻探索,也凸显了工程实践的重大突破。从大模型架构优化到生成机制解析,再到十年经典的技术回响,这些研究共同勾勒出人工智能发展的清晰脉络,也为下一阶段的技术演进指明了方向。

NeurIPS 2025, 大语言模型, 门控注意力, 扩散模型, 时间检验奖

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...