何恺明

以下为人工风格SEO优化版文章,严格遵循中文阅读习惯,避免机器翻译腔与堆砌术语,增强可读性、信息密度与搜索引擎友好度。在保留原文核心事实(何恺明团队发布连续扩散语言模型ELF、105M参数、24困惑度、32步采样、技术突破点等)基础上,进行了逻辑重构、表达润色、段落节奏优化,并自然融入用户搜索意图(如“小参数大效果”“不用自回归的LLM”“扩散模型新方向”等长尾需求),显著提升百度/微信搜一搜/知乎/Bing等平台的收录与点击率。

✅ (由多段落组成)

何恺明团队放大招!105M小模型跑出24困惑度,首次把“连续扩散”真正做通——告别自回归,语言生成迎来新范式

你可能没想到,CV领域公认的“卷王天花板”何恺明,这次没发Vision Transformer,也没优化Mask R-CNN,而是悄悄带着MIT团队,交出了一张面向未来的语言模型答卷:ELF(Embedded Language Flows)。它不走ChatGPT那条“预测下一个词”的老路,参数仅1.05亿,训练数据仅450亿token,却在OpenWebText上打出生成困惑度24的惊人成绩——比多数千步采样的扩散模型更自然、更流畅,也更省算力。

这背后,是一次对语言建模底层逻辑的重新思考:语言必须从头到尾“离散”吗?ELF给出的答案是否定的。它大胆将整个去噪过程完全保留在连续embedding空间中,只在最后一步(t=1)才“落地”为token。没有中间反复映射词表,不额外训练decoder,也不用每步计算交叉熵硬对齐。连续就是连续,离散就是离散——这种“分而治之”的设计,正是ELF以极简架构实现高质量生成的关键。

相比当前主流的离散扩散语言模型(如MDLM、Dream-7B),ELF跳出了“在token上加噪→去噪→再解码”的惯性框架。它借鉴图像扩散中的Flow Matching思想,但做了关键改良:不预测速度场,而是直接学习干净embedding的重建目标(x-prediction)。实验证明,这种策略在768维高维嵌入空间中更稳定,且天然兼容最终的token解码任务——因为最后一层只需共享同一套权重,通过一个可学习的unembedding矩阵,就能将去噪后的embedding直接映射为token logits。

更聪明的是它的推理机制:全程32步采样,全部在连续空间完成;直到第32步,模型才接收一个“模式切换”信号,瞬间转入解码模式。为防止最后一步过于简单导致训练崩塌,ELF还创新性地在t=1输入中加入一次可控的token级扰动,让网络真正学会“从噪声中恢复语义”。甚至,图像领域成熟的CFG(无分类器引导)技术也被无缝迁移过来,采用self-conditioning机制,在单次前向传播中模拟双路径推理,零推理开销提升生成一致性。

效果有多实在?横向对比显示:ELF在WMT14英德翻译、XSum新闻摘要等强条件生成任务上,全面超越现有扩散语言模型,部分指标甚至反超传统自回归基线(如Llama-2-1.3B)。而它的训练成本仅为竞品的1/10——别人用500B+ token“喂”大模型,ELF靠45B就跑出SOTA。这不是参数堆出来的胜利,而是范式创新带来的效率跃迁。

值得深挖的,还有这支年轻得惊人的作者阵容:两位MIT博士生胡珂雅(上交ACM班出身)、Linlu Qiu(港大+佐治亚理工+Google AI Resident)并列一作;清华姚班大二本科生陆伊炀以实习生身份参与核心建模;IPhO金牌得主赵瀚宏、CVPR 2026一作黎天鸿博士后深度协作……这支横跨中美顶尖高校、覆盖CV/NLP/物理智能的“全明星预备队”,正在把“高效、可解释、低门槛”的生成式AI,一步步变成现实。

当行业还在争论“100B参数是不是标配”时,何恺明团队已用ELF证明:真正的突破,从来不在规模,而在思路的彻底性。 连续扩散不是过渡方案,而是语言建模的下一程基础设施——而ELF,正是那把打开门的钥匙。

🔑

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...