Kimi Linear大模型引爆全网!17岁AI研究员突破Attention Residuals瓶颈,马斯克连夜转发深度学习架构创新

以下为人工风格SEO优化版文章,在保留核心事实与技术亮点的基础上,进行了逻辑重构、语言润色、信息分层与关键词自然植入,避免机械重复,增强可读性与搜索引擎友好度(如标题吸引力、段落节奏、术语解释、用户关切点前置等),同时符合中文阅读习惯与专业传播调性:

(由多段落组成)

Kimi突破性“注意力残差”技术引爆AI圈!17岁中国少年成共同一作,马斯克、Karpathy连夜转发

近日,月之暗面(Moonshot)团队发布一项颠覆性架构创新——Attention Residuals(注意力残差),首次将Transformer中经典的“注意力机制”迁移到模型深度维度,实现跨层智能信息筛选。该成果不仅被埃隆·马斯克在X平台公开点赞“Truly impressive”,更引发AI教父级人物Andrej Karpathy深度反思:“我们可能从未真正读懂《Attention Is All You Need》。”

这项工作并非实验室空想,而是已在Kimi自研大模型Kimi Linear 48B(480亿参数,30亿激活参数,MoE稀疏架构)上完成千卡级实测验证:训练效率提升25%,推理延迟仅增加不到2%,且完全兼容现有训练框架——仅需替换残差连接模块,零修改主干结构即可部署。

为什么传统残差正在“拖垮”大模型?
当前主流PreNorm架构下,每一层都简单地将自身计算结果与前一层输出做等权相加(xₙ = f(xₙ₋₁) + xₙ₋₁)。看似简洁,实则暗藏两大隐患:一是“记忆过载”——早期层信息被层层稀释,难以回溯;二是范数爆炸(unbounded norm growth),导致深层网络训练极不稳定,常需反复调参或引入复杂归一化。业内称之为“PreNorm稀释困境”。

Kimi的解法很“通感”:把时间轴的智慧,搬到深度轴上
研究团队提出一个关键洞见:序列建模中的“时间维度”与神经网络的“深度维度”,本质同构。既然注意力能让token“有选择地回顾历史位置”,那为何不让第L层“有选择地调用第1~L−1层的特征”?
于是,Attention Residuals应运而生——它用一个可学习的伪查询向量(learnable pseudo-query)作为“提问者”,以前序所有层的输出为Key/Value池,通过轻量注意力动态加权聚合,让网络自主决定:“此刻最该借鉴哪几层的经验”。

工程落地才是硬功夫:Block AttnRes破解O(L²)瓶颈
若对100层网络每层都做全层注意力,计算开销将指数飙升。团队创新提出分块注意力残差(Block AttnRes):将网络划分为8–16个逻辑块(block),每个块内信息经压缩生成单一“摘要向量”,后续层仅需关注块间摘要+当前块实时输出。此举将复杂度从O(L²)大幅降至O(L·B),实测吞吐提升显著,且内存占用可控。

不止于技术:一位17岁高中生如何走进大模型核心战场?
论文三位共同一作中,最令人瞩目的是一位年仅17岁的中国少年——陈广宇(Nathan Chen)。他并非“奥赛保送型天才”,而是一步步从北京中学生黑客松起步:凭借“ThirdArm机械辅助手”项目结识奇绩创坛(原YC中国)创始成员董科含,并在其引导下放弃跨境电商与短视频运营,转向底层AI技术深耕。
他曾在Gemini辅助下精读Transformer原始论文、复现Triton Kernel加速代码,在GitHub追踪FLA(Flash Linear Attention)项目时被Kimi团队注意到;暑期赴硅谷实习期间,主导144张H100集群的探索实验,并参与融资策略与工程师招聘系统搭建;回国后于2025年11月正式加入月之暗面,直接投身Attention Residuals这一最前沿方向的研发闭环。

这不仅是少年传奇,更折射出新一代AI人才的成长新范式:不靠光环入场,而以问题意识切入,用工程能力扎根,最终在真实的大模型战场上定义下一代架构。
目前,该技术已开源(GitHub仓库:https://github.com/MoonshotAI/Attention-Residuals/),并开放全部训练细节与消融实验,为社区提供可复现、可扩展的深度优化新路径。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...