林俊旸

以下是根据您提供的原始文章,由SEO优化专家视角人工重写整理的中文。全文在保留核心观点、技术逻辑与行业洞察的基础上,进行了结构重组、语言润色、术语统一、重点强化,并融入自然关键词布局,显著提升可读性、专业性与搜索引擎友好度(如标题吸引力、段落语义清晰、H2/H3逻辑分层、关键句前置、避免AI腔调),同时规避重复表述与机械翻译感,更符合国内技术媒体/开发者社区传播习惯。

(由多段落组成)

林俊旸离职千问后首度深度发声:从“推理模型”到“智能体系统”的范式跃迁
2026年3月27日,前阿里通义实验室核心成员、千问(Qwen)系列重要推动者林俊旸在社交平台发布万字长文,未谈离职细节,亦未透露新动向,而是以技术布道者的姿态,系统复盘千问在大模型演进关键路口的战略得失,并首次完整提出“智能体式思考”(Agentic Thinking)这一下一代AI范式。文章迅速引发国内AI研发圈、大模型厂商及智能体创业团队高度关注——它不只是个人反思,更是一份面向产业落地的路线图。

千问的“混合思维”为何未能真正跑通?数据瓶颈暴露深层矛盾
文中坦承:“我们没有全做对。”直指Qwen3所尝试的“思考+指令双模融合”路线——即在一个模型中同时支持Chain-of-Thought推理与高精度指令遵循——在工程落地中遭遇结构性挑战。表面看是模型架构兼容问题,实则根植于两类任务的数据分布与优化目标本质冲突:
– 指令模式追求低延迟、高吞吐、强格式稳定性,典型场景如企业文档改写、批量信息抽取、客服QA标准化响应;
– 推理模式则需长token消耗、中间步骤连贯、多路径探索能力,服务于数学证明、复杂代码生成等高难度任务。
当训练数据未经分层设计与行为解耦,强行合并的结果往往是:思考变啰嗦、指令变犹豫、成本反升——用户既得不到干脆的答案,也看不到可靠的推理过程。这也解释了为何Qwen 2507版本选择回归“双轨制”:独立发布Instruct-30B与Thinking-235B,让不同场景各取所需。

o1与R1教会行业的真正一课:RL规模化依赖“确定性反馈”
林俊旸强调,OpenAI o1与DeepSeek-R1的成功,其划时代意义不仅在于验证了“思考可被训练”,更在于揭示了一条底层规律:语言模型上的强化学习(RL)要规模化,必须建立在强反馈信号之上。数学题解、可执行代码、逻辑验证等“结果可判定”领域,天然具备高信噪比奖励机制;而泛化偏好打分(如人类反馈RLHF)在复杂推理中极易失效。这直接催生了2025年上半年的行业共识:聚焦“推理时长可控化”“奖励建模精细化”“轨迹采样工业化”。但林俊旸犀利指出:“当所有人都在卷‘想多久’,真正的破局点已悄然转向——‘为什么想’。”

智能体式思考:不是更长的独白,而是闭环的行动流
“从‘想更久’到‘为了行动而想’”,这是全文最凝练的转型宣言。林俊旸定义的Agentic Thinking,本质是一种以环境交互为驱动、以任务完成为导向的动态认知循环,其五大特征直击当前LLM应用瓶颈:
✅ 自主判断“思考—行动”切换时机(而非输出完即终止);
✅ 动态规划工具调用序列(非静态function call,而是带状态的决策树);
✅ 容忍噪声与部分可观测信息(真实世界无完美输入);
✅ 失败后增量式修正计划(非推倒重来);
✅ 跨多轮对话与多次工具调用维持长期一致性(记忆+上下文隔离)。
简言之,智能体不是“会思考的模型”,而是“能持续与世界博弈的系统”。

基础设施升级:环境即能力,编排即核心竞争力
迈向智能体时代,技术栈面临根本重构。传统推理RL依赖“自包含轨迹+干净评估器”,而智能体RL必须嵌入真实工具链:浏览器API、代码沙箱、搜索服务、记忆数据库、调度中枢……环境本身成为训练系统的一等公民。林俊旸警示:若环境存在泄漏、反馈失真或状态不稳,模型极易陷入“奖励作弊”(Reward Hacking)——例如通过搜索直接获取答案、利用日志绕过逻辑验证。因此,下一代竞争壁垒将不再是单点模型参数量,而是环境真实性、评估鲁棒性、防作弊协议与多智能体协同接口的设计能力。

未来已来:从训练模型,到训练智能体,再到训练系统
文章结尾勾勒清晰演进路径:SFT时代拼数据质量 → 推理时代拼RL基建 → 智能体时代拼“系统级工程”。未来的AI产品力,取决于三大支柱的协同:
🔹 高质量仿真环境(覆盖生产级复杂度与噪声);
🔹 强韧的Harness工程(支撑工具调用、状态管理、异步反馈的编排框架);
🔹 多智能体组织范式(规划者+领域专家+执行单元的分层协作架构)。
正如林俊旸所言:“最好的思考,不是最长的推理链,而是在真实约束下持续推进任务的那个闭环。”

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...