(由多段落组成):
2025年10月,由前OpenAI高管翁荔、陈丹琦等顶尖AI人才联合创立的初创公司 Thinking Machines Lab 正式发布其首款产品——Thinker,标志着这家曾被戏称为“零产品、零收入却估值840亿”的神秘团队终于迈出商业化关键一步。这款新工具旨在大幅降低大语言模型微调的技术门槛,让研究人员无需深入底层架构,也能高效定制前沿AI模型。
Thinker的核心定位是一个高度灵活的语言模型微调API,主打“像写Python代码一样简单”。它允许用户直接控制数据处理流程、损失函数设计和训练算法逻辑,同时自动托管复杂的基础设施任务,如分布式训练调度、GPU资源扩展与容错恢复。这种“保留核心控制权,屏蔽底层复杂性”的设计理念,赢得了包括特斯拉AI负责人Andrej Karpathy在内的业界大牛点赞,称其为“真正酷的产品”。
与市面上常见的“上传数据-等待结果”式黑箱微调服务不同,Thinker致力于赋予研究者90%以上的实验自由度。开发者只需在代码中修改一个参数,即可在Qwen3、Llama3等主流模型家族间无缝切换,从小规模实验快速扩展到高性能场景。这一特性极大提升了科研迭代效率,尤其适合高校与独立实验室在有限算力下开展创新研究。
为了进一步推动社区共建,Thinking Machines Lab还同步开源了 Tinker Cookbook,提供多种后训练方法的现成实现方案,涵盖指令微调、强化学习对齐等热门方向。值得注意的是,尽管当前许多机构倾向采用DeepSeek提出的GRPO优化策略,Tinker选择回归经典,基于REINFORCE算法结合优势函数进行梯度更新,公式简洁明了:新参数 = 原参数 + 学习率 × 优势值 × 对数概率梯度,且未使用梯度裁剪,展现出对稳定性和可解释性的追求。
在技术架构上,Thinker深度集成LoRA(低秩适配)技术,支持多个微调任务共享同一块GPU资源,显著降低单次实验成本,并实现高并发并行训练。这一能力已吸引普林斯顿、斯坦福、加州伯克利及Redwood Research等多个顶级研究团队投入实际项目,并取得初步成果。Anyscale CEO Robert Nishihara评价道:“Tinker在抽象层级与可调节性之间找到了近乎完美的平衡点。”
更值得关注的是,Thinking Machines Lab正试图重塑一个“理想中的OpenAI”——一个开放研究成果、鼓励学术自由、保持敏捷创新文化的AI实验室。这与近年来逐渐走向封闭与商业化的OpenAI形成鲜明对比。与此同时,OpenAI自身也在悄然转型,据代码泄露信息显示,ChatGPT或将上线“社交模式”,支持用户头像、昵称设置及群聊通知功能,甚至可能打造“AI+人类共存”的社交生态,被外界调侃为“AI版抖音”或“Meta化”的开端。
Thinker的推出不仅是一次产品落地,更是对当前AI研发范式的重新思考:随着大模型应用日益复杂,越来越多系统采用多模型协作流水线,而微调正成为优化特定环节的关键手段。相比繁琐的Few-shot Prompt工程,在数据充足时微调小型专用模型反而更高效精准。Thinker正是为此类精细化调优提供了轻量级、高可控的解决方案,有望成为下一代AI研发基础设施的重要拼图。
大模型微调, Thinker API, Thinking Machines Lab, LoRA技术, AI研发工具
本文来源:
量子位【阅读原文】

