围棋因其独特的复杂性,成为衡量AI专业能力的重要指标。尽管当前AI在棋力、效率和通用性上表现卓越,但其推理过程仍难以用人类语言解释。为解决这一问题,上海人工智能实验室推出了新一代大模型InternThinker。该模型不仅具备围棋专业水平,还能通过自然语言解析对弈过程。
InternThinker能够透明展示思维链,并以自然语言点评围棋中的“神之一手”。例如,在李世石与AlphaGo的对决中,InternThinker准确评价了李世石的关键一步,并提供了合理的应对策略。此外,InternThinker还拥有多样化的语言风格,能根据用户的表现给予鼓励或批评。
InternThinker的强大推理能力得益于创新的训练环境——InternBootcamp。这个“加速训练营”包含超过1000个验证环境,覆盖多种复杂逻辑推理任务。通过批量化生成难度可控的任务并与大模型交互反馈,InternBootcamp帮助大模型跳出传统模式,显著提升推理能力。
在多任务混合强化学习过程中,研究人员观察到了“涌现时刻”现象。这表明,通过多任务混合训练,模型能够在原本无法成功推理的任务中获得奖励。随着InternBootcamp任务数量和质量的提升,大模型有望实现更多实用推理任务的能力升华。
上海AI Lab在通专融合技术路线上取得了突破性进展。通过三层技术路径,即基础模型层、融合协同层和探索进化层,实现了通用泛化性和高度专业性的结合。具体包括全新的“记忆体+解码器”架构、PRIME强化学习算法、MoR后训练技术框架以及OREAL强化学习新范式等。
未来,上海AI Lab将继续推进通专融合技术路线的发展,通过InternBootcamp开放新能力,助力科学发现和产业创新。公测链接:https://internlm-chat.intern-ai.org.cn/;开源地址:https://github.com/InternLM/InternBootcamp。
本文来源: