标签：强化学习

DeepSeek-Prover：基于强化学习的数学定理证明模型，在普特南测试与miniF2F中展现卓越性能，7B参数小模型竟自主发现连671B大模型也望尘莫及的新技能！

DeepSeek再次展现强大实力！全新推出的数学定理证明模型大幅提升了多个高难度基准测试的表现。在普特南测试中，新模型DeepSeek-Prover-V2成功解决了49道题目，成为当前表现最为突出的模型之一。相比之下，目前排名第一的Kimina-Prover（由Kimi与AIME2024冠军团队Numina合作开发）仅在657道题中解出10道。而未针对定理证明优化的DeepSeek-R1则仅解出1道题，这使得尚未发布的R2备受期待。此外，在研究论文中还特别提到了“通过强化学习发现新技能”的现象。例如，参数量较小的DeepSeek-Prover-V2-7B在非链式思维（non-CoT）生...

来源：

iFeng科技【阅读原文】
Tags：DeepSeek-Prover miniF2F 强化学习数学定理证明普特南测试

1年前 (2025)

中信建投分析：大厂AI产品如OpenAI的GPT-4.1与豆包大模型迭代加速，MCP广场应用强化学习技术，推动行业持续繁荣与发展前景

中信建投在最新研报中指出，OpenAI近期发布了三款全新的GPT-4.1系列模型，同时还推出了两款新推理模型o3和o4-mini。这些模型在多模态处理、代码生成能力、指令遵循性、推理性能以及成本控制等方面均实现了显著优化。特别是在o3模型的研发过程中，推理方向的Scaling law依然保持持续改进，进一步验证了强化学习范式扩展的正确性。与此同时，豆包大模型的表现也十分抢眼，其日均tokens调用量已突破12.7万亿，这一数据是2024年12月的三倍之多。随着豆包1.5•深度思考模型的上线，预计将进一步激发用户的使用热情，提升整体活跃...

来源：

界面新闻【阅读原文】
Tags：GPT-4.1 MCP广场 OpenAI 强化学习豆包大模型

1年前 (2025)

字节Seed开源多模态智能体UI-TARS-1.5：探索未来人工智能的新里程碑

字节跳动旗下的Seed团队于4月18日正式宣布开源多模态智能体UI-TARS-1.5。这款智能体基于视觉-语言框架设计，专注于通过虚拟环境中的任务执行来提升基础模型的通用推理能力。它能够支持复杂的操作任务，例如精准操控电脑、手机系统以及浏览器交互等。根据官方介绍，UI-TARS-1.5已经在7个典型的图形用户界面（GUI）评测基准中表现出卓越性能（SOTA），并且首次展示了其在游戏场景中的长时推理能力和开放空间中的交互能力。相比上一代原生GUI智能体，UI-TARS-1.5引入了强化学习机制以优化高阶推理能力，并新增了“行动前思考”...

来源：

iFeng科技【阅读原文】
Tags：UI-TARS-1.5 图形用户界面多模态智能体强化学习系统2推理机制

1年前 (2025)

字节跳动推出200B参数Seed-Thinking-v1.5推理模型，基于强化学习与MoE技术超越满血DeepSeek-R1

字节跳动旗下的豆包团队最近发布了一篇关于其新型推理模型 Seed-Thinking-v1.5 的技术报告。根据报告，这款模型采用 MoE 架构设计，总参数量高达 200B，但在运行时仅激活其中的 20B 参数。尽管规模相对紧凑，但其性能表现却极为出色，在多个领域基准测试中超越了拥有 671B 参数的 DeepSeek-R1 模型。有业内人士猜测，这可能是当前豆包正在使用的深度思考模型。值得注意的是，字节跳动在近期的一次活动推文中提到，4 月 17 日将在杭州举办的「2025 火山引擎 Force Link AI 创新巡展」上首次亮相一款全新的豆包模型。外界普...

来源：

机器之心【阅读原文】
Tags：MoE++ Seed-Thinking-v1.5 字节跳动强化学习推理模型

1年前 (2025)

火山引擎Q-Insight结合强化学习，推动图像质量评估与多模态大模型在视频云领域的深度发展

随着生成式人工智能与多模态大模型的快速发展，AI 视觉创作正迎来前所未有的生产力爆发。然而，如何评估机器生成的画质是否符合人眼审美，成为了一个亟待解决的问题。北京大学与火山引擎多媒体实验室联合提出了一种基于强化学习训练的多模态大模型图像画质理解方案 Q-Insight，为这一问题提供了创新性的解决方案。 Q-Insight 的核心理念 Q-Insight 不再简单地依赖于对人眼评分的拟合，而是将评分视为一种引导信号，促使模型深入思考图像质量的本质原因。这种方法不仅提升了模型的准确性，还增强了其泛化推理能力，使得 Q-I...

来源：

机器之心【阅读原文】
Tags：Q-Insight 图像质量评估多模态大模型强化学习火山引擎视频云

1年前 (2025)

Llama 4重磅发布：首次引入混合专家架构，千万token上下文能力，开源AI领域新突破——多模态模型与强化学习助力超越DeepSeek

万万没想到，Meta 选择在周末发布了全新的 AI 模型系列——Llama 4。作为 Llama 家族的最新成员，该系列包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。这些模型通过大量未标注的文本、图像和视频数据进行训练，具备广泛的视觉理解能力。 Meta GenAI 负责人 Ahmad Al-Dahle 表示，Llama 4 展现了 Meta 对开源 AI 的长期承诺以及开放系统将带来最佳小型、中型和前沿大模型的坚定信念。谷歌 CEO 劈查伊也对 Llama 4 团队表示祝贺，并称赞人工智能世界永远不会无聊。在大模型竞技场（Arena）中，Llama 4 Maverick...

来源：

机器之心【阅读原文】
Tags：Llama 4 多模态模型开源 AI 强化学习混合专家架构

1年前 (2025)

智元机器人与具身智能：90后天才科学家罗剑岚的逆袭之路，强化学习领域Sergey Levine级新星崛起

（由多段落组成）稚晖君旗下的智元机器人公司最近宣布了两项重要动态。一方面，他们迎来了具身智能领域的顶尖学者罗剑岚博士加入团队，并担任首席科学家一职。罗剑岚博士在具身智能领域深耕十年，曾就职于Google X和DeepMind等知名机构，是UC伯克利Sergey Levine团队的核心成员之一。他曾参与开发了全球首个超人类的机器人真机强化学习系统SERL/HIL-SERL，成功将任务成功率提升至100%，并在全球范围内得到了广泛应用。接下来，罗剑岚博士将负责组建“智元具身智能研究中心”，主导前沿算法的研究与工程化落地工作。另一方...

来源：

量子位【阅读原文】
Tags：Sergey Levine 具身智能强化学习智元机器人罗剑岚

1年前 (2025)

视觉理解模型与数学推理结合：通义开源32B参数图像解析新模型，强化学习驱动的视觉逻辑分析能力提升，看图说话更进一步！

第一段智东西（公众号：zhidxcom）报道，3月25日，阿里云通义千问开源了一款更小尺寸的视觉理解模型——Qwen2.5-VL-32B-Instruct。这一发布与DeepSeek V3新版本几乎同时进行。该模型在输出风格、数学推理能力以及图像解析等方面表现出色，能够应对复杂的数学问题，并在识别和视觉逻辑推导任务中具备细粒度分析能力。第二段 Qwen2.5-VL-32B-Instruct是在1月底开源的Qwen2.5-VL系列基础上，通过强化学习持续优化而来的。这款模型采用Apache 2.0协议开源，其参数规模为32B，正迅速成为许多科技爱好者的首选模型大小。它不仅能...

来源：

智东西【阅读原文】
Tags：图像解析强化学习数学推理视觉理解模型视觉逻辑

1年前 (2025)

强化学习与视觉语言模型结合：西北大学推出三维布局空间推理框架MetaSpatial，解锁50条数据驱动的空间智能新纪元

（由多段落组成）在三维空间理解任务中，让视觉语言模型生成合理且符合物理规则的场景布局仍是一项挑战。例如，“请将这些家具合理摆放在房间中”，尽管现有模型可以识别图像中的物体并给出语义连贯的描述，但通常缺乏对三维空间结构的真实建模，难以满足基本的物理约束与功能合理性。为解决这一问题，研究者尝试采用多智能体交互方法优化布局结果。然而，这类方法不仅计算成本高，而且容易陷入死锁。另一类方法通过构建大规模真实房间布局的描述语料，结合监督微调（Supervised Fine-Tuning, SFT）训练模型。虽然这种方式...

来源：

量子位【阅读原文】
Tags：MetaSpatial 三维布局强化学习空间推理视觉语言模型

1年前 (2025)

OpenAI后训练时代：William Fedus离职创业，AI4S与ChatGPT强化学习引领未来方向

第一段最近，OpenAI的高管离职潮再次掀起波澜。在CTO Mira带领一众人才离开之后，后训练研究副总裁William Fedus也宣布离职并开始创业。这一消息引起了广泛关注。值得注意的是，去年10月，他刚刚晋升为后训练研究副总裁，接替了前负责人Barret Zoph的位置。第二段 Fedus的离职并非毫无征兆。他在辞职声明中提到，自己的本科专业是物理学，并且渴望将AI for Science（AI4S）应用于物理领域。由于AI4S被认为是实现通用人工智能（ASI）最具战略意义的方向之一，OpenAI计划投资并与他的新公司合作。据媒体爆料，Fedus的新公...

来源：

量子位【阅读原文】
Tags：AI4S ChatGPT OpenAI William Fedus 强化学习

1年前 (2025)

123 4…6