标签：数学推理

清华AI数学家：基于前沿理论的自动证明与智能体数学推理能力展示

整理后的 #（由多段落组成）清华大学的研究团队推出了一项名为AI Mathematician (AIM) 的框架，该框架能够进行数学推理并解决前沿理论问题。这一成果标志着人工智能在探索数学理论方面迈出了重要一步。 AIM框架的核心在于其对复杂数学问题的处理能力。例如，在吸收边界条件问题中，AIM通过构造人工边界成功得出了较为精确的近似解。此外，AIM还展示了其在能量估计方面的关键中间结论推导能力，并正确应用这些结论于后续证明中。当前数学理论研究面临两大挑战：问题复杂度和证明严谨性。数学理论的推导需要复杂的思考过...

来源：

量子位【阅读原文】
Tags：前沿理论数学推理智能体清华AI 自动证明

1年前 (2025)

西北大学与谷歌联合推出新框架：结合贝叶斯自适应强化学习与大型语言模型，全面提升数学推理能力及反思机制

段落一近期，西北大学与谷歌DeepMind团队合作提出了一种全新的框架——贝叶斯自适应强化学习（BARL），首次深入解析了大型语言模型（LLM）在推理过程中的反思行为。这一研究不仅回答了“为什么、如何以及何时需要反思”的问题，还为数学推理能力的全面提升提供了新的解决方案。段落二研究人员通过对比传统强化学习（RL）和BARL的效果发现，在完成特定任务时，例如“要求模型在三步内输出三个连续相同字符”，传统RL方法往往固守单一策略，而BARL则能够灵活排除无效假设并切换新策略。此外，在数学推理任务中，BARL展现出更高...

来源：

量子位【阅读原文】
Tags：反思机制大型语言模型强化学习数学推理贝叶斯自适应强化学习

1年前 (2025)

FormalMATH助力数学推理：AI模型结合链式思维与自然语言处理，挑战形式化数学基准新高度

（由多段落组成）挑战AI数学推理的极限！FormalMATH大规模形式化数学基准测试正式发布，最强模型的成功率仅为16.46%。这一结果揭示了当前人工智能在数学推理领域的局限性。香港中文大学、西湖大学、MAP、浙江大学、马克斯·普朗克智能系统研究所等多家机构联合推出了名为FormalMATH的形式化数学推理基准测试。该测试包含5560道经过严格验证的数学题目，涵盖了从奥数到大学水平的多个领域，如代数、微积分和数论等。形式化数学推理被认为是人工智能领域中的核心难题之一。尽管大语言模型（LLM）在自然语言处理和代码生成...

来源：

量子位【阅读原文】
Tags：AI模型 FormalMATH 数学推理自然语言处理链式思维

1年前 (2025)

视觉理解模型与数学推理结合：通义开源32B参数图像解析新模型，强化学习驱动的视觉逻辑分析能力提升，看图说话更进一步！

第一段智东西（公众号：zhidxcom）报道，3月25日，阿里云通义千问开源了一款更小尺寸的视觉理解模型——Qwen2.5-VL-32B-Instruct。这一发布与DeepSeek V3新版本几乎同时进行。该模型在输出风格、数学推理能力以及图像解析等方面表现出色，能够应对复杂的数学问题，并在识别和视觉逻辑推导任务中具备细粒度分析能力。第二段 Qwen2.5-VL-32B-Instruct是在1月底开源的Qwen2.5-VL系列基础上，通过强化学习持续优化而来的。这款模型采用Apache 2.0协议开源，其参数规模为32B，正迅速成为许多科技爱好者的首选模型大小。它不仅能...

来源：

智东西【阅读原文】
Tags：图像解析强化学习数学推理视觉理解模型视觉逻辑

1年前 (2025)

电信人工智能研究院推出复杂推理大模型，数学推理能力达竞赛级表现，强化学习与思维链路技术助力评分超越o1-preview

中国电信人工智能研究院发布复杂推理大模型TeleAI-t1-preview 近日，中国电信人工智能研究院（TeleAI）正式发布了其最新成果——“复杂推理大模型”TeleAI-t1-preview，并即将上线天翼 AI 开放平台。该模型通过引入探索、反思等思考范式，显著提升了在数学推导和逻辑推理等方面的准确性。早在1500多年前，中国古代数学家祖冲之就曾指出，复杂事物的运行规律可以通过实际观测和数据推理严谨求得。如今，TeleAI-t1-preview 正在用严密的思维链路，摆脱幻觉的怪圈，向这一目标迈进。 TeleAI-t1-preview 在权威评测中表现出色在...

来源：

机器之心【阅读原文】
Tags：复杂推理大模型强化学习思维链路数学推理电信人工智能研究院

1年前 (2025)

苹果新论文揭示大型语言模型的逻辑推理能力局限：GSM-Symbolic与数学题挑战

苹果公司最新发布的一篇论文《GSM-Symbolic： Understanding the Limitations of Mathematical Reasoning in Large Language Models》探讨了大型语言模型（LLM）在数学推理方面的局限性。这篇论文由苹果机器学习研究工程师 Iman Mirzadeh 主笔，Samy Bengio 等人共同完成。研究团队通过一系列实验发现，即使是当前最先进的 LLM，如 OpenAI 的 o1-preview，在面对稍微复杂的数学问题时，依然会出现明显的推理错误。研究人员通过具体例子展示了这一现象。例如，当题目中包含无关紧要的细节时，模型往往会被误导。例如，题目...

来源：

机器之心【阅读原文】
Tags：GSM-Symbolic 大型语言模型数学推理苹果论文逻辑推理能力

2年前 (2024)

OpenAI O1模型在LMSYS竞技场全面登顶，编码能力和数学推理超越Claude及谷歌模型，O1-mini表现同样卓越

OpenAI O1 模型在 LMSYS 竞技场的卓越表现最近，OpenAI 发布的新模型 O1 在 LMSYS 竞技场的评测中取得了令人瞩目的成绩。O1 预览版（O1-preview）凭借其出色的性能，在多个领域稳居榜首，超越了最新的 GPT-4 版本。特别是在数学、复杂提示处理和编码领域，O1-preview 表现尤为突出。 O1-mini 虽然名称中有“mini”，但其综合排名与最新版 GPT-4 并列第二，同样在多个领域名列前茅。这一结果充分展示了 O1 模型在通用推理领域的强大实力。LMSYS 社区对此评价极高，称其为“难以置信的里程碑”。详细评测数据为了更直观地...

来源：

新智元公众号【阅读原文】
Tags：LMSYS 竞技场 o1 模型 OpenAI 数学推理编码能力

2年前 (2024)

阿里巴巴开源新模型Qwen2-Math：人工智能领域的数学推理专家，超越GPT-4o，数学能力全球领先!

阿里巴巴发布Qwen2-Math：数学推理领域的全新突破近期，阿里巴巴宣布开源了一款名为Qwen2-Math的强大数学模型，此模型旨在为数学推理领域带来革命性的进展。Qwen2-Math提供基础和指令微调两个版本，并包含了1.5B、7B和72B三种不同规模的参数配置。经过主流数学基准测试验证，Qwen2-Math-72B指令微调版展现出了超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro等知名闭源模型的卓越性能，甚至在与Meta的Llama-3.1-405B模型的竞争中也占据优势。这一成就确立了Qwen2-Math-72B在全球数学推理领域的领先地位。基础模型的深度...

来源：

AIGC开放社区公众号【阅读原文】
Tags：Qwen2-Math 人工智能开源数学推理阿里巴巴

2年前 (2024)