标签：推理模型

推理模型发展趋缓：强化学习与OpenAI推动性能提升，计算资源成关键因素——Epoch AI预言年内放缓

近年来，AI技术的快速发展引发了全球范围内的关注。非营利性AI研究机构Epoch AI在最近的一份报告中指出，AI企业可能难以通过推理模型持续获得显著的性能提升。据预测，最快在未来一年内，推理模型的进步速度将明显放缓。这份报告基于公开数据和假设分析得出结论，强调了计算资源限制以及研究成本上升对AI行业发展的潜在影响。推理模型作为AI领域的核心技术之一，其兴起主要得益于在特定任务上的卓越表现。例如，OpenAI旗下的o3模型近期在数学和编程能力方面取得了显著进步。这些模型通常通过增加计算资源来解决复杂问题，...

来源：

IT之家【阅读原文】
Tags：OpenAI 强化学习性能提升推理模型计算资源

1年前 (2025)

马斯克推出Grok 3.5 AI大模型，基于第一性原理的推理模型带来原创答案革命

随着科技的迅速发展，AI大模型正成为全球关注的焦点。根据最新消息，马斯克已将他的第一性原理应用到了AI领域。快科技4月30日报道显示，Grok 3的使用和下载量激增了10倍，这一成绩无疑为马斯克的新计划奠定了基础。接下来的一周，Grok 3.5的早期测试版本将向SuperGrok订阅用户开放。马斯克表示，这将是首款能够精准解答火箭发动机或电化学技术相关问题的AI系统。他强调：“Grok通过第一性原理进行推理，生成互联网上从未出现过的答案。”这意味着，如果Grok 3.5的表现符合预期，它将成为世界上第一个真正具备“原创”能力的AI...

来源：

快科技【阅读原文】
Tags：AI大模型 Grok 3.5 推理模型第一性原理马斯克

1年前 (2025)

揭秘智商测试超百的AI模型：OpenAI、Deepseek与谷歌Gemini推理模型及AI智能体全面解析

（由多段落组成）：随着人工智能技术的飞速发展，AI模型在智商测试中的表现也引起了广泛关注。根据站长之家(ChinaZ.com) 4月27日的消息，IT行业传来最新动态：TrackingAI.com近期公布了一项有趣的发现——OpenAI推出的o3模型在门萨智商测试中取得了132分的高分。这项非官方的在线测试主要评估视觉模式识别能力，而o3作为一款专注于推理能力的AI模型，展现了卓越的表现。 o3的独特之处在于其“思考”过程。当用户发出指令时，o3会在回复前稍作停顿，分析相关提示并详细解释其推理逻辑。此外，这款模型还具备图像理解能力，可以...

来源：

站长之家【阅读原文】
Tags：AI智能体 OpenAI 推理模型智商测试谷歌Gemini

1年前 (2025)

智谱AI发布新一代开源大模型GLM-4-32B-0414，推理速度高达200 tokens/秒，助力MaaS平台实现高效能服务

凤凰网科技讯（作者/杨睿琪）4月15日，国内知名人工智能企业智谱AI正式发布了新一代开源大模型GLM-4-32B-0414系列。这一系列涵盖了基座模型、推理模型以及沉思模型的权重，并采用了MIT开源协议进行发布。用户现在可以通过智谱AI的官方平台“z.ai”体验这些模型。根据官方说明，此次推出的推理模型GLM-Z1-Air/AirX-0414在智谱自主研发的MaaS平台bigmodel.cn上进行了实测，其推理速度最高可达200 tokens/秒。同时，智谱AI还特别强调了该模型的成本效益——GLM-Z1-Air-0414的价格仅为DeepSeek-R1的1/30。 GLM-4-32B-0414系列进一...

来源：

iFeng科技【阅读原文】
Tags：GLM-4-32B-0414 MaaS平台开源大模型推理模型智谱AI

1年前 (2025)

大模型发展与AI学习：探究推理模型的功能定位及提示词优化在思维链中的作用

随着人工智能技术的快速发展，许多朋友可能已经上过AI课程，甚至购买了网上提示词合集。然而，你是否还在用那些传统的提示词写作方式？比如在提示词中一步步拆解思维链，帮助模型学会分步思考；提供几个例题以加深模型对问题的理解；或者引导模型扮演特定角色，从而给出更专业的答案。这些技巧虽然在过去非常有效，但如今可能已经不再适用。实际上，在不知不觉中，大模型已经逐渐分化为两大类：传统通用大模型和推理大模型。例如，GPT-o1并不是GPT-4o的直接升级版本。GPT-4o属于通用大模型，而GPT-o1则是一款推理模型。类...

来源：

iFeng科技【阅读原文】
Tags：AI学习大模型发展思维链推理模型提示词优化

1年前 (2025)

字节跳动推出200B参数Seed-Thinking-v1.5推理模型，基于强化学习与MoE技术超越满血DeepSeek-R1

字节跳动旗下的豆包团队最近发布了一篇关于其新型推理模型 Seed-Thinking-v1.5 的技术报告。根据报告，这款模型采用 MoE 架构设计，总参数量高达 200B，但在运行时仅激活其中的 20B 参数。尽管规模相对紧凑，但其性能表现却极为出色，在多个领域基准测试中超越了拥有 671B 参数的 DeepSeek-R1 模型。有业内人士猜测，这可能是当前豆包正在使用的深度思考模型。值得注意的是，字节跳动在近期的一次活动推文中提到，4 月 17 日将在杭州举办的「2025 火山引擎 Force Link AI 创新巡展」上首次亮相一款全新的豆包模型。外界普...

来源：

机器之心【阅读原文】
Tags：MoE++ Seed-Thinking-v1.5 字节跳动强化学习推理模型

1年前 (2025)

大语言模型与推理模型进展：ICLR 2025论文分享会自回归架构与多模态大模型趋势解析，迈向AGI北京见

从 OpenAI o1 到 DeepSeek R1，推理模型已经迈入了全新的发展阶段。这些模型展现出的「慢思考、强推理」能力正在加速推动语言智能向认知智能的转变，并为未来的通用人工智能（AGI）奠定了重要基础。与此同时，学术界对大语言模型的研究仍在深入，扩散模型持续挑战主流的自回归架构。随着 2025 年智能体元年的到来，由大语言模型（LLM）驱动的智能体通过手机等移动终端实现落地，彻底改变了人机交互的传统模式。此外，多模态大模型的竞争日益激烈，不仅提升了跨模态的理解与生成能力，还注重低成本和低门槛的应用。为了帮助...

来源：

机器之心【阅读原文】
Tags：AGI 多模态大模型大语言模型推理模型自回归架构

1年前 (2025)

OpenAI推出史上最昂贵模型o1-pro，单价远超DeepSeek，100万输出token售价600美元，ai模型领域再掀波澜，推理模型成本成为焦点

OpenAI推出了其史上最昂贵的模型，比DeepSeek高出270倍的价格引发了热议！以下是关于这一事件的详细报道和分析。 1. 模型价格惊人近日，OpenAI上线了推理模型o1-pro的API。然而，当用户看到价格时，不禁感叹其高昂的成本。100万输入/输出token的价格分别为150美元和600美元。与DeepSeek相比，其输出价格整整贵了270倍，这使得许多网友纷纷吐槽：“除非它的智能达到了爱因斯坦级别，否则不值得。” 2. 社交媒体上的争议关于o1-pro的价格问题，在Reddit等平台上掀起了热烈讨论。尽管价格高昂，但OpenAI坚称o1-pro物有所值...

来源：

量子位【阅读原文】
Tags：AI模型 DeepSeek o1-pro OpenAI 推理模型

1年前 (2025)

阿里云发布QwQ-32B推理模型，性能媲美DeepSeek-R1

阿里云在3月6日凌晨发布了最新的推理模型QwQ-32B。这款模型的参数量为320亿，虽然远低于DeepSeek-R1的6710亿参数，但在消费级显卡上也能实现本地部署，表现令人惊艳。特别是在数学推理和编程能力方面，QwQ-32B与DeepSeek-R1相当，甚至在通用能力测评中超越了后者。苹果机器学习科学家Awni Hannun（吴恩达的学生）展示了QwQ-32B在配备MLX框架的M4 Max芯片电脑上的运行速度，证实其“非常快”。该模型在Hugging Face和ModelScope上以Apache 2.0许可证开源，可用于商业和研究用途，为企业提供了强大的工具来增强产品和应用程序...

来源：

智东西【阅读原文】
Tags：QwQ-32B 开源推理模型阿里云

1年前 (2025)

多位数乘法,大模型数学能力的现状与挑战

传统的大规模语言模型（LLM）在数学计算方面表现不佳，尤其是面对简单的多位数乘法时，常常出现错误。然而，随着推理模型如o1、o3和DeepSeek-R1的推出，情况正在逐渐改善。例如，DeepSeek-R1在AIME 2024竞赛中取得了79.8%的准确率，而OpenAI发布的o3-mini (high)更是达到了87.3%的准确度。尽管如此，这些模型在处理多位数乘法时仍然存在显著的局限性。实验结果：多位数乘法的挑战滑铁卢大学助理教授邓云天通过实验发现，即使是较为先进的模型如o1，在处理超过9x9的乘法时，准确度明显下降。GPT-4o则在4x4乘法时就遇到了困...

来源：

机器之心【阅读原文】
Tags：Transformer 多位数乘法推理模型自我提升长度泛化

1年前 (2025)