标签：大模型推理

DeepSeek-R1突破性成果登《自然》杂志，开源AI引领大模型推理与强化学习新纪元

（由多段落组成）： 2024年9月17日，中国AI团队DeepSeek再次刷新全球人工智能研究的历史——其核心研究成果《DeepSeek-R1：基于纯强化学习的大模型推理能力演化》正式登上国际顶级学术期刊《自然（Nature）》封面。这是全球首个经过完整同行评审并被权威科学期刊认证的主流大语言模型研究，标志着国产AI在科研严谨性与技术创新上的双重突破。该论文由DeepSeek团队联合撰写，梁文锋担任通讯作者，首次系统揭示了仅通过强化学习即可激发大语言模型自主推理能力的技术路径。不同于依赖大量人工标注思维链数据的传统方法，DeepS...

来源：

智东西【阅读原文】
Tags：（关键词用逗号间隔分隔）： DeepSeek-R1 大模型推理开源AI 强化学习自然杂志

10个月前

AMD MI350X搭载HBM3E内存，大模型推理性能超越英伟达B200，提升30%效率，奥特曼助力AI芯片新纪元

（由多段落组成） AMD 在人工智能领域再下一城，最新推出的 MI350X 和 MI355X 两款 GPU 引发广泛关注。据官方介绍，这两款芯片在大模型推理性能上比英伟达的 B200 快了整整 30%，并得到了 OpenAI 创始人奥特曼的亲自站台支持。此次发布标志着 AMD 正式向英伟达发起挑战。 MI350 系列采用了先进的 3nm 工艺，包含高达 1850 亿个晶体管，并配备了最新的 HBM3E 内存技术。与前代产品 MI300X 相比，MI350 系列的算力提升了 4 倍，推理速度更是快了 35 倍。此外，其内存容量达到了英伟达 B200 的 1.6 倍，训练和推理速度也实现...

来源：

量子位【阅读原文】
Tags：AMD HBM3E MI350X 大模型推理英伟达 B200

1年前 (2025)

上海AI Lab发布新一代InternThinker，围棋AI引领大模型推理与通专融合新纪元

围棋因其独特的复杂性，成为衡量AI专业能力的重要指标。尽管当前AI在棋力、效率和通用性上表现卓越，但其推理过程仍难以用人类语言解释。为解决这一问题，上海人工智能实验室推出了新一代大模型InternThinker。该模型不仅具备围棋专业水平，还能通过自然语言解析对弈过程。 InternThinker能够透明展示思维链，并以自然语言点评围棋中的“神之一手”。例如，在李世石与AlphaGo的对决中，InternThinker准确评价了李世石的关键一步，并提供了合理的应对策略。此外，InternThinker还拥有多样化的语言风格，能根据用户的表现给予鼓...

来源：

量子位【阅读原文】
Tags：InternThinker 上海AI Lab 围棋AI 大模型推理通专融合

1年前 (2025)

性价比之王，中杯o3模型在OpenAI的性价比方面表现突出

在ARC-AGI测试中的表现令人印象深刻。根据官方数据，中杯o3在ARC-AGI-1上的得分为57%，成本仅为1.5美元/任务，远超其他已知COT推理模型。而更小规模的o4-mini（Medium）虽然准确率稍低，但其成本仅为0.23美元/任务，显示出显著的成本优势。然而，在升级难度的ARC-AGI-2上，两款模型的准确率均未超过3%。这表明尽管中杯o3在基础推理任务中表现出色，但在面对更高层次的抽象问题时仍需进一步优化。值得注意的是，当前版本的o3模型与去年底发布的版本有所不同。最新版本经过微调，更适合聊天和产品应用，而非专门针对ARC-AG...

来源：

量子位【阅读原文】
Tags：ARC-AGI测试 OpenAI 中杯o3 大模型推理性价比之王

1年前 (2025)

清华团队利用强化学习与PRIME算法，仅需一万成本使Eurus-2-7B-PRIME大模型在数学推理上超越GPT-4

清华团队利用强化学习让7B模型数学能力超越GPT-4o，仅需一万块钱！近日，清华大学NLP实验室、上海AI Lab、清华大学电子系以及OpenBMB社区等团队提出了一种新的结合过程奖励的强化学习方法——PRIME（Process Reinforcement through IMplicit REwards）。该方法不依赖任何蒸馏数据和模仿学习，仅用8张A100显卡，在不到10天的时间内，花费大约一万块钱，成功训练出一个数学能力超过GPT-4o、Llama-3.1-70B的7B模型Eurus-2-7B-PRIME。强化学习与大模型推理能力的突破随着OpenAI o1和o3模型的发布，强化学习已被证明能够使大...

来源：

量子位【阅读原文】
Tags：Eurus-2-7B-PRIME PRIME算法大模型推理强化学习过程奖励

2年前 (2025)