标签:大模型推理
性价比之王,中杯o3模型在OpenAI的性价比方面表现突出
在ARC-AGI测试中的表现令人印象深刻。根据官方数据,中杯o3在ARC-AGI-1上的得分为57%,成本仅为1.5美元/任务,远超其他已知COT推理模型。而更小规模的o4-mini(Medium)虽然准确率稍低,但其成本仅为0.23美元/任务,显示出显著的成本优势。 然而,在升级难度的ARC-AGI-2上,两款模型的准确率均未超过3%。这表明尽管中杯o3在基础推理任务中表现出色,但在面对更高层次的抽象问题时仍需进一步优化。 值得注意的是,当前版本的o3模型与去年底发布的版本有所不同。最新版本经过微调,更适合聊天和产品应用,而非专门针对ARC-AG...
清华团队利用强化学习与PRIME算法,仅需一万成本使Eurus-2-7B-PRIME大模型在数学推理上超越GPT-4
清华团队利用强化学习让7B模型数学能力超越GPT-4o,仅需一万块钱! 近日,清华大学NLP实验室、上海AI Lab、清华大学电子系以及OpenBMB社区等团队提出了一种新的结合过程奖励的强化学习方法——PRIME(Process Reinforcement through IMplicit REwards)。该方法不依赖任何蒸馏数据和模仿学习,仅用8张A100显卡,在不到10天的时间内,花费大约一万块钱,成功训练出一个数学能力超过GPT-4o、Llama-3.1-70B的7B模型Eurus-2-7B-PRIME。 强化学习与大模型推理能力的突破 随着OpenAI o1和o3模型的发布,强化学习已被证明能够使大...