Mistral AI 和 Allen 人工智能研究所发布最新大型语言模型
1月31日,站长之家(ChinaZ.com)报道,Mistral AI 和 Allen 人工智能研究所(简称 Ai2)分别发布了最新的大型语言模型(LLM)。Mistral 推出的 Mistral Small 3 模型参数量为240亿,远少于市场上的其他先进 LLM。这使得它在启用量化后可以在某些 MacBook 上运行。量化技术旨在降低硬件资源需求的同时,减少输出质量的损失。
Mistral 在内部评估中将 Mistral Small 3 与 Meta Platforms Inc. 的开源 LLM Llama 3.3 70B Instruct 进行了对比。尽管 Mistral Small 3 的参数量仅为前者的三分之一,但其输出质量与 Llama 3.3 70B 相当,并且响应速度更快。此外,在另一项测试中,Mistral Small 3 的性能优于 OpenAI 的 GPT-4o mini,提供了更高的输出质量和更低的延迟。
开发人员通常通过创建基础模型并使用多种训练方法来优化 LLM 的输出质量。Mistral 在构建 Mistral Small 3 时跳过了后续的细化过程,让用户可以根据项目需求自行微调。这款 LLM 特别适用于低延迟执行外部应用程序任务的 AI 自动化工具,以及机器人技术、金融服务和制造业等行业特定用例。
Mistral 的研究人员表示:“Mistral Small 3 是一款预训练和指令式模型,专为应对‘80%’的生成式 AI 任务而设计——这些任务需要强大的语言能力和指令跟随性能,并且延迟非常低。”
与此同时,非营利性 AI 研究机构 Ai2 发布了 Tülu 3 405B,这是对 Meta 去年6月发布的开源 Llama 3.1 405B 模型的定制版。Ai2 在多个基准测试中展示了 Tülu 3 405B 的优越性能。该模型的开发流程包括监督微调、DPO(偏好对齐)和 RLVR(强化学习变体),以优化其数学问题解决能力等。
Ai2 的研究人员表示:“Tülu 3 405B 代表了完全开放的后训练方法首次应用于最大开放权重模型,我们展示了在 405B 参数规模上应用后训练方法的可扩展性和有效性。”
关键词
Mistral Small 3, Tülu 3 405B, 大型语言模型, 量化技术, 后训练方法
SEO 优化后的文章
Mistral AI 和 Allen 人工智能研究所推出全新大型语言模型
据站长之家(ChinaZ.com)1月31日报道,Mistral AI 和 Allen 人工智能研究所(简称 Ai2)分别推出了全新的大型语言模型(LLM),标志着自然语言处理领域的重要进展。Mistral 发布的 Mistral Small 3 模型参数量为240亿,虽然相对较小,但在启用量化技术后,能够在某些 MacBook 上顺利运行。量化技术能够有效降低硬件资源需求,同时尽量减少输出质量的损失。
在内部评估中,Mistral 将 Mistral Small 3 与 Meta Platforms Inc. 的开源 LLM Llama 3.3 70B Instruct 进行了对比。尽管参数量仅为 Llama 3.3 70B 的三分之一,Mistral Small 3 展现了相似的输出质量,但响应速度显著提升。此外,Mistral Small 3 在与 OpenAI 的 GPT-4o mini 对比中也表现出更高的输出质量和更低的延迟。
开发人员通常会先创建一个基础模型,再通过多种训练方法优化 LLM 的输出质量。Mistral 在构建 Mistral Small 3 时省略了后续的细化步骤,让用户能够根据具体需求自行微调。这款 LLM 特别适合用于低延迟执行外部应用程序任务的 AI 自动化工具,以及机器人技术、金融服务和制造业等行业特定应用。
Mistral 的研究人员表示:“Mistral Small 3 是一款预训练和指令式模型,专为应对‘80%’的生成式 AI 任务而设计,这些任务需要强大的语言能力和指令跟随性能,并且延迟非常低。”
与此同时,非营利性 AI 研究机构 Ai2 推出了 Tülu 3 405B,这是对 Meta 去年6月发布的开源 Llama 3.1 405B 模型的改进版本。在多个基准测试中,Tülu 3 405B 表现优异。该模型的开发流程结合了监督微调、DPO(偏好对齐)和 RLVR(强化学习变体)等多种训练方法,以优化其在数学问题解决等方面的能力。
Ai2 的研究人员指出:“Tülu 3 405B 代表了完全开放的后训练方法首次应用于最大开放权重模型,展示了我们在 405B 参数规模上应用后训练方法的可扩展性和有效性。”
本文来源: