刚刚!蚂蚁推出首个金融推理大模型,登顶权威金融测评,超越OpenAI o1、DeepSeek-R1

整理如下(,优化SEO结构):

蚂蚁数科发布新一代金融大模型Agentar-Fin-R1,性能领先行业

7月28日,蚂蚁数科正式对外发布其最新研发的金融推理大模型——Agentar-Fin-R1。该模型基于Qwen3架构进行深度优化,在多个权威金融评测基准中表现优异,超越了包括DeepSeek-R1在内的同尺寸通用大模型及金融垂直模型。

此次发布的Agentar-Fin-R1包含32B和8B参数两个推理版本,同时还有14B和72B参数的非推理版本,旨在满足金融机构在不同业务场景下的部署需求。此外,蚂蚁数科还推出了基于百灵大模型的MoE(混合专家)架构模型,进一步提升了模型的推理效率与响应速度。

开源金融评测基准与训练数据集,推动行业标准化发展

在发布大模型的同时,蚂蚁数科也宣布开源Finova评测基准与Agentar-Deepfinance-100K训练数据集,旨在为金融大模型的评估与训练提供标准化工具和高质量数据支持。

Finova评测基准聚焦金融领域的复杂推理任务与智能体任务,涵盖意图识别、工具调用、结构化输出等多个关键评测维度。该基准基于蚂蚁多年积累的真实业务数据,经过5000万道问题筛选与长思维链标注,构建出高复杂度的金融推理问题库,具备极高的实用价值。

而Agentar-Deepfinance-100K则是一个大规模金融领域训练数据集,覆盖银行、证券、保险等多个金融子领域,为行业开发者提供丰富的训练资源。

Agentar-Fin-R1三大核心优势:可靠、可控、可优化

据蚂蚁数科首席技术官王维介绍,Agentar-Fin-R1在设计之初就围绕“可靠、可控、可优化”三大核心目标进行构建,力求满足金融行业对AI模型的高标准要求。

1. 可靠性:构建系统化金融任务体系
Agentar-Fin-R1建立了涵盖6大类、66小类的金融任务体系,覆盖银行、保险、基金、信托等多个业务场景。通过可信数据合成与长链路思维标注,构建了10万条高质量训练数据,从而在金融推理能力上显著提升。

2. 可控性:高效训练与精准优化
在训练过程中,Agentar-Fin-R1通过主动学习机制识别模型薄弱点,实现有针对性的数据合成与动态调整,有效提升了训练效率,并显著降低了微调阶段的数据与算力需求。

3. 可优化性:持续迭代与快速响应
王维强调,行业大模型需要具备高频迭代能力,能够快速响应市场变化与业务需求。为此,蚂蚁数科建立了训练与评测联动机制,通过实时追踪业务数据与金融动态,不断优化模型表现。

五大机构联合发布,共建金融AI生态

为了推动金融大模型的标准化发展,蚂蚁数科还联合中国工商银行、宁波银行、北京前沿金融监管科技研究院、上海人工智能行业协会等五大权威机构,共同推出Finova评测基准。

这一合作标志着金融AI领域从“通用化”向“垂直化”迈进的关键一步,也为后续行业标准的建立提供了坚实基础。

金融AI进入垂直深水区,行业挑战仍需协同应对

蚂蚁数科CEO赵闻彪表示,当前AI智能体的价值释放正从“水平通用”向“垂直专用”转变,而Agentar-Fin-R1的发布正是这一战略在金融行业的具体体现。

随着大模型技术在金融领域的深入应用,金融机构对AI的需求已从客服、办公等边缘场景,逐步渗透到风控、财富管理、信贷审批等核心业务流程。

然而,如何在不同业务环境中确保模型的稳定性,如何在性能与数据安全之间取得平衡,仍是行业面临的重要挑战。未来,AI企业与金融机构需加强协作,共同推动金融大模型的可持续发展。

金融大模型, Agentar-Fin-R1, Finova评测基准, 蚂蚁数科, AI金融应用

本文来源: 智东西【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...