Gemini 2.5 Pro:谷歌AI开发力作,编程模型与视频理解全面突破,助力Web应用未来

谷歌DeepMind团队近日推出了全新的Gemini 2.5 Pro “I/O”特别版,这一版本在编程和界面设计方面表现出色,满足了开发者社区对高效能工具的迫切需求。根据WebDev Arena Leaderboard基准测试显示,自2022年底生成式AI竞赛爆发以来,谷歌首次在关键编程基准测试中超越Claude系列模型,实现了全面领先。

新版模型代号为“Gemini-2.5-pro-preview-05-06”,已取代之前的03-25版本。用户可以通过Gemini API、Vertex AI以及AI Studio平台获取该模型,普通用户还可以通过Gemini聊天机器人应用进行体验。新模型的定价与Gemini 2.5 Pro模型相同,每百万token输入和输出费用分别为1.25美元和10美元(约合人民币9元和72元),相较于Anthropic的Claude 3.7 Sonnet模型更具性价比。

谷歌DeepMind首席执行官戴密斯·哈萨比斯(Demis Hassabis)在海外社交媒体X平台上表示,这是他们迄今为止构建的最强编程模型

编程能力提升显著,或将成为行业标杆

Gemini 2.5 Pro “I/O”特别版是三月发布的大热模型Gemini 2.5 Pro的升级版本。谷歌Gemini API高级产品经理Logan Kilpatrick在技术博客中提到,此次升级重点优化了函数调用功能,降低了错误率并提升了触发可靠性。据谷歌官方博客显示,Gemini 2.5 Pro “I/O”特别版在编程和构建交互式网页应用方面的能力有了显著提升,尤其在代码转换任务上的表现更为出色。

根据WebDev Arena Leaderboard基准测试数据,Gemini 2.5 Pro Preview (05-06)以1419.95分超越Claude 3.7 Sonnet(1357.10分),登顶排行榜首位。相比前代03-25版本的1272.96分,新版提升了146.99分。

此外,Gemini应用内的演示表明,用户可以将视觉图案或主题提示直接转化为可用代码,大幅降低了设计导向型开发者的入门门槛。

视频理解能力卓越,引领视觉基准测试

Gemini 2.5 Pro “I/O”特别版在视频理解方面同样表现出色。谷歌在其官方博客中透露,该版本在VideoMME基准测试中获得了84.8%的高分,稳居榜首。新模型支持将YouTube视频转化为功能完备的学习应用,并可快速生成响应式视频播放器和动态听写界面等高度风格化组件,几乎无需手动编写CSS代码。

向实用生产力工具转型

AI编程工具企业Cursor的首席执行官Michael Truell表示,内部测试显示Gemini 2.5 Pro “I/O”特别版的工具调用失败率显著下降。目前,Cursor已将Gemini 2.5 Pro集成至其code agent系统。代码托管平台公司Replit的总裁Michele Catasta也评价称,该模型是“平衡性能与延迟的最先进模型”。

尽管谷歌尚未公开Gemini 2.5 Pro的架构细节,但其核心目标始终是提供更快速、更直观的开发体验。通过强化代码生成和多模态输入优势,Gemini 2.5 Pro正逐步从研究性创新转向解决实际编程挑战的生产力工具。此次提前发布进一步彰显了谷歌DeepMind在重大会议前满足开发者需求、保持市场势头的决心。

本文来源: 智东西【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...