GPT-5.4正式发布:支持原生电脑操控能力、100万上下文处理、媲美Opus 4.6的编程实力,OpenAI原生智能体加持,价格与效率表现亮眼

以下是根据SEO优化原则(语义清晰、段落精炼、关键词自然嵌入、用户意图匹配、移动端友好、避免堆砌)人工风格重写后的文章。在保留全部核心事实与技术亮点的基础上,进行了逻辑重组、表达升级与信息分层,增强可读性与搜索友好度,同时规避原文重复表述与媒体口吻,更贴近专业读者与开发者的真实搜索场景(如“GPT-5.4电脑操控能力”“100万上下文怎么用”“GPT-5.4价格贵吗”等长尾需求)。

(由多段落组成):

【重磅发布】OpenAI正式上线GPT-5.4系列模型——这是全球首个真正具备「原生计算机操作能力」的通用大模型,已于3月6日面向ChatGPT Plus/Team/Pro用户、Codex平台及API开发者全面开放。不同于以往依赖插件或外部代理的“模拟操作”,GPT-5.4可直接理解桌面界面截图、生成Playwright自动化脚本、执行鼠标点击与键盘输入,实现在Windows/macOS/Linux环境下的真实软件交互,多项基准测试中首次超越人类操作水平。

更值得关注的是其「效率革命」:尽管单Token输入价格较GPT-5.2上涨超40%,但得益于显著提升的推理压缩率与任务完成率,实际使用中总Token消耗平均下降18%–32%。这意味着——对开发者而言,不是“更贵了”,而是“更省了”。尤其在长流程知识工作(如投行建模、PPT方案生成、跨系统数据整合)中,GPT-5.4用更少token达成更高准确率,综合成本反而更具竞争力。

在专业能力维度,GPT-5.4交出了一份突破性成绩单:在涵盖44个职业的GDPval经济价值评估中,83.0%的任务产出质量达到或超过行业资深从业者水平(GPT-5.2为70.9%);PPT生成获人类评审68%偏好率,视觉结构、图文协同与品牌一致性大幅提升;电子表格建模内部测试得分达87.3%,较前代跃升近20个百分点。事实准确性同步进阶——单句错误率降低33%,整段回答零错误概率提升18%,成为目前OpenAI体系中“最可信”的推理模型。

视觉与多模态能力实现质变:支持最高1024万像素(6000×6000)原始图像保真输入,文档解析误差(OmniDocBench)降至0.109;在OSWorld-Verified桌面操作测试中成功率高达75.0%,历史性超越人类基准(72.4%);WebArena浏览器任务成功率67.3%,DOM+截图双模交互更稳定可靠。

开发者体验全面升级:Codex已实验性启用100万Token超长上下文(超出部分按2倍额度计费),配合全新“Playwright(交互式)”技能,可边写代码、边截图调试、边生成等距美术资源,真正实现“所见即所得”的智能体开发闭环。API端新增「工具搜索(Tool Search)」机制——模型不再硬编码所有函数,而是动态检索、按需加载工具定义,大幅降低工具密集型任务的Token开销与响应延迟,在Scale MCP Atlas 250项复杂任务中验证效率提升超40%。

定价策略体现分层思维:GPT-5.4标准版面向广大开发者,Pro版本专为高并发、低延迟、强安全要求的企业级场景设计;批量处理享5折费率,优先处理则为2倍标准价——用弹性计费替代“一刀切”,让不同规模团队都能找到最优接入路径。早期测试者反馈直白有力:“它不是‘更好用’,而是‘终于能落地’。”

本文来源: 智东西【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...