拜拜了GUI！中科院团队“LLM友好”计算机使用接口来了

（由多段落组成）：

近年来，随着大模型智能体（LLM Agent）在自动化任务中的广泛应用，其与计算机图形界面（GUI）的交互瓶颈日益凸显。尽管AI能力不断提升，但在实际操作中，许多Agent仍频繁“翻车”，执行效率低下、成功率不高。中国科学院软件研究所的一项突破性研究揭示：问题根源并非模型不够聪明，而是我们沿用了40多年的图形用户界面（GUI）本身——它为人类设计，却与大语言模型的能力结构严重错配。

传统GUI采用的是“命令式”交互模式，即用户必须通过一系列精确的点击、拖拽和导航来完成目标。这种模式依赖于视觉识别、快速反应和短期记忆，正契合人类用户的认知特点。然而，对于大模型而言，这些恰恰是短板：它们不擅长从像素中识别按钮位置，推理延迟导致“观察-操作”循环耗时过长，且面对复杂菜单路径极易迷失方向。更关键的是，LLM被迫同时承担“思考策略”和“执行动作”的双重角色，极大增加了出错概率和系统负担。

针对这一根本矛盾，中科院团队提出了一种全新的解决方案——声明式操作系统接口（GOI，Declarative Operating Interface）。该方案的核心理念是实现“策略与机制分离”：让LLM专注于高层语义理解与任务规划（策略），而将底层繁琐的界面导航与控件操作（机制）交由GOI自动处理。这就像从“一步步指挥司机开车”转变为“直接说出目的地”，由系统自动规划路线并驾驶到达。

GOI通过操作系统的可访问性接口（Accessibility API），构建了一个对LLM友好的抽象层。它提供三个简洁高效的声明式原语：访问（Access）、状态（State）和观察（Observation）。例如，LLM只需声明“访问‘应用到全部’功能”或“将滚动条设置为80%”，GOI便会自动解析最优路径并完成所有中间步骤，无需模型反复尝试或进行视觉识别。整个过程无需修改应用程序源码，也不依赖厂商提供的API，具备极强的通用性和部署灵活性。

为了实现高效导航，GOI在离线阶段会自动探索应用程序的UI结构，生成一张详尽的“UI导航图”。随后通过去循环算法和基于成本的选择性外化技术，将其优化为无歧义的“森林结构”，确保每个功能控件都有唯一可达路径。在线执行时，LLM仅需调用轻量级文本化接口，即可完成复杂操作，大幅减少与系统的交互轮次，提升响应速度和成功率。

实验证明，GOI带来了显著性能飞跃。在包含Word、Excel、PowerPoint等办公软件的OSWorld-W基准测试中，结合GPT-5模型，任务成功率从原有的44%跃升至74%，超过六成成功案例仅需一次LLM调用即完成。更为重要的是，失败类型发生了本质转变：传统方法中超过一半的失败源于机制错误（如定位不准、导航失误），而使用GOI后，81%的失败集中在策略层面（如语义理解偏差）。这意味着LLM已摆脱“低级操作失误”，真正聚焦于高阶认知任务。

这项研究不仅为当前AI Agent的发展提供了切实可行的技术路径，也预示着未来人机交互范式的深刻变革。随着大模型逐渐成为数字世界的“操作者”，操作系统和应用软件或将迎来新一轮重构——原生支持“LLM友好”的声明式接口，将成为智能化时代的重要基础设施。可以预见，一个无需GUI“翻译”的AI直连操作系统的新纪元，正在加速到来。

LLM Agent, 声明式接口, GUI替代, 中科院研究, AI自动化

本文来源：