聚焦手机AI“超级入口”，中兴Nebula小模型让手机秒变“小秘”？

（由多段落组成）：

在人工智能技术飞速发展的今天，智能手机正从“工具”向“智能助手”全面进化。其中，以GUI Agent（图形用户界面智能体）为核心的AI“超级入口”成为各大科技企业争夺的新高地。这类技术能够通过理解并操作手机界面，实现跨应用的自动化服务，例如一句话订票、一键点餐等，极大提升了用户操作效率。苹果、华为、字节跳动、美团以及智谱AI等头部企业纷纷入局，预示着一场关于移动端智能交互方式的深刻变革正在到来。

中兴通讯作为通信领域的老牌劲旅，在这一轮AI浪潮中展现出强劲的技术实力。其自研的轻量级AI模型——Nebula-GUI，凭借出色的端侧部署能力与高精度任务执行表现，成功在2025年10月SuperCLUE发布的《AgentCLUE-Mobile手机GUI Agent（离线）测评基准》中斩获总榜第二名，总分高达84.38。尤其在UI元素识别方面得分突破93，远超行业平均水平。目前，该功能已落地于努比亚Z70 Ultra、Z80 Ultra及红魔系列新品手机，支持“一句话订票”“语音拍照”等多项便捷操作，覆盖超过30款主流APP，常用场景平均准确率超过90%。

要支撑如此强大的AI能力，高质量的数据是基石。然而当前中文GUI数据极度匮乏，公开英文数据集已达百万级别，而中文标注数据仅有数千条，且存在标注粗糙、语义缺失等问题。为此，中兴构建了一套完整的端到端数据制备系统，涵盖自动化标注工具、智能数据流水线和全时数据飞轮平台。这套系统将原本依赖人工的截图、操作、标注流程整合为高效闭环，使数据生产效率提升三倍以上，并实现了对出行、社交、生活服务等高频场景的广泛覆盖，为模型训练提供了稳定可靠的数据基础。

为了让AI真正“看懂”手机界面并完成复杂任务，中兴采用了多层次监督微调策略。传统多模态模型往往只能“看到”屏幕，却无法理解按钮的实际功能或执行连贯操作。中兴通过构建VLA（视觉-指令-动作）三元组数据集，训练模型具备“感知—理解—规划—执行—纠错”的完整能力链。特别是在中文界面适配方面，团队自主研发了融合OCR、XML解析与大语言模型标注的自动化流程，建成百万级中文GUI数据集，显著增强了模型对本土化应用的理解力与鲁棒性。

在具体任务执行上，Nebula-GUI表现出极高的精准度。针对单步操作，中兴引入了“指令泛化”机制，让模型能理解多种口语化表达（如“点个奶茶”“买份外卖”），并通过“图像思维链”技术绑定视觉关注区域，避免文本幻觉。实验显示，单步操作准确率超过95%，部分简单任务接近99%。对于需要跨页面、多步骤完成的复杂任务（如订机票、比价购物），模型还具备任务规划与状态追踪能力，结合格式化输出结构（如`……`），确保每一步操作都可解析、可追溯。

面对真实环境中频繁出现的广告弹窗、页面跳转等干扰因素，中兴特别强化了模型的自我反思与纠错能力。通过输入前后多张截图作为上下文，模型可判断操作是否导致预期之外的状态变化，并主动回退或调整路径。这种“动态容错”机制极大提升了系统的稳定性，使其从实验室原型迈向真正的商用级智能体。

为进一步突破性能瓶颈，中兴创新性地提出“双层强化学习”架构：第一层为离线步骤级强化，采用细粒度连续奖励机制，从准确性、置信度、逻辑一致性三个维度精细引导模型优化；第二层为在线任务级强化，依托联邦调度系统生成海量真实交互轨迹，训练模型在动态环境中自主探索最优路径。该体系有效解决了传统RL中奖励稀疏、泛化不足的问题，推动AI从“模仿者”进化为“思考者”。

随着Nebula-GUI在终端设备上的持续落地，中兴正加速构建以AI为核心驱动力的“手机小秘”生态。未来计划拓展至购物比价、旅游行程规划、智能办公文档处理等更多高价值场景。可以预见，GUI Agent将成为下一代智能手机的“超级入口”，重新定义人机交互边界。中兴凭借扎实的技术积累与前瞻布局，有望在这场智能化革命中占据关键位置，为用户带来更自然、更高效的数字生活体验。

AI手机助手, GUI Agent, 中兴Nebula模型, 手机AI超级入口, 端侧大模型

本文来源：