(由多段落组成):
在人工智能技术飞速发展的今天,智能手机正从“工具”向“智能助手”全面进化。其中,以GUI Agent(图形用户界面智能体)为核心的AI“超级入口”成为各大科技企业争夺的新高地。这类技术能够通过理解并操作手机界面,实现跨应用的自动化服务,例如一句话订票、一键点餐等,极大提升了用户操作效率。苹果、华为、字节跳动、美团以及智谱AI等头部企业纷纷入局,预示着一场关于移动端智能交互方式的深刻变革正在到来。
中兴通讯作为通信领域的老牌劲旅,在这一轮AI浪潮中展现出强劲的技术实力。其自研的轻量级AI模型——Nebula-GUI,凭借出色的端侧部署能力与高精度任务执行表现,成功在2025年10月SuperCLUE发布的《AgentCLUE-Mobile手机GUI Agent(离线)测评基准》中斩获总榜第二名,总分高达84.38。尤其在UI元素识别方面得分突破93,远超行业平均水平。目前,该功能已落地于努比亚Z70 Ultra、Z80 Ultra及红魔系列新品手机,支持“一句话订票”“语音拍照”等多项便捷操作,覆盖超过30款主流APP,常用场景平均准确率超过90%。
要支撑如此强大的AI能力,高质量的数据是基石。然而当前中文GUI数据极度匮乏,公开英文数据集已达百万级别,而中文标注数据仅有数千条,且存在标注粗糙、语义缺失等问题。为此,中兴构建了一套完整的端到端数据制备系统,涵盖自动化标注工具、智能数据流水线和全时数据飞轮平台。这套系统将原本依赖人工的截图、操作、标注流程整合为高效闭环,使数据生产效率提升三倍以上,并实现了对出行、社交、生活服务等高频场景的广泛覆盖,为模型训练提供了稳定可靠的数据基础。
为了让AI真正“看懂”手机界面并完成复杂任务,中兴采用了多层次监督微调策略。传统多模态模型往往只能“看到”屏幕,却无法理解按钮的实际功能或执行连贯操作。中兴通过构建VLA(视觉-指令-动作)三元组数据集,训练模型具备“感知—理解—规划—执行—纠错”的完整能力链。特别是在中文界面适配方面,团队自主研发了融合OCR、XML解析与大语言模型标注的自动化流程,建成百万级中文GUI数据集,显著增强了模型对本土化应用的理解力与鲁棒性。
在具体任务执行上,Nebula-GUI表现出极高的精准度。针对单步操作,中兴引入了“指令泛化”机制,让模型能理解多种口语化表达(如“点个奶茶”“买份外卖”),并通过“图像思维链”技术绑定视觉关注区域,避免文本幻觉。实验显示,单步操作准确率超过95%,部分简单任务接近99%。对于需要跨页面、多步骤完成的复杂任务(如订机票、比价购物),模型还具备任务规划与状态追踪能力,结合格式化输出结构(如`……`),确保每一步操作都可解析、可追溯。
面对真实环境中频繁出现的广告弹窗、页面跳转等干扰因素,中兴特别强化了模型的自我反思与纠错能力。通过输入前后多张截图作为上下文,模型可判断操作是否导致预期之外的状态变化,并主动回退或调整路径。这种“动态容错”机制极大提升了系统的稳定性,使其从实验室原型迈向真正的商用级智能体。
为进一步突破性能瓶颈,中兴创新性地提出“双层强化学习”架构:第一层为离线步骤级强化,采用细粒度连续奖励机制,从准确性、置信度、逻辑一致性三个维度精细引导模型优化;第二层为在线任务级强化,依托联邦调度系统生成海量真实交互轨迹,训练模型在动态环境中自主探索最优路径。该体系有效解决了传统RL中奖励稀疏、泛化不足的问题,推动AI从“模仿者”进化为“思考者”。
随着Nebula-GUI在终端设备上的持续落地,中兴正加速构建以AI为核心驱动力的“手机小秘”生态。未来计划拓展至购物比价、旅游行程规划、智能办公文档处理等更多高价值场景。可以预见,GUI Agent将成为下一代智能手机的“超级入口”,重新定义人机交互边界。中兴凭借扎实的技术积累与前瞻布局,有望在这场智能化革命中占据关键位置,为用户带来更自然、更高效的数字生活体验。
AI手机助手, GUI Agent, 中兴Nebula模型, 手机AI超级入口, 端侧大模型
本文来源:
 量子位【阅读原文】 
 
