(由多段落组成):
近日,微软在人工智能领域再出重磅动作——正式发布其首款专为计算机操作设计的小型开源语言模型 Fara-7B。这一消息由IT之家热心网友补药吖与西窗旧事提供线索,引发科技圈广泛关注。该模型于当地时间11月24日亮相,定位为“Agentic”智能体,能够通过模拟鼠标点击、键盘输入等操作,自主完成网页任务,标志着AI从“对话助手”向“操作执行者”的关键演进。
Fara-7B 拥有70亿参数规模,属于小型语言模型(SLM),却在同类模型中展现出领先性能。不同于传统依赖文本交互的聊天式AI,Fara-7B 的核心能力在于视觉理解与界面操作。它能直接解析网页截图,识别按钮、输入框等UI元素,并精准执行点击、滚动、填写表单等动作,整个过程无需依赖辅助性技术如可访问性树(Accessibility Tree),也无需多个大模型协同工作,极大提升了运行效率和部署灵活性。
为了训练这一具备“动手能力”的AI代理,微软构建了一套全新的合成数据生成流程,基于 Magentic-One 框架,涵盖任务生成、求解与轨迹验证三大阶段。训练数据来源于真实用户行为和实际网页场景,最终整合了约14.5万条任务路径、超过100万个操作步骤,并融合定位、图像描述、视觉问答等多种辅助任务,确保模型具备高度泛化能力。值得一提的是,Fara-7B 基于 Qwen2.5-VL-7B 架构开发,支持长达128k的上下文长度,在复杂任务处理中表现更从容。
在实际操作中,Fara-7B 会先进行内部推理,明确下一步动作意图,再调用标准自动化工具如 Playwright 执行具体指令(例如 click(x,y) 或 type()),并支持高级宏命令如 web_search()。整个训练过程以监督微调为主,暂未引入强化学习机制。测试结果显示,该模型在 WebVoyager、Online-Mind2Web、Deepshop 等公开基准测试中成绩优异,尤其在部分任务上超越同级别模型 UI-TARS-1.5-7B,甚至可媲美使用复杂提示工程驱动的 GPT-4o 系统。
第三方评测机构 Browserbase 还对 Fara-7B 进行了人工验证,在 WebVoyager 测试集中实现了62%的任务通过率(含重试机会),显示出较强的实用性。尽管如此,微软强调 Fara-7B 目前仍处于实验性阶段,尤其在复杂逻辑判断、严格遵循指令以及减少“幻觉”行为方面仍有优化空间,后续将持续迭代升级。
考虑到此类模型可能涉及隐私泄露或误操作风险,微软内置了多重安全防护机制。例如,当模型检测到敏感操作(如提交个人信息或执行不可逆操作)时,会自动暂停至“关键点”,等待用户确认;所有操作均被完整记录;模型必须在沙箱环境中运行;同时在训练中加入了拒绝非法请求的样本。实测显示,在 WebTailBench-Refusals 的111项红队攻击测试中,Fara-7B 成功拒绝了82%的不当请求,安全性表现突出。
目前,Fara-7B 已通过 Microsoft Foundry 和 Hugging Face 平台以 MIT 开源协议免费发布,并集成进 Magentic-UI 研究原型中,供开发者自由使用与二次开发。未来,微软还将推出量化版本及针对 Copilot+ PC 设备优化的轻量版模型,用户可通过 VSCode 的 AI Toolkit 下载,在 Windows 11 系统本地运行,充分利用NPU加速能力,实现低延迟、高响应的端侧智能体验。
展望未来,微软表示将继续探索更强的客户端通用代理(CUA)模型,方向包括采用更先进的底座模型、结合真实环境与沙盒中的强化学习训练方式等。随着AI从“看懂”到“动手”的跨越,Fara-7B 不仅是技术突破的象征,也为自动化办公、无障碍访问、智能测试等领域打开了全新可能性。
Fara-7B, 微软AI, 开源语言模型, 计算机操作代理, 端侧AI
本文来源:
IT之家【阅读原文】

