标签:GUI自动化
微软开源创新框架:利用 OmniParser 和大模型将 DeepSeek 转变为具备视觉解析和GUI自动化的AI Agent
微软发布视觉Agent解析框架OmniParser V2.0,助力AI Agent开发 微软在其官方网站上发布了最新的视觉Agent解析框架OmniParser V2.0。该版本支持将DeepSeek-R1、GPT-4o、Qwen-2.5VL等先进模型转化为能够在计算机上运行的AI Agent。相比V1版本,V2在检测较小可交互UI元素时的准确率显著提升,推理速度更快,延迟降低了60%。特别是在高分辨率Agent基准测试ScreenSpot Pro中,V2+GPT-4o的准确率达到了惊人的39.6%,而原始GPT-4o的准确率仅为0.8%,整体性能大幅提升。 OmniTool:基于Docker的Windows系统工具 除了OmniParser V...