标签:AI Agent
微软开源创新框架:利用 OmniParser 和大模型将 DeepSeek 转变为具备视觉解析和GUI自动化的AI Agent
微软发布视觉Agent解析框架OmniParser V2.0,助力AI Agent开发 微软在其官方网站上发布了最新的视觉Agent解析框架OmniParser V2.0。该版本支持将DeepSeek-R1、GPT-4o、Qwen-2.5VL等先进模型转化为能够在计算机上运行的AI Agent。相比V1版本,V2在检测较小可交互UI元素时的准确率显著提升,推理速度更快,延迟降低了60%。特别是在高分辨率Agent基准测试ScreenSpot Pro中,V2+GPT-4o的准确率达到了惊人的39.6%,而原始GPT-4o的准确率仅为0.8%,整体性能大幅提升。 OmniTool:基于Docker的Windows系统工具 除了OmniParser V...
小米前生态总监董红光离职创业,聚焦AI硬件与多模态人机交互,打造具备杀手级应用的高P团队和智能AI Agent
AI硬件发展早期的机遇与挑战 AI硬件行业正处于快速发展的初期阶段,虽然目前市场上已经出现了多种类型的AI硬件产品,如AI玩具、AI陪伴机器人、AI眼镜和AI耳机等,但这些设备在软件生态方面仍存在较大的需求缺口。最近,《智能涌现》独家报道指出,小米集团新生态总监、前100号员工董红光已离职创业,专注于开发基于硬件产品的AI应用。 董红光的创业方向 董红光的新创业项目旨在为现有的AI硬件产品提供搭载在其上的软件(也称为Agent或智能体)。公开资料显示,董红光自2010年加入小米以来,曾担任MIUI系统框架负责人、快...
刚刚,OpenAI推出全新AI Agent——Operator:浏览器助手开启全民智能体自动化操作新时代!
Operator:OpenAI发布的新一代智能浏览器助手 今天凌晨2点,OpenAI正式发布了备受期待的AI Agent——Operator。这款面向浏览器的智能体能够模拟人类操作计算机的能力,帮助用户完成在线订餐、预订酒店、购买机票等日常繁琐和重复的任务。例如,通过Operator可以在OpenTable上轻松预订名为Beretta的餐厅。 与传统的Agent和RPA不同,Operator的最大技术特点是无需依赖API或特定网站即可完成所有自动化操作。它通过对屏幕截图进行分析,识别页面元素,并使用鼠标和键盘进行模拟操作。因此,现阶段可以将Operator视为大模型增强...
OpenAI智能体新线索曝光!网友热议:集成ChatGPT与Operator功能的AI Agent即将登场,基准测试结果令人期待
OpenAI智能体新线索曝光:网友热议“新ChatGPT时刻”即将到来 OpenAI的智能体技术正在迎来新的突破,这一消息引起了广泛关注。根据知名爆料人光头哥的透露,OpenAI在MAC版ChatGPT桌面应用中隐藏了启用/禁用智能体的选项。从曝光的截图来看,这款智能体代号为“Operator(操作员)”,目前正在内测阶段,预计不久将上线。 Operator具备接管用户PC的能力,可以直接替代人类执行一系列任务,如编码开发应用、订餐和制定旅行攻略等。与此同时,OpenAI智能体在多个基准测试中的表现也引起了热议。据数据显示,在多个评估智能体执行...
【MiniMax 01首次开源:线性注意力机制助力大模型突破Transformer架构,中国AI Agent震惊海外开发者】
2025年MiniMax再推两大模型,性能与开源引关注 2025年初,中国AI公司MiniMax再次引发行业热议。继2024年公布全模态模型家族后,时隔五个月,MiniMax推出了两款全新的大模型,并且完全开源了模型权重。这两款新模型在性能上与GPT-4o和Claude-3.5-Sonnet相当,尤其在上下文窗口处理能力方面表现出色,处理速度是其他顶尖模型的20至32倍。 更重要的是,MiniMax首次大规模实现了线性注意力机制(Linear Attention),这一机制将传统注意力机制的二次计算复杂度转变为线性复杂度,显著降低了计算复杂度并提升了训练速度。早在20...
借助端边云协同与智能边缘技术,火山引擎推出全新AI Agent方案,实现大模型端侧AI轻松上云,带来高效能新解法。
智能设备的AI Agent化与端边云协同解决方案 随着AI手机、AI PC、AI眼镜等智能设备逐步向AI Agent化发展,这些小型终端要想充分利用大模型的能力,还需要一套端边云联动的解决方案。智东西在1月6日的报道中指出,目前大模型行业正呈现出端边云协同的趋势,以加速端智能场景的落地。过去一年,市场上涌现了大量形态各异的端侧AI产品,如智能门锁、AI看护机、AI眼镜和无人机等,主打轻量化部署。然而,端侧设备的功耗和算力仍然受限,复杂计算任务正在向边缘和云端转移。 字节跳动旗下的火山引擎在2024年冬季FORCE原动力大会...
谷歌推出Gemini 2.0最强模型,引领AI Agent风暴,Trillium TPU助力Project Astra与Project Mariner挑战OpenAI
谷歌发布Gemini 2.0,多模态输出与AI Agent引领新时代 近日,谷歌在其年度技术大会上宣布推出了最新的AI大模型Gemini 2.0。这款模型不仅在性能上有了显著提升,还引入了多模态输出和原生调用谷歌搜索、地图、Lens等工具的功能。Gemini 2.0的发布标志着谷歌在AI Agent领域的重大突破。 Gemini 2.0 Flash:速度翻倍,专为AI Agent设计 Gemini 2.0 Flash是Gemini 2.0的第一个实验版本,其速度是1.5 Pro的两倍。谷歌表示,这款新模型专为AI Agent时代而设计,支持多模态输出,包括图像生成和音频输出。此外,Gemini 2.0 Flash...
OpenAI携手苹果加速扩张:推出AI Agent,目标锁定10亿用户,数据中心助力技术突破!
OpenAI扩展计划:目标10亿用户 根据英国《金融时报》的报道,OpenAI正计划通过一系列重大举措来扩大其用户基础,包括推出自有AI代理(AI Agent)、建立AI搜索引擎、将ChatGPT与苹果设备集成,以及建设自己的数据中心。这些举措旨在在未来一年内使OpenAI的用户数量达到10亿。 自从ChatGPT推出以来,其每周活跃用户已迅速增长至2.5亿。今年10月,OpenAI以1500亿美元的估值成功筹集了超过60亿美元的资金,创下硅谷初创公司融资的新纪录。OpenAI首席财务官Sarah Friar表示,公司正处于快速增长阶段,并计划继续筹集更多资金,...
利用人工智能和AI生成内容,我在知乎实验中让AI Agent假扮情感咨询大V,成功回答上百个问题未被识破
最近,哲学教授迈克尔·桑德尔与知名主持人许知远共同探讨了“人工智能的发展是否会挑战人类存在的意义”这一话题。例如,“如果你的亲人在死后以AI的形式继续和你交流,你会愿意吗?”这个问题并非空洞的哲学命题。如今,AI生成的已经广泛渗透到我们的社交平台。你在社交媒体上看到的美女照片可能是AI生成的;深夜浏览的心灵鸡汤文也可能出自AI之手;甚至你收到的网友回复,也可能是AI生成的。如果不加标注,你能分辨出这些是否来自AI吗?随着越来越多难以辨别的AI出现在信息流中,这将对互联网世界产生怎样的影响? 不久前,一...
OpenAI错过的7个月:智谱大模型商业化,AutoGLM助力AI Agent终端爆发?
2024年3月,OpenAI关闭了仅运营两个月的GPT Store。然而,仅仅7个月后,OpenAI现任董事会主席Bret Taylor创立的新公司却获得了45亿美元的融资,同样致力于Agent平台的开发。这一事件引发了AI界的广泛关注。10月26日,微软开源了基于纯视觉的GUI屏幕解析工具OmniParser,谷歌的同类产品“Project Jarvis”也有望在12月上线。荣耀CEO赵明在10月30日展示了AI智能体YOYO自主处理任务的能力,只需一句“订2000杯咖啡”,YOYO就能在附近成功下单,这标志着Agent技术的显著进步。 无论是电脑端还是手机端,Agent已经开始实现真正的“自...