多模态能力与代理执行结合，大模型技术引领AI应用新潮流，提升用户体验

近年来，随着AI技术的迅速发展，各大科技公司在人工智能领域的竞争愈发激烈。特别是在多模态能力和代理执行能力方面，逐渐成为行业关注的核心焦点。这些技术的应用不仅提升了用户体验，还为未来的商业场景提供了更多可能性。

多模态能力的突破
多模态能力是指大模型能够同时处理多种类型的数据，如文本、图像、音频等。近期，字节跳动、百度、谷歌和OpenAI等公司纷纷推出了具备更强多模态能力的基础大模型产品。例如，阿里巴巴旗下的夸克应用上线了“拍照问夸克”功能，通过结合通义千问的大模型能力，实现了用户通过拍照与AI进行交互的功能。此外，火山引擎发布的豆包1.5深度思考模型也展现了强大的视觉理解能力，可以完成诸如看图分析地貌、生成项目流程图等任务。

代理执行能力的提升
代理执行能力则是指AI能够根据用户的自然语言指令，自动完成复杂任务的能力。在这方面，Manus等通用Agent产品的出现标志着这一领域的重要进展。国内市场上，字节跳动的扣子空间、百度的心响App、360的纳米AI以及前百度高管推出的Genspark等产品都主打一站式完成用户布置的任务，并且具有编写代码和连接第三方数据、工具的能力。海外市场上，Notion推出了AI驱动的电子邮件服务Notion Mail，而OpenAI则推出了Operator和Deep Research等专注于特定场景的产品。

用户体验的优化
无论是多模态能力还是代理执行能力，其核心目标都是降低用户使用AI的门槛并提高效率。微软CEO纳德拉曾表示，具备执行能力的通用Agent就像为用户搭建了一个脚手架，提供了一系列趁手的工具，帮助用户更高效地完成日常工作、学习和生活中的任务。然而，这些仍处于早期探索阶段的产品需要在多个方面进行打磨，包括用户意图的理解、第三方工具的调用以及生成的质量等。

技术挑战与未来展望
尽管当前的技术已经取得了显著进步，但大模型的能力还有很大的提升空间。成本的降低和技术的持续突破将继续推动AI应用的爆发。未来，可能会实现“模型即应用”的理念，即针对不同的任务开发专门的模型，如画图有专门的画图模型，分析图表有专门的分析图表模型。OpenAI似乎正朝着这个方向努力。至于Agent的最终形态，目前尚无定论，但可以预见的是，多模态能力和代理执行能力的结合将成为未来AI发展的关键趋势。

本文来源：