近年来,随着AI技术的迅速发展,各大科技公司在人工智能领域的竞争愈发激烈。特别是在多模态能力和代理执行能力方面,逐渐成为行业关注的核心焦点。这些技术的应用不仅提升了用户体验,还为未来的商业场景提供了更多可能性。
多模态能力的突破
多模态能力是指大模型能够同时处理多种类型的数据,如文本、图像、音频等。近期,字节跳动、百度、谷歌和OpenAI等公司纷纷推出了具备更强多模态能力的基础大模型产品。例如,阿里巴巴旗下的夸克应用上线了“拍照问夸克”功能,通过结合通义千问的大模型能力,实现了用户通过拍照与AI进行交互的功能。此外,火山引擎发布的豆包1.5深度思考模型也展现了强大的视觉理解能力,可以完成诸如看图分析地貌、生成项目流程图等任务。
代理执行能力的提升
代理执行能力则是指AI能够根据用户的自然语言指令,自动完成复杂任务的能力。在这方面,Manus等通用Agent产品的出现标志着这一领域的重要进展。国内市场上,字节跳动的扣子空间、百度的心响App、360的纳米AI以及前百度高管推出的Genspark等产品都主打一站式完成用户布置的任务,并且具有编写代码和连接第三方数据、工具的能力。海外市场上,Notion推出了AI驱动的电子邮件服务Notion Mail,而OpenAI则推出了Operator和Deep Research等专注于特定场景的产品。
用户体验的优化
无论是多模态能力还是代理执行能力,其核心目标都是降低用户使用AI的门槛并提高效率。微软CEO纳德拉曾表示,具备执行能力的通用Agent就像为用户搭建了一个脚手架,提供了一系列趁手的工具,帮助用户更高效地完成日常工作、学习和生活中的任务。然而,这些仍处于早期探索阶段的产品需要在多个方面进行打磨,包括用户意图的理解、第三方工具的调用以及生成的质量等。
技术挑战与未来展望
尽管当前的技术已经取得了显著进步,但大模型的能力还有很大的提升空间。成本的降低和技术的持续突破将继续推动AI应用的爆发。未来,可能会实现“模型即应用”的理念,即针对不同的任务开发专门的模型,如画图有专门的画图模型,分析图表有专门的分析图表模型。OpenAI似乎正朝着这个方向努力。至于Agent的最终形态,目前尚无定论,但可以预见的是,多模态能力和代理执行能力的结合将成为未来AI发展的关键趋势。
