标签:是指能够同时处理和理解文本、图像、音频、视频等多种数据形式的人工智能系统。相较于传统仅支持单一输入的模型