标签:支持文本、图像、语音、视频等多模态信息的深度理解。这意味着AQ不仅能理解文字描述