标签:– 跨模态理解能力强:可同时解析文字、图片、语音等信息。