标签:– 正文自然嵌入“视觉语言模型”“多模态”“注意力机制”等学术高频词