在探索大语言模型(LLM)的内部运作机制时,EPFL的研究人员对Llama 2家族进行了深入研究,挑战了普遍认为英语是多语言LLM“母语”的观点。他们通过一系列实验,使用特定提示来揭示模型在处理多语言任务时的思考过程。研究发现,尽管Llama 2在最后的输出层倾向于使用中文,但在中间层的“思考”阶段,它似乎使用了一种偏向英语的“内部语言”,并非直接的英语单词,而是与抽象概念相关联的表示。
研究人员通过翻译任务、重复任务和完形填空任务,观察Llama 2的内部状态是否与特定自然语言对应。实验结果显示,模型在大部分前向传递过程中,更可能使用英语作为内部语言的代理。这表明在语义层面上,英语可能被视为LLM的“母语”,而非仅限于词汇层面。
此外,模型在处理多语言时,嵌入经历了输入空间、概念空间和输出空间的转换。尽管Llama 2在多语言语料库(主要由英语主导)上训练,但非英语训练数据的绝对值依然庞大。实验强调了LLM可能存在语言偏见,可能导致非英语语言在应用中的边缘化。
本文来源: IT之家【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...