Liquid AI:采用自注意力机制与Transformer架构的LFM模型,展示出卓越的数据处理能力,性能超越Meta Llama及微软Phi

IT之家报道,近日,成立于去年的Liquid AI公司发布了一系列全新的基础模型——Liquid Foundation Models(LFM)。这批模型包括LFM-1.3B、LFM-3.1B和LFM-40.3B三个版本。这些模型采用了不同于传统Transformer架构的设计,宣称在多项基准测试中表现优异。

目前,Transformer架构在深度学习和自然语言处理领域占据主导地位。该架构通过自注意力机制捕捉序列中单词之间的关系,例如OpenAI的GPT、Meta的BART和谷歌的T5等模型都基于这一架构。然而,Liquid AI却选择了不同的路径,其基础模型重新设计了架构,受到交通信号处理系统和数值线性代数理念的影响,旨在实现更高的通用性和数据处理能力。这些模型能够处理视频、音频、文本、时间序列等多种类型的。

据Liquid AI介绍,与传统的Transformer架构相比,LFM模型在内存使用方面表现出色,尤其是在处理大量输入数据时。Transformer架构在处理长序列时需要较大的键值(KV)缓存,导致内存占用增加。而LFM模型则能够有效地压缩输入数据,减少对硬件资源的需求。这意味着在相同的硬件条件下,LFM模型可以处理更长的序列。

具体来看,首批发布的三款模型各有特点。LFM-1.3B专为资源受限的环境设计;LFM-3.1B针对边缘计算进行了优化;LFM-40.3B则是一款“专家混合模型”,适用于数学计算和交通信号处理等场景。这些模型在通用知识和专业知识的处理上表现出色,并能高效处理长文本任务,还支持多种语言,包括英语、中文、法语、德语、西班牙语、日语、韩语和阿拉伯语。

在基准测试中,LFM-1.3B击败了苹果的OpenELM、Meta的Llama 3.2、微软的Phi 1.5以及Stability的Stable LM 2等模型。LFM-3.1B不仅超越了各种3B规模的Transformer模型、混合模型和RNN模型,甚至在某些场景下超越了7B和13B规模的模型。LFM-40.3B则在模型规模和输出质量之间实现了良好的平衡,尽管拥有400亿个参数,但在推理时仅启用120亿个参数,以提升模型效率并降低硬件需求。

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...