标签:4 bit计算
微软最新研究:BitNet v2助力LLM实现原生4bit激活值量化,充分挖掘新一代GPU在4bit计算领域的性能潜力
微软在LLM(大语言模型)领域的研究再次取得突破,发布了全新的BitNet v2框架。这一框架实现了1 bit LLM的原生4 bit激活值量化,能够充分利用新一代GPU(如GB200)对4 bit计算的支持能力,从而显著减少内存带宽占用并提升计算效率。 此前,微软曾推出BitNet b1.58框架,将LLM的权重量化至1.58-bit,大幅降低了推理延迟和内存占用等成本。然而,BitNet b1.58的激活值仍为8-bit,无法充分发挥新一代硬件的4 bit计算能力,导致计算环节存在效率瓶颈。此外,研究还发现注意力层和前馈网络层的输入激活值分布接近高斯分布,相对...