IBM预览Granite 4.0 Tiny模型：12GB显存实现128K上下文5并发会话，提升计算效率与内存需求优化的Transformer架构

每日AI快讯1年前 (2025)发布 AI部落小助手

随着科技的快速发展，各大企业纷纷推出自己的创新技术。在本月 2 日，IBM 正式介绍了其 Granite 4.0 系列模型中的一个轻量级版本——Granite 4.0 Tiny 的预览版。这款模型以其卓越的计算效率和极低的内存需求而备受关注。

具体来看，Granite 4.0 Tiny Preview 在 FP8 精度下运行时，能够支持多达 5 个并发对话，每个对话的上下文窗口为 128KB，仅需 12GB 显存即可完成任务。这意味着，一张建议零售价为 329 美元（约合人民币 2383 元）的英伟达 GeForce RTX 3060 12GB 消费级显卡就能够满足其硬件需求。

此外，Granite 4.0 Tiny 的训练 Token 数预计至少达到 15T。目前，Preview 预览版本已经完成了 2.5T 的训练，尽管如此，它的性能已与经过 12T 训练 Token 的 Granite 3.3 2B Instruct 相当。更重要的是，在处理 128KB 上下文窗口和 16 并发会话时，其内存需求降低了约 72%，预计最终性能可媲美 Granite 3.3 8B Instruct。

从参数规模来看，Granite 4.0 Tiny Preview 总共有 7B 参数，其中实际活动参数为 1B。该模型采用了混合 Mamba-2 / Transformer 架构，这一架构不仅提升了速度和精度，还有效降低了内存消耗，同时保证了性能的稳定。

目前，Granite 4.0 Tiny 的预览版本已在 Hugging Face 平台上以标准 Apache 2.0 许可证形式提供。IBM 计划在今年夏天正式发布 Granite 4.0 系列模型的 Tiny、Small 和 Medium 版本，这将进一步丰富市场选择，为开发者提供更多可能性。

请注意，本文中包含的对外跳转链接（包括但不限于超链接、二维码、口令等形式）仅供参考，旨在传递更多信息，节省甄选时间。IT之家所有文章均包含此声明。

本文来源：