标签：小型语言模型

在AI模型小型化趋势愈发明显的今天，英伟达也加入了这场“小模型竞赛”，推出了自家的小型语言模型——Nemotron Nano v2

这款模型参数规模为9B（90亿），虽然体积小巧，但性能却不容小觑。根据技术报告，其在复杂推理任务中的准确率与Qwen3-8B相当甚至更优，同时在处理速度上提升了6倍。与当前主流的大模型不同，Nemotron Nano v2的设计初衷是打造一个兼顾推理与非推理任务的统一模型。这意味着它不仅适用于日常的问答与指令执行，还能胜任逻辑推理、数学计算等高难度任务。英伟达还引入了“思考预算控制”功能，用户可以设定模型在推理过程中使用的token数量，从而在速度与准确性之间取得平衡。值得一提的是，该模型支持跳过中间推理步骤，直...

来源：

量子位【阅读原文】
Tags：Nemotron Nano v2 Qwen3 小型语言模型开源AI模型预训练数据集

2个月前

微软近日在 Windows 11 系统中推出了一款名为 Mu 的新型本地语言模型

这款模型专为提升用户与系统的自然语言交互体验而设计，特别是在系统设置中的搜索功能方面表现突出。作为微软智能代理战略的一部分，Mu 被集成到设置应用的搜索框中，使用户可以通过自然语言查询快速找到所需选项。这款语言模型是微软继 Phi-Silica 之后推出的又一本地小型语言模型（SLM），特别优化以在搭载 NPU（神经处理单元）的 Copilot+ PC 上高效运行。得益于专用硬件的支持，Mu 可在设备端实现每秒超过 100 个 token 的推理速度，显著提升了响应效率。 Mu 是一个拥有 3.3 亿参数的编码器-解码器架构模型。相比传统...

来源：

IT之家【阅读原文】
Tags：Windows 11 小型语言模型微软Mu模型本地AI 自然语言处理

4个月前

小型语言模型SLM突破计算瓶颈，FlashAttention与分布式数据并行助力苹果研究新方向

手机更适合小模型尽管大型语言模型（LLM）在性能上表现出色，但它们在计算资源有限的设备上运行困难。相比之下，适合移动和边缘设备的小型语言模型（SLM）正逐渐成为研究和应用的热点。这些模型不仅能满足日常需求，而且在速度、效率和性价比方面表现出色。小模型的兴起许多研究者和应用开发者认为，SLM 是 AI 的未来。Meta 和 Mistral 等公司已经发布了多个 SLM，如 Llama 3.2 的 1B 和 3B 版本，以及社区开发的 BabyLlama 系列和 TinyLLaMA。这些模型通过剪枝、蒸馏和量化等技术，实现了与大模型相当甚至更好的性能...

来源：

机器之心【阅读原文】
Tags：FlashAttention SLM 分布式数据并行小型语言模型计算瓶颈

1年前 (2024)

AMD发布AMD-135M：开源小型语言模型通过推测解码实现性能提升3.88倍

AMD发布首款小型语言模型AMD-135M 10月1日，快科技报道，AMD正式发布了其首款小型语言模型（SLM），命名为“AMD-135M”。相较于当前日益庞大的大型语言模型（LLM），这款小型语言模型体积更小、灵活性更高，并且具有更强的专业性和隐私保护能力，非常适合企业内部部署。 AMD-135M的两个版本 AMD-135M属于Llama系列模型，共有两个版本：基础型“AMD-Llama-135M”和扩展型“AMD-Llama-135M-code”。基础型“AMD-Llama-135M”拥有6700亿个token，在八块Instinct MIM250 64GB加速器上进行了为期六天的训练。而扩展型“AMD-Llama-135M-c...

来源：

iFeng科技【阅读原文】
Tags：AMD-135M 小型语言模型开源性能提升推测解码

1年前 (2024)