挤牙膏式

以下为人工风格SEO优化版文章，严格遵循中文阅读习惯与搜索引擎友好原则：
✅ 保留全部核心技术信息与数据准确性
✅ 重构逻辑结构，增强可读性与专业感
✅ 植入自然关键词、场景化表达与用户痛点引导
✅ 避免机械复制，采用行业术语+通俗类比+价值提炼三重表达
✅ 段落清晰、重点加粗、节奏张弛有度，适配移动端与PC端阅读

（由多段落组成）

大模型“卡顿”终于有解了？DeepSeek联手北大发布DSpark，推理速度飙升近85%！

最近，AI圈最忙的团队之一——DeepSeek，一边加速人才扩张，一边悄然交出一份硬核技术答卷：联合北京大学团队正式开源新一代大模型推理加速框架 DSpark。其核心论文《DSpark： Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》已在GitHub公开（[PDF直达链接](https：//github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf)），更关键的是——它已真实落地于DeepSeek-V4-Flash与V4-Pro两大预览版生产系统，全面替代旧版MTP-1方案。

实测效果令人振奋：在同等GPU资源与总吞吐量前提下，DSpark让V4-Flash单用户生成速度提升60%~85%，V4-Pro则达57%~78%。这意味着——你输入一句提问，模型“秒回”的概率大幅提高；开发者调用API时，单位成本下的响应并发数显著上升。

为什么我们总在等AI“一个字一个字蹦”？根源在这里

当前主流大语言模型普遍采用自回归解码（autoregressive decoding）：每输出1个token，就必须执行1次完整前向计算。文本越长，步骤越多，延迟越明显。尤其在实时对话、智能体（Agent）协作、编程辅助等高交互场景中，这种“挤牙膏式”响应不仅拉低体验，更导致GPU显存与算力大量闲置——不是模型不够强，而是推理效率拖了后腿。

推测解码（Speculative Decoding）正是为此而生的技术范式：它引入一个轻量级“草稿模型”（draft model）先行生成多个候选token，再由主模型（target model）批量验证。理想状态下，一次验证即可确认多个token，大幅提升吞吐。但过去方案始终面临两难——

🔹 自回归草稿模型（如Eagle3）：生成连贯、质量高，但自身也慢，拖累整体加速比；
🔹 并行草稿模型（如DFlash）：速度快，却易出现“前后不搭”的幻觉组合（例如把“of course”和“no problem”错拼成“of problem”），越往后接受率越低——论文将其定义为后缀衰减（suffix decay）。

更现实的瓶颈在于：线上服务中，并非所有候选token都值得验证。数学题答案路径明确，接受率高；开放聊天千人千答，后半段token大概率被拒。若盲目验证长候选块，反而挤占批处理容量（batch capacity），拖累其他用户请求。

DSpark破局之道：半自回归 + 置信度调度，让加速更“懂业务”

DSpark不做非此即彼的选择，而是提出一套兼顾质量、速度与系统适应性的协同设计：

✅ 半自回归草稿架构（Semi-Autoregressive Drafting）
保留并行计算主干以保障首token预测精度，同时在输出端嵌入轻量级顺序模块（默认采用低开销的Markov Head），使后续token能参考已生成的前序token，有效缓解后缀衰减——既不像纯并行模型那样“乱写”，也不像纯自回归模型那样“慢写”。

✅ 置信度驱动的动态验证调度（Confidence-Scheduled Verification）
系统为每个候选位置实时预测置信度分数（confidence score），即该token在前置token全被接受的前提下，仍能通过主模型验证的概率。再由硬件感知前缀调度器综合三大维度智能决策验证长度：当前系统负载、各位置置信度、不同批大小下的吞吐曲线。
→ 负载低时，大胆验证更长前缀，榨干单次前向计算价值；
→ 高峰期自动收缩低置信请求的验证预算，优先保障高价值请求的SLA达标。

实测数据说话：不止快，而且稳、而且省

在Qwen3系列（4B/8B/14B）与Gemma4-12B四大主模型上，DSpark在数学（GSM8K/AIME25）、代码（MBPP/HumanEval）、对话（MT-Bench/Alpaca）三大典型任务中全面超越Eagle3与DFlash：
• 宏平均接受长度（macro-average accepted length）最高提升30.9%；
• 在Qwen3-4B上，数学任务平均接受长度达5.57，聊天任务为3.49——印证结构化任务更适配多token推测；
• 关键指标显示：置信度阈值从0.5提升至0.9，聊天任务接受率从45.7%跃升至95.7%，验证了调度策略的有效性。

真·生产级落地：从实验室到千万级用户流量

在线上服务中，DSpark将最大草案长度设为5，对比旧基线MTP-1（仅单token预测）：
• V4-Flash在80 token/s/user服务目标下，系统总吞吐提升51%；
• 当SLA要求严苛至120 token/s/user时，MTP-1已逼近极限，DSpark实现名义吞吐优势达661%——这并非“理论倍数”，而是意味着原本无法承载的高并发场景，现在稳定可用；
• V4-Pro同理，在50 token/s/user目标下达成406%名义吞吐优势，单用户生成提速57%~78%。

开源即诚意：DSpark模型权重 + DeepSpec训练框架全量开放

DeepSeek同步开源：
🔹 DSpark适配V4-Flash/V4-Pro的完整模型检查点（checkpoints）；
🔹 统一推理训练框架 DeepSpec（GitHub地址：[https：//github.com/deepseek-ai/DeepSpec](https：//github.com/deepseek-ai/DeepSpec)），集成Eagle3、DFlash、DSpark三大主流方案，支持开发者快速复现、微调与部署。

这场开源，不只是释放一个算法，更是交付一套面向真实业务负载的推理工程方法论：它证明——大模型竞争已跨过“唯参数量论”的阶段，进入模型×系统×调度×成本的精细化博弈时代。谁能把更强的模型，更快、更稳、更省地送到用户指尖，谁就握住了AI应用落地的真正主动权。

本文来源：

iFeng科技【阅读原文】

# 每日AI快讯 # DSpark # 半自回归架构 # 大模型推理加速 # 推测解码 # 置信度调度

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

挤牙膏式

GPT-5.6

没有更多了...

相关文章

暂无评论

AI最新资讯