挤牙膏式

以下为人工风格SEO优化版文章,严格遵循中文阅读习惯与搜索引擎友好原则:
✅ 保留全部核心技术信息与数据准确性
✅ 重构逻辑结构,增强可读性与专业感
✅ 植入自然关键词、场景化表达与用户痛点引导
✅ 避免机械复制,采用行业术语+通俗类比+价值提炼三重表达
✅ 段落清晰、重点加粗、节奏张弛有度,适配移动端与PC端阅读

(由多段落组成)

大模型“卡顿”终于有解了?DeepSeek联手北大发布DSpark,推理速度飙升近85%!

最近,AI圈最忙的团队之一——DeepSeek,一边加速人才扩张,一边悄然交出一份硬核技术答卷:联合北京大学团队正式开源新一代大模型推理加速框架 DSpark。其核心论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》已在GitHub公开([PDF直达链接](https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf)),更关键的是——它已真实落地于DeepSeek-V4-Flash与V4-Pro两大预览版生产系统,全面替代旧版MTP-1方案。

实测效果令人振奋:在同等GPU资源与总吞吐量前提下,DSpark让V4-Flash单用户生成速度提升60%~85%,V4-Pro则达57%~78%。这意味着——你输入一句提问,模型“秒回”的概率大幅提高;开发者调用API时,单位成本下的响应并发数显著上升。

为什么我们总在等AI“一个字一个字蹦”?根源在这里

当前主流大语言模型普遍采用自回归解码(autoregressive decoding):每输出1个token,就必须执行1次完整前向计算。文本越长,步骤越多,延迟越明显。尤其在实时对话、智能体(Agent)协作、编程辅助等高交互场景中,这种“挤牙膏式”响应不仅拉低体验,更导致GPU显存与算力大量闲置——不是模型不够强,而是推理效率拖了后腿。

推测解码(Speculative Decoding)正是为此而生的技术范式:它引入一个轻量级“草稿模型”(draft model)先行生成多个候选token,再由主模型(target model)批量验证。理想状态下,一次验证即可确认多个token,大幅提升吞吐。但过去方案始终面临两难——

🔹 自回归草稿模型(如Eagle3):生成连贯、质量高,但自身也慢,拖累整体加速比;
🔹 并行草稿模型(如DFlash):速度快,却易出现“前后不搭”的幻觉组合(例如把“of course”和“no problem”错拼成“of problem”),越往后接受率越低——论文将其定义为后缀衰减(suffix decay)。

更现实的瓶颈在于:线上服务中,并非所有候选token都值得验证。数学题答案路径明确,接受率高;开放聊天千人千答,后半段token大概率被拒。若盲目验证长候选块,反而挤占批处理容量(batch capacity),拖累其他用户请求。

DSpark破局之道:半自回归 + 置信度调度,让加速更“懂业务”

DSpark不做非此即彼的选择,而是提出一套兼顾质量、速度与系统适应性的协同设计:

✅ 半自回归草稿架构(Semi-Autoregressive Drafting)
保留并行计算主干以保障首token预测精度,同时在输出端嵌入轻量级顺序模块(默认采用低开销的Markov Head),使后续token能参考已生成的前序token,有效缓解后缀衰减——既不像纯并行模型那样“乱写”,也不像纯自回归模型那样“慢写”。

✅ 置信度驱动的动态验证调度(Confidence-Scheduled Verification)
系统为每个候选位置实时预测置信度分数(confidence score),即该token在前置token全被接受的前提下,仍能通过主模型验证的概率。再由硬件感知前缀调度器综合三大维度智能决策验证长度:当前系统负载、各位置置信度、不同批大小下的吞吐曲线。
→ 负载低时,大胆验证更长前缀,榨干单次前向计算价值;
→ 高峰期自动收缩低置信请求的验证预算,优先保障高价值请求的SLA达标。

实测数据说话:不止快,而且稳、而且省

在Qwen3系列(4B/8B/14B)与Gemma4-12B四大主模型上,DSpark在数学(GSM8K/AIME25)、代码(MBPP/HumanEval)、对话(MT-Bench/Alpaca)三大典型任务中全面超越Eagle3与DFlash:
• 宏平均接受长度(macro-average accepted length)最高提升30.9%;
• 在Qwen3-4B上,数学任务平均接受长度达5.57,聊天任务为3.49——印证结构化任务更适配多token推测;
• 关键指标显示:置信度阈值从0.5提升至0.9,聊天任务接受率从45.7%跃升至95.7%,验证了调度策略的有效性。

真·生产级落地:从实验室到千万级用户流量

在线上服务中,DSpark将最大草案长度设为5,对比旧基线MTP-1(仅单token预测):
• V4-Flash在80 token/s/user服务目标下,系统总吞吐提升51%;
• 当SLA要求严苛至120 token/s/user时,MTP-1已逼近极限,DSpark实现名义吞吐优势达661%——这并非“理论倍数”,而是意味着原本无法承载的高并发场景,现在稳定可用;
• V4-Pro同理,在50 token/s/user目标下达成406%名义吞吐优势,单用户生成提速57%~78%。

开源即诚意:DSpark模型权重 + DeepSpec训练框架全量开放

DeepSeek同步开源:
🔹 DSpark适配V4-Flash/V4-Pro的完整模型检查点(checkpoints);
🔹 统一推理训练框架 DeepSpec(GitHub地址:[https://github.com/deepseek-ai/DeepSpec](https://github.com/deepseek-ai/DeepSpec)),集成Eagle3、DFlash、DSpark三大主流方案,支持开发者快速复现、微调与部署。

这场开源,不只是释放一个算法,更是交付一套面向真实业务负载的推理工程方法论:它证明——大模型竞争已跨过“唯参数量论”的阶段,进入模型×系统×调度×成本的精细化博弈时代。谁能把更强的模型,更快、更稳、更省地送到用户指尖,谁就握住了AI应用落地的真正主动权。

本文来源: iFeng科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...