刚刚，DeepSeek V4更新DSpark，推理速度提升80%

marsbit發佈於 2026-06-27更新於 2026-06-27

文章摘要

DeepSeek-V4-Pro-DSpark版本已更新，通过引入推测性解码框架DSpark大幅提升推理速度。该版本并非架构革新，而是在原有模型基础上加入推测性解码模块，重点在于工程优化。 DSpark采用了创新的半自回归生成架构，结合了并行草稿模型的高吞吐优势和串行模块的精准依赖建模。同时引入硬件感知的置信度调度验证机制，动态调整验证长度，将算力集中在高价值token上。在真实线上部署中，DSpark通过异步调度器实现了零开销调度和连续CUDA图回放。测试显示，在Qwen3系列模型上，DSpark的平均接受长度比Eagle3提升26.7%-30.9%，比DFlash提升16.3%-18.4%。与单token生成基准相比，DSpark将用户生成速度提升了60%-85%（Flash模型）和57%-78%（Pro模型）。随DSpark一同开源的还有全栈推测性解码框架DeepSpec，提供了从数据准备、训练到评估的完整工具链，支持多种草稿模型算法和目标模型系列，为研究者提供了可复现的标准化开发环境。

刚刚,DeepSeek V4 进行了一次更新。

新推出了投机解码(Speculative Decoding)框架 DSpark,并同步开源了支撑该版本的全栈推测性解码框架 DeepSpec。

DeepSeek-V4-Pro-DSpark 并非全新架构模型,而是在 DeepSeek-V4-Pro 基础上引入了推测性解码模块。此次更新的重点在于工程落地,而非模型能力本身的迭代。

DSpark 已被部署在 DeepSeek-V4(Flash 和 Pro)的真实线上流量中,大幅加速了大语言模型(LLM)的推理速度。

技术报告:《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》

技术报告链接:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

DSpark 的核心初衷是解决在生产环境中(尤其是高并发场景下)LLM 推理面临的延迟和吞吐量瓶颈。简而言之,DSpark 成功地将高吞吐量的「并行生成」与自适应的「负载感知验证」结合在了一起。

推测性解码是一种在不改变模型输出分布的前提下加速大语言模型推理的技术。其核心思路是引入一个轻量级的「草稿模型」(draft model),预先生成若干候选 token,再由目标模型(target model)对这批候选进行批量验证和接受,从而将串行逐 token 生成转变为并行批量校验,大幅降低端到端延迟。

在此基础上,DSpark 的创新在于引入半自回归生成架构(Semi-Autoregressive Generation):它保留并行草稿模型的高吞吐优势,同时加入轻量级串行模块,对 block 内 token 之间的依赖关系进行建模,以缓解并行草稿模型在后续位置上容易出现的接受率衰减问题。

除此之外还有硬件感知的置信度调度验证(Confidence-Scheduled Verification):以往的投机解码通常会盲目地把生成的草稿 Token 全部送去验证,在系统高负载时,这些极大概率会被拒绝的尾部 Token 会严重浪费宝贵的批处理算力。DSpark 引入了一个置信度头(Confidence Head)来评估每个 Token 的存活概率。结合硬件感知前缀调度器,系统能够根据实时的引擎吞吐量特征,动态为每个请求量身定制最优的验证长度,将算力只分配给预期回报最高的 Token。

为了在真实的线上基础设施中落地,DSpark 的调度器采用了异步机制,以兼容零开销调度(ZOS)和连续的 CUDA 图回放。它利用前两步的历史预测来决定当前的动态截断长度,从而隐藏了调度延迟,避免了 GPU 流水线停顿,同时保证了目标模型输出分布的完全无损还原。

在涵盖数学推理、代码生成和日常对话等多个领域的测试中,DSpark 大幅超越了目前最先进的自回归模型(Eagle3)和并行草稿模型(DFlash)。例如,在 Qwen3 系列(4B、8B、14B)目标模型上,其平均接受长度比 Eagle3 提升了 26.7% 到 30.9%,比 DFlash 提升了 16.3% 到 18.4%。

相比于前一代部署的单 Token 生产基准(MTP-1),在维持相同总体吞吐量的情况下,DSpark 将用户的生成速度分别提升了 60%-85%(Flash 模型)和 57%-78%(Pro 模型)。

随 DSpark 一同开源的还有 DeepSpec,这是一个用于训练和评估推测性解码草稿模型的全栈代码库。是承载这个方案以及其他前沿算法实现的「开源基础设施」,包含数据准备工具、草稿模型实现、训练代码和评估脚本。

DeepSpec 将整体流程拆分为三个阶段:数据准备、训练和评估。三个阶段需要按顺序运行,前一阶段的输出会作为后一阶段的输入。

数据准备阶段,需下载提示词数据、使用推理引擎对目标模型重新生成答案,并构建目标缓存(target cache)。值得注意的是,以默认的 Qwen/Qwen3-4B 配置为例,目标缓存体积可达约 38 TB,使用前需充分评估存储资源。

训练阶段可通过 bash scripts/train/train.sh 启动。该脚本会调用 train.py,并为每张可见 GPU 启动一个 worker。用户可以通过指定 config_path,在 config/ 目录下选择不同算法和目标模型配置。项目也支持通过覆盖 config_path、target_cache_dir,以及使用 --opts 修改单个配置字段来调整训练设置。

硬件方面,DeepSpec 默认配置和脚本面向单节点 8 卡环境。如果 GPU 数量较少,用户需要相应减少 CUDA_VISIBLE_DEVICES 中的可见 GPU 数量。

评估阶段则通过 bash scripts/eval/eval.sh 启动。评估脚本会使用训练好的草稿模型 checkpoint,在多个 speculative decoding 基准任务上衡量接受情况。项目当前列出的评估数据集包括 GSM8K、MATH500、AIME25、HumanEval、MBPP、LiveCodeBench、MT-Bench、Alpaca 和 Arena-Hard-v2,覆盖数学推理、代码生成、对话能力和综合问答等不同任务类型。

算法方面,DeepSpec 目前内置三种草稿模型:DSpark、DFlash 和 Eagle3。目标模型系列方面,项目当前支持 Qwen3 和 Gemma。

DeepSpec 的开源,将推测性解码这一此前多散落于各研究团队内部的工程实践,整合为一套可复现、可扩展的标准化工具链。对于希望为自有大模型加速推理的研究者和工程师而言,这意味着可以直接在成熟框架上训练定制草稿模型,跳过大量重复的基础设施搭建工作。

参考链接:

https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

https://github.com/deepseek-ai/DeepSpec

本文来自微信公众号 “机器之心”(ID:almosthuman2014),作者:泽南、杨文

你可能也喜歡

以太坊年初至今下跌45% – 为何SharpLink和巨鲸仍在买入？

尽管以太坊（ETH）年内下跌20%-45%，但机构与巨鲸仍在持续买入。SharpLink时隔八个月后通过FalconX购入5000枚ETH，价值约788万美元，随后又增持价值4554万美元的LSETH，使其总持仓达876,285枚ETH。这表明尽管面临未实现亏损，机构对其长期效用和质押收入抱有信念。巨鲸也在跟进积累。一个新钱包在九天内买入18,361枚ETH（约2890万美元）及大量Hyperliquid代币，显示大资金正在为未来价格波动布局而非短期操作。同时，BlackRock向Coinbase转移了大量BTC和ETH，这通常与ETF结算、托管调整或流动性管理相关，并非直接抛售。然而，市场信心尚未全面恢复。现货ETF在6月26日出现1285万美元净流出，尽管累计净流入仍高达109亿美元。这表明直接国库买家和ETF投资者对市场反应不一。整体来看，巨鲸积累与机构活动显示信心正逐步重建，但以太坊的持续复苏仍需更强的ETF资金流入来抵消机构资金外流压力。

ambcrypto1 小時前

ambcrypto1 小時前

在Kraken收购传闻中，Aavenomics 3.0能否维持AAVE的复苏势头？

Aave Labs CEO 斯坦尼·库莱霍夫驳斥了近期关于Kraken收购的传闻。据报道，加密货币交易所Kraken计划收购DeFi借贷协议Aave背后实体Aave Group的15%股份，但库莱霍夫否认会以大幅折价出售AAVE。他同时透露了Aavenomics 3.0计划，将包含新的自动化非酌情回购机制。此消息推动AAVE价格在6月反弹超过50%，一度触及88美元，尽管其价格相较2025年高点仍下跌约77%。市场分析认为，价格反弹得益于交易所供应量减少带来的卖压下降以及新代币经济学的预期。AAVE在2026年的下跌主要受治理冲突和宏观压力影响。市场后续将关注Aavenomics 3.0的具体细节及其是否能持续推动复苏。

ambcrypto3 小時前

在Kraken收购传闻中，Aavenomics 3.0能否维持AAVE的复苏势头？

ambcrypto3 小時前

BIT 投研：2028 年减半不是终点，比特币矿业真正的洗牌才刚开始

比特币矿业正经历结构性调整，行业盈利能力持续恶化。尽管比特币价格约61,000美元、全网算力接近历史高位的1 ZH/s，但矿工实际日收入远低于理论值，手续费收入亦持续低迷。当前行业整体盈亏平衡价格约65,000美元，多数矿企已接近无利可图。 2028年减半预计将把比特币生产成本下沿推升至约93,289美元，加速行业出清。矿业竞争重点正从算力扩张转向商业模式升级，收入结构亟待向手续费驱动过渡。越来越多矿企向能源运营商和AI/HPC算力基础设施提供商转型，寻求多元化收入。未来，行业将向资本雄厚、拥有低成本电力及多元化业务的大型机构化矿企集中。投资者需关注那些能成功完成从“挖矿业务”向“基础设施业务”转型、建立更具韧性竞争优势的矿企。

marsbit4 小時前

marsbit4 小時前

大神Karpathy用Claude的方式，原来是这样的？

AI大神安德烈·卡帕西（Andrej Karpathy）在加入Anthropic后，开源活动减少。近期，一份据称是他本人使用的`CLAUDE.md`文件在社区流传，旨在指导Claude AI进行更高效的编程协作。该文件强调了一系列核心原则，并非简单建议而是必须遵守的规则，以规避大语言模型写代码时的常见错误。核心原则包括： 1. **写之前先读**：在编写新代码前，务必认真阅读现有代码库，理解项目风格、既有模式和工具，确保新代码与项目保持一致。 2. **写代码之前先想清楚**：明确任务需求、澄清假设、说明方案取舍，避免基于模糊理解生成错误代码。 3. **保持简单**：抵制过度设计，避免过早抽象、臆想式错误处理和不必要的配置，编写能解决当前问题的最少代码。 4. **外科手术式修改**：修改代码时力求改动范围最小，严格匹配项目现有风格，只清理自己引入的问题，避免无谓的重构和格式化。 5. **验证**：重视测试，修复bug前先写测试复现，确保改动不破坏现有功能。 6. **目标驱动执行**：将模糊任务转化为可验证的具体步骤，并在执行前说明计划。 7. **调试**：遇到问题先深入调查、复现，理解根因，避免盲目添加临时解决方案。 8. **谨慎管理依赖**：添加新依赖前，优先考虑使用现有工具或标准库，并评估其维护状态和成本。 9. **有效沟通**：清晰说明改动内容和原因，主动指出潜在隐患和不确定之处。文章指出，尽管这份文件的真实性存疑，但其内容高度契合卡帕西本人关于AI编程助手的公开观点。社区已据此提炼出原则并制作了模板，有测试表明能显著降低Claude的代码错误率。这些准则被认为是提升AI辅助编程效率、保证代码质量的关键。

marsbit4 小時前

marsbit4 小時前

Jito实现17.5亿美元收入里程碑，这对代币价格上涨意味着什么？

Jito协议已实现17.5亿美元的累计总收入，成为Solana生态中表现最强劲的项目之一，其中约81%来自MEV奖励，其余为质押奖励。近期网络活动显著加速，活跃地址数大幅增长，24小时交易量激增近90%，达到1.02亿美元，表明用户参与度提升和资本可能回流。基本面改善已反映在价格走势上。JTO在日线图上突破了持续数月的看涨旗形形态，并持续遵循自5月初形成的上升趋势线。若动能维持，价格有望测试趋势线阻力位。链上数据与技术面出现收敛迹象：收入持续增长、用户活跃度提高、交易参与度上升，共同为价格突破提供了支撑。当前的上涨可能正是市场对这些改善的基本面开始进行定价。后续能否发展为更大规模的上涨，将取决于网络活动能否持续扩张。

ambcrypto4 小時前

ambcrypto4 小時前

交易

現貨

刚刚，DeepSeek V4更新DSpark，推理速度提升80%

文章摘要

相關問答

你可能也喜歡

以太坊年初至今下跌45% – 为何SharpLink和巨鲸仍在买入？

在Kraken收购传闻中，Aavenomics 3.0能否维持AAVE的复苏势头？

BIT 投研：2028 年减半不是终点，比特币矿业真正的洗牌才刚开始

大神Karpathy用Claude的方式，原来是这样的？

Jito实现17.5亿美元收入里程碑，这对代币价格上涨意味着什么？

交易

熱門分類

熱門標籤