DeepSeek新技术移植苹果芯片，Mac本地大模型加速60%

marsbit发布于2026-07-03更新于2026-07-03

文章摘要

DeepSeek开源的DSpark技术已被开发者Abdur Rahim成功移植到苹果芯片Mac上，推出了名为mlx-dspark的本地版本。该版本适配了Gemma-4 12B和Qwen3-4B模型，在M4 Pro芯片上分别实现了约1.6倍和1.4倍的生成速度提升。 DSpark的核心思路是使用一个小型“草稿模型”预先生成多个候选词，再由主模型批量核对与接受，以此加速推理过程。Rahim针对苹果芯片的内存访问特点优化了成本模型，并实现了完整的温度采样方法，确保了输出结果与原始模型逐字节完全相同，在提速的同时未损失生成质量。此外，项目还集成了另一项投机解码技术DFlash。DFlash采用“块扩散”方式并行生成16个token，在代码和数学任务上表现更优，速度可达约2.1倍。但对于开放域聊天等难以预测的内容，其接受长度不足，优势受限。因此，mlx-dspark的最新版本允许用户根据任务类型动态调整DFlash的块长度，从而灵活兼顾聊天与代码等不同场景的需求。该项目已开源，未来有望支持更大的模型，为Mac本地大模型推理提供了高效的加速方案。

克雷西发自凹非寺量子位 | 公众号 QbitAI

DSpark刚开源一周,就被搬进了苹果电脑。

移植版本叫mlx-dspark,跑的是Gemma-4 12B和Qwen3-4B这两个模型。

装上之后,这两个模型在Mac上的生成速度分别提了1.6倍和1.4倍。

更难的是,它做到了大多数移植版本做不到的一件事——输出和原模型逐字节相同,一个字都不差。

也就是说,速度换来了,质量一点没丢。

动手的人是Abdur Rahim,业余时间捣鼓开源项目的一个工程师,DSpark开源以来的第一个Mac原生版本,都是他一个人做出来的。

苹果电脑跑大模型,提速60%

针对DeepSeek在6月27日开源的DSpark,官方给出的数字是服务端场景下能提速60%到85%。

不过这套技术当时只有数据中心GPU上的实现,没有适配苹果芯片的版本。

mlx-dspark是这套技术的第一个苹果芯片原生版本。

DSpark的思路是配一个更小的模型给目标模型打下手,小模型先一口气蹦出几个候选词,目标模型再一次性核对,对的收下,错的打回去重猜。

这一步的成本,在数据中心和苹果电脑上不一样。

在数据中心的GPU上,核对一批候选词更像包车,坐几个人都是一口价,解码本来就是内存瓶颈,多核对几个词几乎不多花时间。

苹果芯片更像打表的出租车,核对的候选词越多,表跳得越多。

Rahim实测过,Gemma-4 12B每多核对一个token,要多花约14毫秒。他把这套账算成了一个成本模型,得出的结论是,苹果芯片上的速度天花板在2.2倍左右。

总之,Rahim把这个打下手的小模型从HuggingFace的checkpoint里搬了过来,分别配给Gemma-4 12B和Qwen3-4B这两个目标模型使用。

他还把核对流程在MLX框架里重新搭了一遍,权重量化成4-bit。

结果,在M4 Pro上,对比苹果官方的MLX工具,Gemma-4 12B的生成速度从18.4tok/s涨到约30tok/s,是原来的约1.6倍;Qwen3-4B从52.9tok/s涨到约73tok/s,是原来的约1.4倍。

另外,在mlx-dspark里,Rahim还做了一件大多数移植工作没做的事。

移植版本,也能高精度还原

多数把大模型搬到本地的版本,只支持贪婪解码,也就是每一步都挑概率最高的那个词。

Rahim在mlx-dspark里,把DSpark论文里原本描述的温度采样方法也实现了出来,草稿模型给出候选词,接受概率是min(1, p/q),没通过的部分从残差重新采样。

他自己核对过,这套流程跑出来的输出,严格等于目标模型在同样温度下会给出的那个精确分布,不是打了折扣的近似版本。

多数投机解码只做贪婪版本,是因为验证贪婪模式的正确性很简单,逐字比对就行。

Rahim多做的这一步,是自己把采样模式下跑出来的输出分布核对了一遍,确认没有走样。

负责核对的目标模型该配哪个精度,是他自己试出来的一个坑。

如果小模型配的是没经过指令微调的基础版目标模型,蹦出的候选词只有47%能通过核对;换成对应的指令微调版本,这个比例涨到82%。

他还测过把目标模型换成bf16精度,核对成本涨得比通过率涨得多,反而更慢,所以目标模型默认留在8-bit上最划算。

负责打前站蹦候选词的小模型,用的是另一套精度。

草稿模型本身被他做了压缩,4-bit量化之后只有1.8GB,装进内存毫无压力,跑起来还是无损。

结果就是,DSpark不仅实现了加速,也确实把论文里提到的16%到18%接受率提升,在设备端复现了出来。

DFlash也接了进来,代码任务更快

推文发出后,评论区来了一条留言,DFlash论文的作者之一Jian Chen问,能不能试试他们团队的模型。

DFlash是z-lab今年5月发的论文里提出的另一种投机解码方案,作者团队带头人Zhijian Liu,UCSD助理教授,同时是NVIDIA的研究科学家。

DFlash的思路和DSpark不太一样,它用一次并行的「块扩散」去噪一整块16个token,而不是像DSpark那样一步步带着依赖关系去猜。

Rahim迅速动手。

他用Jian自己写的移植脚本,把z-lab发布的gemma4-12B-it-DFlash接到mlx-vlm的Gemma-4目标模型上,在同一台Mac上,跟自己刚测完的DSpark又跑了一轮头对头对比。

代码和数学任务上,DFlash整块解码的接受长度能到5.95到6.20,速度约36tok/s,达到约2.1倍,跑赢了DSpark。

但是,DFlash一次要蹦出一整块16个token,而但目标模型未必全部认可,实际能通过核对的只是其中一部分,业内管这个叫“接受长度”,不是每次都能把16个全填满。

所以在开放聊天这种内容不好预测的场景里,接受长度上不去,块填不满,DFlash的优势发挥不出来。

DSpark的Markov头正是为了对付同一个毛病存在的,并行蹦出一整块词,越往后的位置是各自独立算出来的,容易互相不搭调,Markov头给这些位置之间加了一层依赖关系,专门纠正这个问题。

结果就是,在聊天场景里,DSpark反而比DFlash更快。

而后更新的mlx-dspark v0.0.3,正式把z-lab原版DFlash接入了包里,还加了一个参数,可以手动把DFlash的有效块长度调短,聊天场景用短块,代码和数学场景仍然用满16的整块。

这之后,同一台Mac、同一个包,就能同时完成聊天和代码、数学类的任务,不用再在DSpark和DFlash两个项目之间来回搬了。

Rahim在推文里说,同样的方法,用在更大的Qwen3-8B和14B草稿模型上应该也能跑通。

参考链接:[1]https://x.com/_ARahim_/status/2072021710602432577[2]https://github.com/ARahim3/mlx-dspark

本文来自微信公众号“量子位”,作者:关注前沿科技

你可能也喜欢

SEC称加密货币规则‘不是一种恩惠’，但《CLARITY法案》仍在等待中

美国证券交易委员会（SEC）主席保罗·阿特金斯回应了外界对特朗普政府推动明确加密货币市场规则的批评，强调制定清晰规则并非对行业的“恩惠”，而是市场正常运作的必要条件。他表示，SEC正在采取历史性措施推动规则现代化，以响应总统号召，使美国成为全球加密货币中心。尽管SEC和商品期货交易委员会（CFTC）已发布多项指导意见，在资产分类、ETF框架等方面提供了一定明确性，但这些基于工作人员解释的指引仍可能面临法律挑战，导致部分创新豁免措施被推迟。行业认为，持久的清晰度只能通过《CLARITY法案》的立法来实现。该法案虽已通过关键委员会审议，但尚未被安排参议院全体表决。随着欧盟的MiCA框架已生效，美国业界正加大压力推动立法。Coinbase支持的游说团体“Stand With Crypto”警告，缺乏明确规则将导致创新流失海外，呼吁公众敦促参议院尽快安排《CLARITY法案》投票。目前，该法案的前景仍不确定。

ambcrypto24分钟前

ambcrypto24分钟前

看跌阴云密布，价值21.3亿美元的比特币和以太坊期权到期

7月3日，加密货币市场迎来关键节点，价值约21.3亿美元的比特币和以太坊期权到期，为当前充满挑战的市场环境提供了新的投资者情绪洞察。此次到期的比特币期权合约约3.1万份，名义价值约19亿美元，其认沽认购比为0.70，最大痛点为61,000美元。以太坊期权则到期13.5万份，价值约2.3亿美元，认沽认购比高达1.29，最大痛点水平为1,650美元。以太坊认沽认购比高于1，表明认沽期权数量多于认购期权，这反映出许多交易者正在对冲进一步下跌风险或保持谨慎态度。期权到期持仓仍集中在关键伽玛暴露水平附近，比特币在60,000美元左右，以太坊则在1,700美元附近。尽管比特币本周重新站上60,000美元心理关口，但市场情绪依然喜忧参半。除了期权活动，投资者注意力也日益转向传统金融市场，特别是人工智能和半导体股的动向。在数字资产行业内，代币化美股也成为一个主要话题。期权到期数据表明，交易者在进入第三季度时仍持谨慎态度。比特币虽收复重要支撑位，但以太坊的防御性定位和对冲活动的集中，显示出许多市场参与者仍在为波动加剧做准备，而非预期将出现决定性的牛市突破。截至发稿，比特币交易价格最高达61,932美元，但24小时交易量下降24.43%，至333亿美元，过去24小时清算金额超过9484万美元。以太坊则回升至1,738美元附近交易区间，交易量降至124.7亿美元，清算金额达1.7146亿美元。

TheNewsCrypto49分钟前

TheNewsCrypto49分钟前

辣评｜著名「Tech Lead」为何清仓比特币？「投资小能手」来啦！

《辣评》本期聚焦加密市场三大热点事件。首先，前谷歌、Meta技术负责人Patrick Shyu在视频中坦言，因高杠杆交易在比特币暴跌中蒙受巨额亏损，被迫清仓。他分析了市场注意力转移、AI热潮吸金、比特币网络中心化风险等，但长期仍看好比特币。其次，Reddit上出现调侃MicroStrategy创始人Michael Saylor的 meme 图片，将其塑造为俯视众生的“投资小能手”，评论区热议其公司对比特币的巨额投资与股价波动。最后，白宫公布的财务报告显示，特朗普在重返白宫第一年从加密货币领域获利约140亿美元，但其力推的“特朗普币”价格暴跌97%，导致大量投资者亏损，引发其利用影响力牟利的争议。文章以轻松口吻串联了市场中的亏损反思、社群玩梗和名人敛财现象，呈现加密世界高收益与高风险并存的生态。

Foresight News1小时前

Foresight News1小时前

从SpaceX到贸易发票：通证化如何改变全球资金流动方式

你是否想过，如果一条WhatsApp消息需要经过验证、盖章和三个不同阶段清算，两天后才送达，会有多糟糕？我们期待实时通讯，为何对金融市场没有同样的期待？如今，买卖股票通常意味着先卖出、等待结算、然后才能再买入。但代币化股票可能改变这一切。代币化趋势因SpaceX创纪录的750亿美元IPO而进入主流视野。此后，区块链平台开始提供SpaceX及英伟达、谷歌等知名公司的代币化资产，显示市场对通过区块链获取传统资产的需求增长。纳斯达克也向SEC申请批准在其交易所进行代币化证券交易，表明这一转变已不限于加密原生平台。代币化股票本质上仍是股票，只是存在于区块链上。其公司、价值和权利与传统股票无异，但交易方式变了：可全天候交易、秒级结算、可拆分以降低投资门槛，并能跨境转移而无须依赖传统多层中介。虽然股票是当前焦点，但代币化正扩展至其他资产类别。据RWA.xyz数据，链上私人信贷已从约50亿美元增长至超100亿美元，房地产、大宗商品和结构化债务也在逐步上链。这些资产类别总值达数百万亿美元。然而，并非所有区块链都适合机构级结算。许多公链优先考虑开放市场活动，费用波动和结算时间不定是可接受的折衷。但受监管的代币化需要可预测的费用、确定的结算和银行级基础设施——这正是大多数公链所缺乏的。XDC网络专注于此，早在代币化股票受关注前就提供了机构级代币化能力。该网络已处理超11亿美元代币化应收账款、私人信贷和大宗商品。例如在巴西，Liqi Digital Assets报告称，到2026年初其累计代币化信贷操作达12亿巴西雷亚尔（约2.3亿美元）。 XDC网络联合创始人Atul Khekade指出，代币化讨论多集中于本就易于流动的资产，更难的是那些从未可及的资产。这些市场规模大得多，基础设施差距是当前的主要障碍。我们正处于真正的“代币化十年”的开端，而非尾声。 BCG和Ripple预测，到2033年代币化资产市场规模将达18.9万亿美元。渣打银行预计，若计入跨境信贷，2034年将达30万亿美元。实现这些目标的关键在于基础设施——哪些网络能处理巨大体量、满足合规要求并符合尚未上链市场的机构预期。监管环境也在转向支持。巴西、新加坡、英国和欧盟均已建立法律框架，赋予代币化金融工具正式地位。美国2025年7月通过的《GENIUS法案》为支付稳定币建立了联邦基础设施。焦点已不再是代币化是否被允许，而是其规模化应用的速度。 SpaceX的IPO让代币化有了一个标志性时刻，但支持其规模化的基础设施并非一夜建成。它是在市场那些未曾成为新闻的角落，历经多年构建起来的。这正是未来十年金融体系的运行基础。

ambcrypto1小时前

ambcrypto1小时前

比特币矿企Riot转移500枚BTC引发抛售担忧——若…可能出现回调

比特币矿企Riot Platforms近期将500枚BTC（约3070万美元）转移至NYDIG托管机构，引发市场对其可能抛售的担忧。然而，链上数据显示此次转移并不直接等同于出售，若比特币后续转入交易所或场外交易柜台，抛售可能性才会增加；若保持托管状态，则可能仅是常规的 treasury 管理操作，如为流动性需求、调整托管协议或准备融资抵押品。数据显示，Riot的比特币储备已从2025年底的19,368枚降至目前的15,680枚，同期其他主要矿企（如Hut 8、Mara Holdings、Core Scientific）的比特币持有量也普遍减少。这反映了2026年比特币挖矿行业正面临压力：比特币价格从2025年下半年超过12万美元的高位回落至约6.5万美元，同时网络算力曾快速攀升至1.08 ZH/s以上，导致挖矿难度增加、利润空间受挤压。随着部分低效矿机关停，全网算力已从峰值下降约15%至约930-950 EH/s。在此背景下，财务稳健的矿企更积极地管理比特币储备而非单纯持有，Riot此次转移可视为行业整体动态的一部分。尽管当前转移不必然指向抛售，但矿企比特币储备的调整与行业面临的算力、难度及价格压力密切相关。

ambcrypto2小时前

ambcrypto2小时前

交易

现货

DeepSeek新技术移植苹果芯片，Mac本地大模型加速60%

文章摘要

苹果电脑跑大模型,提速60%

移植版本,也能高精度还原

DFlash也接了进来,代码任务更快

热门币种推荐

相关问答

你可能也喜欢

SEC称加密货币规则‘不是一种恩惠’，但《CLARITY法案》仍在等待中

看跌阴云密布，价值21.3亿美元的比特币和以太坊期权到期

辣评｜著名「Tech Lead」为何清仓比特币？「投资小能手」来啦！

从SpaceX到贸易发票：通证化如何改变全球资金流动方式

比特币矿企Riot转移500枚BTC引发抛售担忧——若…可能出现回调

交易

热门文章

如何购买ONE

相关讨论

热门问答

热门分类

热门标签