DeepSeek's New Technology Ported to Apple Silicon, Mac Local LLM Accelerated by 60%

marsbitXuất bản vào 2026-07-03Cập nhật gần nhất vào 2026-07-03

Tóm tắt

DeepSeek's newly open-sourced DSpark inference acceleration technology has been ported to Apple Silicon, yielding significant speedups for running large language models locally on Macs. The port, called mlx-dspark, was developed by engineer Abdur Rahim and supports models like Gemma-4 12B and Qwen3-4B. DSpark uses speculative decoding, where a smaller "draft" model proposes candidate tokens which are then verified in a batch by the target model. Rahim adapted this approach for Apple's MLX framework, implementing 4-bit quantization for the draft model. On an M4 Pro Mac, this resulted in generation speeds increasing by approximately 1.6x for Gemma-4 12B (to ~30 tok/s) and 1.4x for Qwen3-4B (to ~73 tok/s). Crucially, the port maintains bitwise identical output to the original models, including support for temperature sampling, not just greedy decoding. The project also integrated DFlash, an alternative block-based speculative decoding method from z-lab. Benchmarks show DFlash excels in predictable contexts like code/math tasks (achieving ~2.1x speedup), while DSpark's Markov head provides better performance for open-ended chat. The latest mlx-dspark version allows users to switch between these methods. The work demonstrates efficient, high-fidelity local LLM inference on consumer Apple hardware.

Kressey from the Aofeisi Quantum Bit | Official Account QbitAI

Just one week after DeepSeek open-sourced DSpark, it's been ported to Apple computers.

The ported version is called mlx-dspark, running the Gemma-4 12B and Qwen3-4B models.

After installation, the generation speed of these two models on Mac increased by 1.6x and 1.4x respectively.

More importantly, it achieved something most ported versions can't — the output is byte-for-byte identical to the original model, not a single character off.

In other words, speed is gained without sacrificing any quality.

The person behind this is Abdur Rahim, an engineer who tinkers with open-source projects in his spare time. He single-handedly created the first native Mac version since DSpark was open-sourced.

Mac Running LLMs, Speed Boost of 60%

For DeepSeek's DSpark, open-sourced on June 27th, the official figures show a speed improvement of 60% to 85% in server-side scenarios.

However, this technology initially only had implementations for data center GPUs, with no version adapted for Apple Silicon.

mlx-dspark is the first native Apple Silicon version of this technology.

The idea behind DSpark is to pair a smaller model to assist the target model. The small model first generates several candidate tokens in one go, then the target model verifies them all at once, accepting the correct ones and rejecting the wrong ones for re-guessing.

The cost of this step differs between data centers and Apple computers.

On data center GPUs, verifying a batch of candidate tokens is more like chartering a bus—the fare is fixed regardless of the number of passengers. Since decoding is already memory-bound, verifying a few more tokens hardly adds any time.

Apple Silicon is more like a metered taxi—the more candidate tokens verified, the higher the meter runs.

Rahim tested it practically. For Gemma-4 12B, each additional token verified costs about 14 milliseconds. He calculated this into a cost model, concluding that the speed ceiling on Apple Silicon is around 2.2x.

In short, Rahim ported this assisting small model from HuggingFace's checkpoint and paired it with the target models Gemma-4 12B and Qwen3-4B.

He also rebuilt the verification process within the MLX framework and quantized the weights to 4-bit.

As a result, on the M4 Pro, compared to Apple's official MLX tool, Gemma-4 12B's generation speed increased from 18.4 tok/s to about 30 tok/s, about 1.6x the original; Qwen3-4B increased from 52.9 tok/s to about 73 tok/s, about 1.4x the original.

Additionally, in mlx-dspark, Rahim did something most porting work doesn't.

Ported Version, High-Fidelity Reproduction Possible

Most versions that port large models locally only support greedy decoding, meaning they pick the highest probability token at each step.

In mlx-dspark, Rahim implemented the temperature sampling method originally described in the DSpark paper. The draft model provides candidate tokens, and the acceptance probability is min(1, p/q), with unaccepted parts resampled from the residual.

He personally verified that the output from this process strictly equals the exact distribution the target model would give at the same temperature, not a discounted approximation.

Most speculative decoding implementations only do the greedy version because verifying the correctness of greedy mode is simple—just compare byte-by-byte.

The extra step Rahim took was personally checking the output distribution generated in sampling mode to confirm it wasn't distorted.

What precision the target model responsible for verification should be was a pitfall he figured out through trial.

If the small model was paired with a base target model without instruction fine-tuning, only 47% of the candidate tokens passed verification; switching to the corresponding instruction-tuned version increased this ratio to 82%.

He also tested switching the target model to bf16 precision. The increase in verification cost outweighed the increase in acceptance rate, making it slower, so leaving the target model at 8-bit by default is most cost-effective.

The small model responsible for generating candidate tokens uses a different precision.

The draft model itself was compressed by him. After 4-bit quantization, it's only 1.8GB, easily fitting into memory, and runs without loss.

The result is that DSpark not only achieved acceleration but also successfully reproduced the 16% to 18% acceptance rate improvement mentioned in the paper on the device.

DFlash Also Integrated, Faster on Code Tasks

After the tweet was posted, a comment appeared in the replies. Jian Chen, one of the authors of the DFlash paper, asked if they could try his team's model.

DFlash is another speculative decoding scheme proposed in a paper published by z-lab in May. The team lead author is Zhijian Liu, an assistant professor at UCSD and simultaneously a research scientist at NVIDIA.

DFlash's approach is different from DSpark. It uses a single parallel "block diffusion" to denoise an entire block of 16 tokens, rather than guessing step-by-step with dependencies like DSpark.

Rahim got to work quickly.

Using a porting script written by Jian himself, he connected the z-lab released gemma4-12B-it-DFlash to the Gemma-4 target model in mlx-vlm. On the same Mac, he ran another head-to-head comparison against the DSpark he just tested.

On code and math tasks, DFlash's block decoding acceptance length reached 5.95 to 6.20, speed about 36 tok/s, achieving about 2.1x, beating DSpark.

However, DFlash generates an entire block of 16 tokens at once, but the target model may not accept all of them. The portion that actually passes verification is only a part, referred to in the industry as the "acceptance length"—it's not always possible to fill all 16.

Therefore, in scenarios like open chat where content is unpredictable, the acceptance length doesn't increase, the block isn't fully utilized, and DFlash's advantage doesn't show.

DSpark's Markov head exists precisely to address this same issue. Parallel generation of an entire block of tokens means positions further back are calculated independently, making them prone to misalignment. The Markov head adds a layer of dependency between these positions specifically to correct this.

The result is, in chat scenarios, DSpark is actually faster than DFlash.

The subsequently updated mlx-dspark v0.0.3 officially integrated the z-lab original DFlash into the package, adding a parameter to manually shorten DFlash's effective block length—use short blocks for chat scenarios, and still use the full 16-token block for code and math scenarios.

After this, the same Mac, the same package, can handle both chat and code/math tasks, no longer needing to switch between the DSpark and DFlash projects.

Rahim said in his tweet that the same method should also work on larger Qwen3-8B and 14B draft models.

Reference Links:[1]https://x.com/_ARahim_/status/2072021710602432577[2]https://github.com/ARahim3/mlx-dspark

This article is from the official WeChat account "QbitAI", author: Focus on Frontier Technology

Tiền kỹ thuật số thịnh hành

Câu hỏi Liên quan

QWhat is the main achievement of the mlx-dspark project described in the article?

Amlx-dspark is the first native Apple Silicon port of DeepSeek's DSpark technology. It significantly speeds up the inference of models like Gemma-4 12B and Qwen3-4B on Macs (by ~1.6x and ~1.4x respectively) while maintaining output quality identical to the original models, byte-for-byte.

QHow does DSpark's speculative decoding method work to accelerate inference?

ADSpark uses a smaller 'draft' model to rapidly generate multiple candidate tokens (speculative decoding). The larger, target model then verifies these candidates in a batch. Correct tokens are accepted, and incorrect ones are rejected and regenerated. This reduces the number of times the slower target model needs to run.

QWhat key difference did Abdur Rahim implement in mlx-dspark that many other ports do not?

AUnlike many ports that only support greedy decoding, Rahim implemented the full temperature sampling method as described in the DSpark paper. This ensures the output distribution is mathematically identical to the target model's, not just an approximation, preserving generation quality.

QHow does the performance of DFlash compare to DSpark on Mac, according to the tests in the article?

ADFlash, which decodes in parallel blocks of 16 tokens, outperforms DSpark on code and math tasks, achieving speeds around 36 tok/s (~2.1x speedup). However, in open-ended chat scenarios where content is less predictable, DSpark's Markov head (which adds dependencies between candidate tokens) performs better than DFlash's block decoding.

QWhat practical feature was added in mlx-dspark v0.0.3 to handle different types of tasks?

AVersion 0.0.3 integrated the original DFlash model and added a parameter to manually adjust the effective block length. Users can use shorter blocks for chat scenarios and full 16-token blocks for code/math tasks, allowing a single package to handle different task types efficiently.

Nội dung Liên quan

‘Không thể bị kiểm duyệt’ - Đề xuất Bitcoin chặn Ordinals chỉ nhận được dưới 1% ủng hộ

Bản đề xuất fork mềm BIP-110 trên Bitcoin, nhằm chặn các giao dịch chứa dữ liệu phi tài chính như Ordinals và Runes, đã thất bại trong việc giành được sự ủng hộ cần thiết từ các thợ đào. Chỉ dưới 1% tổng công suất băm trong chu kỳ 2.016 khối đã bỏ phiếu ủng hộ, thấp xa so với ngưỡng kích hoạt 55%. Cộng đồng Bitcoin chia rẽ sâu sắc về đề xuất này. Những người ủng hộ, như nhà phát triển Luke Davis Jr., cho rằng nó cần thiết để bảo vệ chức năng tiền tệ cốt lõi của mạng lưới khỏi spam và chi phí giao dịch tăng cao do memecoin. Tuy nhiên, các chỉ trích, bao gồm BitMEX Research và CEO Blockstream Adam Back, cảnh báo rằng BIP-110 có thể phá vỡ các ví hiện có, cấm hơn 1,7 triệu BTC và đi ngược lại nguyên tắc "không thể bị kiểm duyệt" của Bitcoin. Adam Back so sánh việc kiểm duyệt Bitcoin là bất khả thi, giống như với Internet. Với sự ủng hộ cực thấp từ thợ đào, cơ hội kích hoạt BIP-110 trong đợt bỏ phiếu của người dùng vào tháng 8 tới được dự báo là rất mong manh. Sự kiện này được một số nhân vật như David Bailey đánh giá là "tăng giá" cho BTC, vì nó cho thấy khả năng chống lại các thay đổi gây chia rẽ.

ambcrypto2 giờ trước

‘Không thể bị kiểm duyệt’ - Đề xuất Bitcoin chặn Ordinals chỉ nhận được dưới 1% ủng hộ

ambcrypto2 giờ trước

Bitcoin ở mức 62 nghìn USD: Tại sao CoinShares cảnh báo ‘đây vẫn có vẻ là giai đoạn đầu của quá trình chạm đáy’

Bitcoin (BTC) đã hồi phục lên mức khoảng 62.500 USD sau khi lao dốc kéo dài, chủ yếu nhờ phản ứng thị trường trước báo cáo việc làm Mỹ tháng 6 yếu hơn dự kiến. Điều này khiến kỳ vọng về việc Fed tăng lãi suất trong ngắn hạn giảm xuống, dẫn đến lợi tức trái phiếu giảm và thúc đẩy dòng tiền chuyển hướng sang các tài sản rủi ro hơn như tiền mã hóa. Tuy nhiên, CoinShares cảnh báo đây chỉ là phản ứng tạm thời. Cục Dự trữ Liên bang (Fed) vẫn giữ lập trường thiên hướng "diều hâu" và dự báo lãi suất cuối năm 2026 cao hơn. Ngoài ra, thị trường vẫn đối mặt với nhiều thách thức như áp lực bán từ các "cá voi" (dù đã phần nào giảm bớt), dòng tiền ròng rút khỏi các sản phẩm ETF Bitcoin để chuyển sang các quỹ ETF tập trung vào AI, bất ổn địa chính trị và áp lực nguồn cung tiềm tàng. CoinShares kết luận rằng đây trông giống như giai đoạn đầu của quá trình chạm đáy hơn là khởi đầu cho một đợt tăng giá mới mạnh mẽ. Dù lãi suất mở (Open Interest) đang có xu hướng tăng lên, cho thấy các nhà giao dịch vẫn tiếp tục mở vị thế, nhưng điều này cũng làm tăng đòn bẩy và nguy cơ xảy ra các đợt thanh lọc có thể khuếch đại biến động giá tiếp theo của Bitcoin.

ambcrypto3 giờ trước

Bitcoin ở mức 62 nghìn USD: Tại sao CoinShares cảnh báo ‘đây vẫn có vẻ là giai đoạn đầu của quá trình chạm đáy’

ambcrypto3 giờ trước

Giao dịch

Giao ngay

Bài viết Nổi bật

Làm thế nào để Mua ONE

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua Harmony (ONE) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua Harmony (ONE) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ Harmony (ONE) của BạnSau khi mua Harmony (ONE), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch Harmony (ONE)Giao dịch Harmony (ONE) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 587Xuất bản vào 2024.12.12Cập nhật vào 2026.06.02

Làm thế nào để Mua ONE

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của ONE (ONE) được trình bày dưới đây.

活动图片