Vừa qua, DeepSeek V4 cập nhật DSpark, tốc độ suy luận tăng 80%

marsbitXuất bản vào 2026-06-27Cập nhật gần nhất vào 2026-06-27

Tóm tắt

Vừa qua, DeepSeek V4 đã được cập nhật với framework giải mã suy đoán mới là **DSpark**, giúp tăng tốc độ suy luận lên tới 80%. Cốt lõi của bản cập nhật này là framework **DSpark**, một kỹ thuật giải mã suy đoán được triển khai trên DeepSeek-V4-Pro hiện có để tăng tốc độ suy luận, chứ không phải là nâng cấp kiến trúc mô hình. DSpark giải quyết các điểm nghẽn về độ trễ và thông lượng trong môi trường sản xuất, đặc biệt ở các tình huống có tải cao. DSpark kết hợp hai cải tiến chính: 1. **Kiến trúc sinh bán tự hồi quy (Semi-Autoregressive Generation)**: Giữ lợi thế về thông lượng cao của mô hình phác thảo song song, đồng thời thêm mô-đun nối tiếp nhẹ để mô hình hóa mối quan hệ phụ thuộc giữa các token, giúp giảm thiểu tỷ lệ chấp nhận suy giảm. 2. **Xác minh theo lịch trình độ tin cậy, nhận biết phần cứng (Confidence-Scheduled Verification)**: Một "đầu độ tin cậy" (Confidence Head) được sử dụng để đánh giá xác suất tồn tại của mỗi token phác thảo. Hệ thống điều phối sẽ xác định độ dài xác minh tối ưu một cách linh hoạt dựa trên đặc điểm tải và phần cứng, chỉ phân bổ tài nguyên tính toán cho những token có khả năng được chấp nhận cao nhất. Trong các thử nghiệm trên nhiều lĩnh vực như suy luận toán học, tạo mã và hội thoại, DSpark vượt trội so với các phương pháp tiên tiến hiện tại như Eagle3 và DFlash. So với cơ sở sinh token đơn trước đó (MTP-1), DSpark đã **tăng tốc độ phản hồi cho người dùng từ 57% đến 85%** (tuỳ thuộc vào việc sử dụng mô hình Flash hay Pro) trong khi vẫn d...

Vừa qua, DeepSeek V4 đã thực hiện một bản cập nhật.

Họ đã ra mắt framework giải mã dự đoán (Speculative Decoding) mới tên là DSpark, đồng thời open-source toàn bộ framework giải mã dự đoán toàn diện hỗ trợ phiên bản này có tên DeepSpec.

DeepSeek-V4-Pro-DSpark không phải là một kiến trúc model hoàn toàn mới, mà là phiên bản DeepSeek-V4-Pro được tích hợp thêm module giải mã dự đoán. Trọng tâm của bản cập nhật này nằm ở việc triển khai kỹ thuật, hơn là sự lặp lại về khả năng của chính model.

DSpark đã được triển khai trong luồng traffic trực tuyến thực tế của DeepSeek-V4 (Flash và Pro), tăng tốc đáng kể tốc độ suy luận của các mô hình ngôn ngữ lớn (LLM).

Báo cáo kỹ thuật: 《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》

Link báo cáo kỹ thuật: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

Mục đích cốt lõi của DSpark là giải quyết các điểm nghẽn về độ trễ và thông lượng mà quá trình suy luận LLM phải đối mặt trong môi trường sản xuất (đặc biệt là trong các tình huống có mức độ đồng thời cao). Nói một cách đơn giản, DSpark đã kết hợp thành công "tạo sinh song song" với thông lượng cao và "xác thực nhận biết tải" thích ứng.

Giải mã dự đoán là một kỹ thuật tăng tốc suy luận cho các mô hình ngôn ngữ lớn mà không làm thay đổi phân bố đầu ra của mô hình. Ý tưởng cốt lõi là giới thiệu một "mô hình phác thảo" (draft model) nhẹ để tạo sẵn một số lượng ứng cử viên token nhất định, sau đó mô hình mục tiêu (target model) sẽ tiến hành xác thực hàng loạt và chấp nhận những ứng cử viên này, từ đó biến việc tạo sinh token tuần tự từng cái thành kiểm tra hàng loạt song song, giảm đáng kể độ trễ từ đầu đến cuối.

Trên cơ sở này, sự đổi mới của DSpark nằm ở việc giới thiệu kiến trúc tạo sinh bán tự hồi quy (Semi-Autoregressive Generation): nó giữ lại lợi thế về thông lượng cao của mô hình phác thảo song song, đồng thời bổ sung thêm một module tuần tự nhẹ để mô hình hóa mối quan hệ phụ thuộc giữa các token trong một khối, nhằm giảm thiểu vấn đề suy giảm tỷ lệ chấp nhận thường gặp ở các vị trí tiếp theo của mô hình phác thảo song song.

Ngoài ra còn có Xác thực theo lịch trình tin cậy nhận biết phần cứng (Confidence-Scheduled Verification): Giải mã dự đoán trước đây thường đưa tất cả các Token phác thảo được tạo ra đi xác thực một cách mù quáng. Khi hệ thống ở trạng thái tải cao, các Token ở phần đuôi có xác suất bị từ chối rất cao này sẽ lãng phí nghiêm trọng năng lực tính toán xử lý hàng loạt quý giá. DSpark giới thiệu một đầu tin cậy (Confidence Head) để đánh giá khả năng tồn tại của từng Token. Kết hợp với bộ lập lịch tiền tố nhận biết phần cứng, hệ thống có thể dựa trên đặc điểm thông lượng của engine theo thời gian thực để lập lịch động chiều dài xác thực tối ưu cho từng yêu cầu, chỉ phân bổ năng lực tính toán cho những Token có kỳ vọng lợi ích cao nhất.

Để triển khai trong cơ sở hạ tầng trực tuyến thực tế, bộ lập lịch của DSpark sử dụng cơ chế bất đồng bộ để tương thích với lập lịch không chi phí (ZOS) và phát lại đồ thị CUDA liên tục. Nó sử dụng dự đoán lịch sử từ hai bước trước đó để quyết định độ dài cắt ngắn động hiện tại, từ đó ẩn đi độ trễ lập lịch, tránh được sự tạm dừng của pipeline GPU, đồng thời đảm bảo khôi phục hoàn toàn không mất mát phân bố đầu ra của mô hình mục tiêu.

Trong các bài kiểm tra bao gồm nhiều lĩnh vực như suy luận toán học, tạo mã và hội thoại hàng ngày, DSpark đã vượt trội hơn đáng kể so với các mô hình tự hồi quy tiên tiến nhất hiện nay (Eagle3) và mô hình phác thảo song song (DFlash). Ví dụ, trên các mô hình mục tiêu thuộc dòng Qwen3 (4B, 8B, 14B), độ dài chấp nhận trung bình của nó cao hơn từ 26.7% đến 30.9% so với Eagle3, và từ 16.3% đến 18.4% so với DFlash.

So với điểm chuẩn sản xuất đơn token thế hệ trước (MTP-1) đã được triển khai, trong khi duy trì cùng tổng thông lượng, DSpark đã tăng tốc độ tạo sinh của người dùng lần lượt 60%-85% (mô hình Flash) và 57%-78% (mô hình Pro).

Cùng với DSpark được open-source, DeepSpec cũng được công bố. Đây là một codebase toàn diện dùng để đào tạo và đánh giá các mô hình phác thảo giải mã dự đoán. Đó là "cơ sở hạ tầng nguồn mở" chứa đựng giải pháp này cũng như các triển khai thuật toán tiên tiến khác, bao gồm các công cụ chuẩn bị dữ liệu, triển khai mô hình phác thảo, mã đào tạo và script đánh giá.

DeepSpec chia toàn bộ quy trình thành ba giai đoạn: chuẩn bị dữ liệu, đào tạo và đánh giá. Ba giai đoạn này cần được chạy tuần tự, đầu ra của giai đoạn trước sẽ là đầu vào của giai đoạn sau.

Ở giai đoạn chuẩn bị dữ liệu, cần tải xuống dữ liệu lời nhắc, sử dụng engine suy luận để tạo lại câu trả lời cho mô hình mục tiêu và xây dựng bộ nhớ đệm mục tiêu (target cache). Đáng chú ý là, với cấu hình mặc định Qwen/Qwen3-4B làm ví dụ, dung lượng bộ nhớ đệm mục tiêu có thể lên tới khoảng 38 TB, cần đánh giá đầy đủ tài nguyên lưu trữ trước khi sử dụng.

Giai đoạn đào tạo có thể được khởi động thông qua bash scripts/train/train.sh. Script này sẽ gọi train.py và khởi động một worker cho mỗi GPU hiện hữu. Người dùng có thể chọn cấu hình mô hình mục tiêu và thuật toán khác nhau trong thư mục config/ bằng cách chỉ định config_path. Dự án cũng hỗ trợ điều chỉnh cài đặt đào tạo bằng cách ghi đè config_path, target_cache_dir và sử dụng --opts để sửa đổi các trường cấu hình đơn lẻ.

Về phần cứng, cấu hình mặc định và script của DeepSpec hướng đến môi trường một node 8 GPU. Nếu số lượng GPU ít hơn, người dùng cần giảm số lượng GPU hiện hữu trong CUDA_VISIBLE_DEVICES tương ứng.

Giai đoạn đánh giá được khởi động thông qua bash scripts/eval/eval.sh. Script đánh giá sẽ sử dụng checkpoint của mô hình phác thảo đã được đào tạo để đo lường tình trạng chấp nhận trên nhiều tác vụ chuẩn của giải mã dự đoán. Các tập dữ liệu đánh giá hiện được liệt kê trong dự án bao gồm GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca và Arena-Hard-v2, bao phủ các loại tác vụ khác nhau như suy luận toán học, tạo mã, khả năng hội thoại và hỏi đáp tổng hợp.

Về mặt thuật toán, DeepSpec hiện có sẵn ba loại mô hình phác thảo: DSpark, DFlash và Eagle3. Về dòng mô hình mục tiêu, dự án hiện hỗ trợ Qwen3 và Gemma.

Việc open-source DeepSpec đã hợp nhất thực hành kỹ thuật giải mã dự đoán - vốn trước đây thường phân tán trong nội bộ các nhóm nghiên cứu - thành một bộ công cụ tiêu chuẩn hóa có thể tái tạo và mở rộng. Đối với các nhà nghiên cứu và kỹ sư muốn tăng tốc suy luận cho mô hình lớn của riêng họ, điều này có nghĩa là có thể đào tạo mô hình phác thảo tùy chỉnh trực tiếp trên một framework trưởng thành, bỏ qua rất nhiều công việc xây dựng cơ sở hạ tầng cơ bản lặp đi lặp lại.

Liên kết tham khảo:

https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

https://github.com/deepseek-ai/DeepSpec

Bài viết này đến từ tài khoản WeChat công cộng "机器之心" (ID: almosthuman2014), tác giả: Zenan, Yang Wen

Câu hỏi Liên quan

QDự án DSpark của DeepSeek là gì và mục tiêu chính của nó là gì?

ADSpark là một framework giải mã suy đoán (Speculative Decoding) mới được DeepSeek giới thiệu, được triển khai trên DeepSeek-V4 (Flash và Pro). Mục tiêu chính của DSpark là giải quyết các điểm nghẽn về độ trễ và thông lượng trong quá trình suy luận LLM trong môi trường sản xuất, đặc biệt là trong các tình huống có tải cao. Nó kết hợp việc 'tạo song song' hiệu suất cao với 'xác minh nhận thức tải' thích ứng, nhằm tăng tốc đáng kể tốc độ suy luận.

QGiải mã suy đoán là gì và DSpark cải tiến nó như thế nào?

AGiải mã suy đoán là một kỹ thuật tăng tốc suy luận mô hình ngôn ngữ lớn mà không thay đổi phân phối đầu ra của mô hình. Ý tưởng cốt lõi là sử dụng một 'mô hình nháp' nhẹ để tạo trước một số token ứng viên, sau đó mô hình mục tiêu xác minh và chấp nhận hàng loạt các ứng viên này. DSpark cải tiến bằng cách giới thiệu kiến trúc 'tạo bán tự hồi quy' để mô hình hóa sự phụ thuộc giữa các token trong khối, và 'xác minh lập lịch tin cậy nhận thức phần cứng' để đánh giá xác suất tồn tại của mỗi token và lập lịch động độ dài xác minh tối ưu cho từng yêu cầu, tránh lãng phí tài nguyên tính toán.

QDSpark đạt được những cải tiến hiệu suất nào so với các phương pháp trước đó?

ATrong các thử nghiệm, DSpark vượt trội hơn hẳn so với các mô hình tiên tiến trước đó như Eagle3 và DFlash. Ví dụ, trên các mô hình mục tiêu thuộc dòng Qwen3 (4B, 8B, 14B), độ dài chấp nhận trung bình của DSpark cao hơn Eagle3 từ 26.7% đến 30.9%, và cao hơn DFlash từ 16.3% đến 18.4%. So với hệ thống sản xuất token đơn thế hệ trước (MTP-1), trong khi duy trì cùng tổng thông lượng, DSpark đã tăng tốc độ tạo phản hồi cho người dùng từ 57% đến 85% (tùy vào mô hình Flash hay Pro).

QDeepSpec là gì và nó đóng vai trò gì trong hệ sinh thái này?

ADeepSpec là một kho mã nguồn mở toàn diện để đào tạo và đánh giá các mô hình nháp cho giải mã suy đoán. Nó đóng vai trò là 'cơ sở hạ tầng mã nguồn mở' chứa các công cụ chuẩn bị dữ liệu, triển khai mô hình nháp, mã đào tạo và kịch bản đánh giá. DeepSpec hợp nhất thực tiễn kỹ thuật trước đây thành một công cụ chuẩn hóa, có thể tái tạo và mở rộng, cho phép các nhà nghiên cứu và kỹ sư dễ dàng đào tạo mô hình nháp tùy chỉnh cho mô hình lớn của riêng họ để tăng tốc suy luận.

QLàm thế nào để sử dụng DeepSpec và nó hỗ trợ những thuật toán và mô hình mục tiêu nào?

AQuy trình sử dụng DeepSpec được chia thành ba giai đoạn: chuẩn bị dữ liệu, đào tạo và đánh giá. Người dùng có thể khởi chạy tập lệnh bash tương ứng (như scripts/train/train.sh và scripts/eval/eval.sh). Cấu hình mặc định hướng đến môi trường một nút với 8 GPU. Hiện tại, DeepSpec hỗ trợ ba thuật toán mô hình nháp: DSpark, DFlash và Eagle3. Về chuỗi mô hình mục tiêu, nó hiện hỗ trợ Qwen3 và Gemma. Kịch bản đánh giá hoạt động trên nhiều bộ dữ liệu chuẩn, bao gồm GSM8K, MATH500, HumanEval, MBPP, MT-Bench, v.v., bao phủ các loại nhiệm vụ khác nhau như suy luận toán học, tạo mã và đối thoại.

Nội dung Liên quan

Cách mà thần đồng Karpathy sử dụng Claude, hóa ra là như thế này?

Andrej Karpathy, một chuyên gia hàng đầu trong lĩnh vực AI, được cho là đã sử dụng một tệp CLAUDE.md cá nhân để hướng dẫn Claude - công cụ AI lập trình từ Anthropic - hoạt động hiệu quả hơn. Dù tính xác thực của tệp này chưa được kiểm chứng, nhưng nội dung của nó phản ánh chính xác những nguyên tắc Karpathy thường chia sẻ. Tài liệu này đưa ra các quy tắc then chốt để tránh những lỗi phổ biến khi AI viết code. Trọng tâm bao gồm: **Đọc kỹ code hiện có** trước khi viết mới để đảm bảo tính nhất quán; **Suy nghĩ thấu đáo** về yêu cầu và các phương án triển khai trước khi bắt tay vào code; **Giữ mọi thứ đơn giản nhất có thể**, tránh thiết kế thừa và chỉ xử lý những vấn đề thực sự tồn tại; **Sửa đổi một cách "phẫu thuật"**, chỉ thay đổi phần cần thiết và tuân thủ phong cách code sẵn có của dự án. Các hướng dẫn khác bao gồm việc luôn **xác minh code** bằng kiểm thử, làm việc **theo mục tiêu rõ ràng**, **gỡ lỗi có phương pháp**, thận trọng khi thêm **phụ thuộc mới**, và **giao tiếp hiệu quả** về những thay đổi. Tài liệu cũng chỉ ra các "mẫu thất bại" thường gặp như làm quá nhiều việc cùng lúc, tạo ra sự trừu tượng hóa không cần thiết, hoặc lạc quyết định ban đầu. Về cơ bản, những nguyên tắc này nhằm biến Claude từ một thực thể tạo code chung chung thành một trợ lý lập trình thực sự hiểu ngữ cảnh, tuân thủ dự án và giảm thiểu nhu cầu viết lại code. Dù tệp gốc có phải của Karpathy hay không, các nguyên tắc này được cộng đồng đánh giá cao và đã có dự án trên GitHub tổng hợp chúng, được cho là giúp giảm tỷ lệ lỗi code do AI tạo ra một cách đáng kể.

marsbit3 giờ trước

Cách mà thần đồng Karpathy sử dụng Claude, hóa ra là như thế này?

marsbit3 giờ trước

BIT Nghiên cứu: Halving năm 2028 không phải là dấu chấm hết, cuộc đại phẫu thật sự của ngành khai thác Bitcoin chỉ mới bắt đầu

Ngành công nghiệp khai thác Bitcoin hiện đang trải qua đợt điều chỉnh cấu trúc phức tạp nhất từ trước đến nay. Dù giá Bitcoin duy trì quanh 61.000 USD và hashrate toàn mạng gần chạm mức lịch sử 1 ZH/s, lợi nhuận của thợ đào liên tục xấu đi. Mô hình kinh tế cho thấy, giá sản xuất dưới hiện tại là 46.744 USD, nhưng thực tế, thu nhập thực tế của thợ đào thấp hơn 136% so với mức lý thuyết ở mức giá này. Doanh thu từ phí giao dịch cũng ở mức thấp. Áp lực chi phí gia tăng, với điện chiếm 71.5% tổng doanh thu năm 2025. Ngưỡng hòa vốn toàn ngành ước tính khoảng 65.000 USD. Sau đợt halving năm 2028, giá sản xuất dưới dự kiến tăng lên khoảng 93.289 USD, đẩy nhanh quá trình đào thải. Ngành công nghiệp đang chuyển từ kinh doanh khai thác đơn thuần sang mô hình kinh doanh cơ sở hạ tầng. Các công ty khai thác đang đa dạng hóa sang các lĩnh vực như vận hành cơ sở hạ tầng năng lượng, cung cấp dịch vụ điện toán AI/HPC. Những công ty lớn, có nguồn vốn mạnh, nguồn điện chi phí thấp và nguồn thu đa dạng sẽ có lợi thế cạnh tranh. Điểm then chốt cho các nhà đầu tư không chỉ là sự kiện halving, mà là khả năng chuyển đổi mô hình kinh doanh và xây dựng lợi thế bền vững của các công ty khai thác.

marsbit4 giờ trước

BIT Nghiên cứu: Halving năm 2028 không phải là dấu chấm hết, cuộc đại phẫu thật sự của ngành khai thác Bitcoin chỉ mới bắt đầu

marsbit4 giờ trước

Giao dịch

Giao ngay
活动图片