Vừa qua, DeepSeek V4 cập nhật DSpark, tốc độ suy luận tăng 80%
Vừa qua, DeepSeek V4 đã được cập nhật với framework giải mã suy đoán mới là **DSpark**, giúp tăng tốc độ suy luận lên tới 80%.
Cốt lõi của bản cập nhật này là framework **DSpark**, một kỹ thuật giải mã suy đoán được triển khai trên DeepSeek-V4-Pro hiện có để tăng tốc độ suy luận, chứ không phải là nâng cấp kiến trúc mô hình. DSpark giải quyết các điểm nghẽn về độ trễ và thông lượng trong môi trường sản xuất, đặc biệt ở các tình huống có tải cao.
DSpark kết hợp hai cải tiến chính:
1. **Kiến trúc sinh bán tự hồi quy (Semi-Autoregressive Generation)**: Giữ lợi thế về thông lượng cao của mô hình phác thảo song song, đồng thời thêm mô-đun nối tiếp nhẹ để mô hình hóa mối quan hệ phụ thuộc giữa các token, giúp giảm thiểu tỷ lệ chấp nhận suy giảm.
2. **Xác minh theo lịch trình độ tin cậy, nhận biết phần cứng (Confidence-Scheduled Verification)**: Một "đầu độ tin cậy" (Confidence Head) được sử dụng để đánh giá xác suất tồn tại của mỗi token phác thảo. Hệ thống điều phối sẽ xác định độ dài xác minh tối ưu một cách linh hoạt dựa trên đặc điểm tải và phần cứng, chỉ phân bổ tài nguyên tính toán cho những token có khả năng được chấp nhận cao nhất.
Trong các thử nghiệm trên nhiều lĩnh vực như suy luận toán học, tạo mã và hội thoại, DSpark vượt trội so với các phương pháp tiên tiến hiện tại như Eagle3 và DFlash. So với cơ sở sinh token đơn trước đó (MTP-1), DSpark đã **tăng tốc độ phản hồi cho người dùng từ 57% đến 85%** (tuỳ thuộc vào việc sử dụng mô hình Flash hay Pro) trong khi vẫn duy trì cùng tổng thông lượng.
Cùng với DSpark, DeepSeek cũng công khai mã nguồn **DeepSpec**, một bộ công cụ toàn diện để đào tạo và đánh giá các mô hình phác thảo cho giải mã suy đoán. DeepSpec cung cấp một đường ống công việc tiêu chuẩn bao gồm chuẩn bị dữ liệu, đào tạo và đánh giá, hỗ trợ nhiều thuật toán (DSpark, DFlash, Eagle3) và mô hình mục tiêu (hiện tại là Qwen3 và Gemma).
marsbit2 giờ trước