Baru Saja, DeepSeek V4 Perbarui DSpark, Kecepatan Inference Meningkat 80%
Baru-baru ini, DeepSeek V4 diperbarui dengan framework *Speculative Decoding* baru bernama **DSpark**, yang diklaim meningkatkan kecepatan inferensi hingga 80%. Pembaruan ini, yang juga disertai open-sourcing framework **DeepSpec**, berfokus pada optimasi teknikal dan peningkatan performa, bukan perubahan arsitektur model inti.
DSpark mengimplementasikan **Semi-Autoregressive Generation** untuk menjaga throughput tinggi dan meningkatkan akurasi token yang dihasilkan oleh model draf (*draft model*). Inovasi utamanya adalah **Confidence-Scheduled Verification**, yaitu sistem penjadwalan yang cerdas dan adaptif. Sistem ini menggunakan *Confidence Head* untuk memperkirakan probabilitas penerimaan setiap token kandidat dan secara dinamis menyesuaikan panjang verifikasi berdasarkan beban kerja sistem (*hardware-aware*), sehingga mengalokasikan daya komputasi hanya ke token yang paling potensial.
Dalam pengujian di berbagai domain (penalaran matematika, generasi kode, percakapan), DSpark menunjukkan peningkatan signifikan dibandingkan model *state-of-the-art* seperti Eagle3 dan DFlash. Pada kondisi *throughput* yang setara, DSpark meningkatkan kecepatan respons pengguna sebesar 57%-85% untuk model DeepSeek-V4 Flash dan Pro.
DeepSpec, yang dirilis bersamaan, adalah *codebase* lengkap untuk melatih dan mengevaluasi model draf *speculative decoding*. Framework ini menyediakan pipeline standar (persiapan data, pelatihan, evaluasi) dan mendukung beberapa algoritma (DSpark, DFlash, Eagle3) serta model target (Qwen3, Gemma), memudahkan peneliti dan insinyur untuk mengembangkan dan menerapkan teknik percepatan inferensi pada model bahasa besar mereka sendiri.
marsbit22m yang lalu