Baru Saja, DeepSeek V4 Perbarui DSpark, Kecepatan Inference Meningkat 80%

marsbitDipublikasikan tanggal 2026-06-27Terakhir diperbarui pada 2026-06-27

Abstrak

Baru-baru ini, DeepSeek V4 diperbarui dengan framework *Speculative Decoding* baru bernama **DSpark**, yang diklaim meningkatkan kecepatan inferensi hingga 80%. Pembaruan ini, yang juga disertai open-sourcing framework **DeepSpec**, berfokus pada optimasi teknikal dan peningkatan performa, bukan perubahan arsitektur model inti. DSpark mengimplementasikan **Semi-Autoregressive Generation** untuk menjaga throughput tinggi dan meningkatkan akurasi token yang dihasilkan oleh model draf (*draft model*). Inovasi utamanya adalah **Confidence-Scheduled Verification**, yaitu sistem penjadwalan yang cerdas dan adaptif. Sistem ini menggunakan *Confidence Head* untuk memperkirakan probabilitas penerimaan setiap token kandidat dan secara dinamis menyesuaikan panjang verifikasi berdasarkan beban kerja sistem (*hardware-aware*), sehingga mengalokasikan daya komputasi hanya ke token yang paling potensial. Dalam pengujian di berbagai domain (penalaran matematika, generasi kode, percakapan), DSpark menunjukkan peningkatan signifikan dibandingkan model *state-of-the-art* seperti Eagle3 dan DFlash. Pada kondisi *throughput* yang setara, DSpark meningkatkan kecepatan respons pengguna sebesar 57%-85% untuk model DeepSeek-V4 Flash dan Pro. DeepSpec, yang dirilis bersamaan, adalah *codebase* lengkap untuk melatih dan mengevaluasi model draf *speculative decoding*. Framework ini menyediakan pipeline standar (persiapan data, pelatihan, evaluasi) dan mendukung beberapa algoritma (DSpark, DFlash, Eag...

Baru saja, DeepSeek V4 melakukan pembaruan.

Meluncurkan framework decoding spekulatif (Speculative Decoding) DSpark, dan sekaligus membuka sumber (open-source) framework decoding spekulatif full-stack DeepSpec yang mendukung versi ini.

DeepSeek-V4-Pro-DSpark bukanlah model arsitektur baru, melainkan pengenalan modul decoding spekulatif pada basis DeepSeek-V4-Pro. Fokus pembaruan ini terletak pada implementasi rekayasa (engineering), bukan pada iterasi kemampuan model itu sendiri.

DSpark telah diterapkan di lalu lintas online nyata DeepSeek-V4 (Flash dan Pro), secara signifikan mempercepat kecepatan inferensi model bahasa besar (Large Language Model/LLM).

Laporan Teknis: "DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation"

Tautan Laporan Teknis: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

Inti awal DSpark adalah untuk mengatasi hambatan latensi dan throughput yang dihadapi oleh inferensi LLM dalam lingkungan produksi (terutama skenario konkurensi tinggi). Singkatnya, DSpark berhasil menggabungkan "pembuatan paralel" ber-throughput tinggi dengan "validasi sadar beban (load-aware)" yang adaptif.

Decoding spekulatif adalah teknik untuk mempercepat inferensi model bahasa besar tanpa mengubah distribusi output model. Inti pemikirannya adalah memperkenalkan "model draf (draft model)" yang ringan, untuk menghasilkan beberapa token kandidat terlebih dahulu, kemudian model target (target model) memvalidasi dan menerima kumpulan kandidat ini secara batch, sehingga mengubah pembuatan token demi token serial menjadi verifikasi batch paralel, secara drastis mengurangi latensi end-to-end.

Dasar ini, inovasi DSpark terletak pada pengenalan Arsitektur Generasi Semi-Autoregresif (Semi-Autoregressive Generation): Ia mempertahankan keunggulan throughput tinggi model draf paralel, sekaligus menambahkan modul serial ringan untuk memodelkan hubungan ketergantungan antar token di dalam blok, guna meredakan masalah penurunan tingkat penerimaan (acceptance rate) yang mudah terjadi pada posisi selanjutnya dalam model draf paralel.

Selain itu ada Validasi Penjadwalan Keyakinan Sadar Perangkat Keras (Hardware-Aware Confidence-Scheduled Verification): Decoding spekulatif sebelumnya biasanya akan secara membabi buta mengirimkan semua Token draf yang dihasilkan untuk divalidasi. Saat sistem mengalami beban tinggi, Token-Token ekor yang sangat mungkin ditolak ini akan sangat menyia-nyiakan daya komputasi pemrosesan batch yang berharga. DSpark memperkenalkan kepala keyakinan (Confidence Head) untuk mengevaluasi probabilitas kelangsungan hidup setiap Token. Digabungkan dengan penjadwal awalan (prefix scheduler) sadar perangkat keras, sistem dapat secara dinamis menyesuaikan panjang verifikasi optimal untuk setiap permintaan berdasarkan karakteristik throughput mesin waktu nyata, mengalokasikan daya komputasi hanya pada Token yang diharapkan memberikan hasil tertinggi.

Untuk diterapkan di infrastruktur online nyata, penjadwal DSpark menggunakan mekanisme asinkron untuk kompatibel dengan penjadwalan tanpa overhead (Zero-Overhead Scheduling/ZOS) dan pemutaran ulang grafik CUDA yang berkelanjutan. Ia menggunakan prediksi historis dari dua langkah sebelumnya untuk menentukan panjang pemotongan dinamis saat ini, sehingga menyembunyikan latensi penjadwalan, menghindari jeda pipa GPU, sekaligus memastikan restorasi distribusi output model target yang sepenuhnya tanpa kehilangan (lossless).

Dalam pengujian yang mencakup berbagai bidang seperti penalaran matematika, pembuatan kode, dan percakapan sehari-hari, DSpark jauh melampaui model autoregresif (Eagle3) dan model draf paralel (DFlash) yang paling mutakhir saat ini. Misalnya, pada model target seri Qwen3 (4B, 8B, 14B), panjang penerimaan rata-ratanya meningkat 26.7% hingga 30.9% dibandingkan Eagle3, dan meningkat 16.3% hingga 18.4% dibandingkan DFlash.

Dibandingkan dengan benchmark produksi Token tunggal yang diterapkan sebelumnya (MTP-1), dalam kondisi mempertahankan total throughput yang sama, DSpark meningkatkan kecepatan pembuatan pengguna masing-masing sebesar 60%-85% (model Flash) dan 57%-78% (model Pro).

Bersama dengan DSpark, juga dibuka sumberkan DeepSpec, ini adalah kodebase full-stack untuk melatih dan mengevaluasi model draf decoding spekulatif. Merupakan "infrastruktur sumber terbuka" yang menampung skema ini serta implementasi algoritma mutakhir lainnya, berisi alat persiapan data, implementasi model draf, kode pelatihan, dan skrip evaluasi.

DeepSpec membagi proses keseluruhan menjadi tiga tahap: persiapan data, pelatihan, dan evaluasi. Ketiga tahap perlu dijalankan secara berurutan, output tahap sebelumnya akan menjadi input tahap berikutnya.

Tahap persiapan data, perlu mengunduh data prompt, menggunakan mesin inferensi untuk menghasilkan ulang jawaban model target, dan membangun cache target (target cache). Patut diperhatikan, dengan konfigurasi default Qwen/Qwen3-4B, volume cache target dapat mencapai sekitar 38 TB, perlu mengevaluasi sumber daya penyimpanan dengan cukup sebelum digunakan.

Tahap pelatihan dapat dimulai melalui bash scripts/train/train.sh. Skrip ini akan memanggil train.py, dan meluncurkan sebuah worker untuk setiap GPU yang terlihat. Pengguna dapat memilih konfigurasi algoritma dan model target yang berbeda di direktori config/ dengan menentukan config_path. Proyek ini juga mendukung penyesuaian pengaturan pelatihan dengan menimpa config_path, target_cache_dir, serta menggunakan --opts untuk memodifikasi field konfigurasi tunggal.

Dari sisi perangkat keras, konfigurasi default dan skrip DeepSpec ditujukan untuk lingkungan satu node dengan 8 GPU. Jika jumlah GPU lebih sedikit, pengguna perlu mengurangi jumlah GPU yang terlihat dalam CUDA_VISIBLE_DEVICES sesuai kebutuhan.

Tahap evaluasi kemudian dimulai melalui bash scripts/eval/eval.sh. Skrip evaluasi akan menggunakan checkpoint model draf yang telah dilatih, untuk mengukur penerimaan pada beberapa tugas benchmark decoding spekulatif. Dataset evaluasi yang tercantum saat ini dalam proyek termasuk GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca, dan Arena-Hard-v2, mencakup berbagai jenis tugas seperti penalaran matematika, pembuatan kode, kemampuan dialog, dan tanya jawab komprehensif.

Dari sisi algoritma, DeepSpec saat ini menyertakan tiga model draf bawaan: DSpark, DFlash, dan Eagle3. Untuk seri model target, proyek saat ini mendukung Qwen3 dan Gemma.

Pembukaan sumber DeepSpec, mengintegrasikan praktik rekayasa decoding spekulatif yang sebelumnya tersebar di berbagai tim penelitian internal, menjadi seperangkat toolchain terstandarisasi yang dapat direproduksi dan diperluas. Bagi peneliti dan insinyur yang berharap mempercepat inferensi model besar mereka sendiri, ini berarti dapat langsung melatih model draf kustom pada framework yang matang, melewati banyak pekerjaan pembangunan infrastruktur dasar yang berulang.

Tautan Referensi:

https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

https://github.com/deepseek-ai/DeepSpec

Artikel ini berasal dari akun WeChat publik "机器之心" (ID:almosthuman2014), penulis: Zenan, Yang Wen

Pertanyaan Terkait

QApa itu DSpark yang diluncurkan dalam pembaruan DeepSeek V4, dan apa manfaat utamanya?

ADSpark adalah kerangka kerja *speculative decoding* (dekode spekulatif) yang diluncurkan DeepSeek. Ini bukan model arsitektur baru, melainkan modul yang ditambahkan ke DeepSeek-V4-Pro untuk mempercepat proses inferensi. Manfaat utamanya adalah meningkatkan kecepatan generasi (hingga 85% untuk model Flash dan 78% untuk model Pro) dan mengatasi hambatan latensi serta throughput pada skenario konkurensi tinggi, tanpa mengubah distribusi keluaran model target.

QBagaimana cara kerja inti teknik 'speculative decoding' seperti yang diterapkan di DSpark?

AInti dari teknik *speculative decoding* adalah memperkenalkan model "draft" (rancangan) yang lebih ringan untuk menghasilkan beberapa calon token secara paralel. Kemudian, model target (utama) memverifikasi dan menerima batch calon token tersebut secara sekaligus. Ini mengubah proses generasi token secara serial (satu per satu) menjadi verifikasi batch paralel, sehingga secara signifikan mengurangi latensi end-to-end.

QApa dua inovasi utama DSpark dibandingkan dengan teknik speculative decoding sebelumnya?

ADua inovasi utama DSpark adalah: 1. **Generasi Semi-Autoregresif (*Semi-Autoregressive Generation*)**: Menggabungkan keunggulan throughput tinggi model draft paralel dengan modul serial ringan untuk memodelkan ketergantungan antar token dalam satu blok, mengurangi penurunan tingkat penerimaan pada posisi selanjutnya. 2. **Verifikasi dengan Penjadwalan Keyakinan yang Sadar Perangkat Keras (*Hardware-Aware Confidence-Scheduled Verification*)**: Menggunakan 'kepala keyakinan' (*Confidence Head*) untuk menilai probabilitas hidup setiap token dan penjadwal yang sadar beban kerja. Ini memungkinkan sistem untuk menentukan panjang verifikasi optimal secara dinamis, mengalokasikan daya komputasi hanya ke token yang diharapkan memberikan hasil terbaik.

QApa nama proyek infrastruktur yang dirilis bersamaan dengan DSpark, dan apa tujuannya?

AInfrastruktur yang dirilis bersamaan adalah **DeepSpec**. Ini adalah repositori kode sumber terbuka (*open-source codebase*) yang lengkap untuk melatih dan mengevaluasi model draft dalam konteks *speculative decoding*. Tujuannya adalah menyediakan alat standar yang dapat direproduksi dan diperluas (termasuk alat persiapan data, implementasi model, kode pelatihan, dan skrip evaluasi) sehingga peneliti dan insinyur dapat melatih model draft kustom untuk model besar mereka sendiri tanpa harus membangun infrastruktur dasar dari awal.

QPada pengujian di beberapa domain, bagaimana kinerja DSpark dibandingkan dengan model draft paralel (DFlash) dan model otoregresif canggih (Eagle3)?

APada pengujian di berbagai domain seperti penalaran matematika, generasi kode, dan percakapan sehari-hari, DSpark secara signifikan melampaui DFlash dan Eagle3. Misalnya, dengan model target seri Qwen3 (4B, 8B, 14B), panjang penerimaan rata-rata DSpark meningkat **26.7% hingga 30.9%** dibandingkan Eagle3, dan meningkat **16.3% hingga 18.4%** dibandingkan DFlash, menunjukkan efisiensi penerimaan token yang lebih tinggi.

Bacaan Terkait

Ethereum Turun 45% Sejak Awal Tahun – Lalu Mengapa SharpLink dan Paus Masih Membeli?

Meskipun harga Ethereum (ETH) turun 20-45% sejak awal tahun, minat institusional terhadap aset kriptu terkemuka ini tetap kuat. SharpLink, setelah jeda delapan bulan, kembali membeli 5.000 ETH senilai sekitar $7,88 juta, diikuti penambahan 26.324 LSETH senilai $45,54 juta. Total kepemilikannya kini mencapai 876.285 ETH, menunjukkan keyakinan pada utilitas jangka panjang dan pendapatan staking Ethereum, meski menghadapi kerugian belum terealisasi hampir $1,71 miliar. Tren akumulasi ini juga tercermin pada aktivitas "paus" (whale), dengan satu dompet baru mengakumulasi 18.361 ETH senilai $28,9 juta dalam sembilan hari terakhir, menandakan persiapan untuk pergerakan harga di masa depan. Namun, kepercayaan yang kembali bangun ini belum sepenuhnya tercermin dalam permintaan institusional yang lebih luas. ETF Spot Ethereum justru mencatat arus keluar bersih, dengan penarikan $12,85 juta pada 26 Juni. Meski demikian, total aset yang dipegang penerbit ETF masih signifikan, senilai lebih dari $8,38 miliar, yang mengindikasikan penyesuaian posisi berkelanjutan daripada pelepasan total. Pada intinya, akumulasi oleh treasury perusahaan dan paus mendukung prospek jangka panjang Ethereum, tetapi pemulihan berkelanjutan masih bergantung pada membaiknya sentimen pasar dan arus masuk ETF yang lebih kuat untuk mengimbangi tekanan penjualan institusional yang masih ada.

ambcrypto4m yang lalu

Ethereum Turun 45% Sejak Awal Tahun – Lalu Mengapa SharpLink dan Paus Masih Membeli?

ambcrypto4m yang lalu

Ternyata Beginilah Cara Karpathy Menggunakan Claude?

Sejak bergabung dengan Anthropic, aktivitas Andrej Karpathy di komunitas terbuka berkurang drastis. Baru-baru ini, sebuah dokumen bernama CLAUDE.md yang diklaim sebagai panduan penggunaan Claude milik Karpathy beredar di komunitas. Isinya berisi sejumlah prinsip ketat untuk memandu AI dalam menulis kode, yang bertujuan mengurangi kesalahan umum model bahasa besar (LLM). Prinsip-prinsip utama mencakup: 1) **Baca dahulu sebelum menulis** – pahami struktur dan gaya kode proyek yang ada. 2) **Berpikir sebelum menulis kode** – klarifikasi asumsi, pertimbangkan trade-off, dan uraikan rencana. 3) **Tetap sederhana** – hindari desain berlebihan, abstraksi prematur, dan fleksibilitas yang tidak diperlukan. 4) **Modifikasi terarah** – lakukan perubahan minimal yang sesuai dengan gaya kode asli, jangan melakukan reformatting atau pembersihan yang tidak relevan. 5) **Verifikasi dan uji** – pastikan kode berfungsi seperti yang diharapkan dengan pengujian yang tepat. 6) **Debug secara sistematis** – jangan menebak, selidiki akar masalahnya. 7) **Hati-hati dengan dependensi** – hindari menambah dependensi yang tidak perlu. 8) **Komunikasi yang jelas** – jelaskan apa yang dilakukan dan alasannya. Dokumen ini juga menyoroti pola kegagalan umum seperti abstraksi yang salah, "optimistic path", dan "halusinasi pengetahuan". Meskipun keaslian dokumen ini diragukan, isinya sangat selaras dengan pemikiran Karpathy yang telah banyak mengkritik kelemahan LLM dalam pemrograman. Prinsip-prinsip ini, yang juga telah dijadikan template populer di GitHub, dianggap dapat meningkatkan efektivitas dan mengurangi kesalahan saat menggunakan asisten AI seperti Claude untuk pengembangan perangkat lunak.

marsbit2j yang lalu

Ternyata Beginilah Cara Karpathy Menggunakan Claude?

marsbit2j yang lalu

Riset BIT: Halving 2028 Bukanlah Akhir, Perombakan Sejati Industri Pertambangan Bitcoin Baru Dimulai

Industri penambangan Bitcoin sedang mengalami penyesuaian struktural paling kompleks sejak kelahiran protokolnya. Meski harga Bitcoin bertahan di sekitar $61.000 dan hash rate global mendekati 1 ZH/s (hampir rekor tertinggi), profitabilitas penambang terus memburuk. Beberapa indikator—seperti biaya produksi, pendapatan dari biaya transaksi, ekspansi hash rate, dan anggaran keamanan industri—menunjukkan bahwa sektor ini beroperasi di ambang titik impas. Pengurangan hadiah blok (halving) 2028 diprediksi akan mempercepat proses konsolidasi ini. Masalah utamanya bukan hanya berasal dari penurunan subsidi blok pasca-halving, tetapi juga transisi yang belum tuntas ke model pendapatan berbasis biaya transaksi. Banyak perusahaan penambangan kini beralih dari sekadar memproduksi Bitcoin menjadi operator infrastruktur, operator energi, dan penyedia infrastruktur komputasi untuk AI/HPC. Dengan demikian, fokus kompetisi bergeser dari ekspansi hash rate menuju peningkatan model bisnis. Data menunjukkan bahwa dengan harga Bitcoin sekitar $61.000, pendapatan teoritis harian penambang seharusnya sekitar $78 juta, namun kenyataannya hanya sekitar $33 juta—terjadi selisih sekitar 136%. Pendapatan dari biaya transaksi juga rendah, hanya sekitar $220.000 per hari, jauh di bawah perkiraan historis sebesar $9,7 juta. Biaya listrik sendiri menyerap 71,5% dari total pendapatan industri pada tahun 2025. Setelah halving 2028, biaya produksi dasar Bitcoin diproyeksikan naik menjadi sekitar $93.289, yang akan mendorong konsolidasi industri ke perusahaan-perusahaan besar dengan modal kuat dan pendapatan yang terdiversifikasi. Masa depan industri ini terletak pada transformasi dari bisnis "penambangan" murni menjadi bisnis "infrastruktur", yang mengandalkan sumber pendapatan lain seperti manajemen energi dan layanan hosting komputasi AI/HPC. Bagi investor, pertanyaan kuncinya adalah perusahaan mana yang dapat berhasil bertransformasi dan membangun keunggulan kompetitif yang lebih tangguh dalam lanskap baru ini.

marsbit2j yang lalu

Riset BIT: Halving 2028 Bukanlah Akhir, Perombakan Sejati Industri Pertambangan Bitcoin Baru Dimulai

marsbit2j yang lalu

Trading

Spot
活动图片