Nilai Sebenarnya DeepSeek V4 Tidak Terletak pada Parameternya

marsbitDipublikasikan tanggal 2026-04-25Terakhir diperbarui pada 2026-04-25

Abstrak

DeepSeek V4 telah melampaui sekadar perdebatan parameter teknis, dan menunjukkan nilai strategisnya dalam adaptasi komputasi lokal Tiongkok. Model ini berhasil dijalankan secara efisien pada chip domestik seperti Huawei Ascend 910B dan Cambricon, mengatasi tantangan ekosistem perangkat lunak yang masih berkembang. Dengan arsitektur MoE dan mekanisme perhatian hybrid CSA+HCA, V4 mengoptimalkan penggunaan memori dan komputasi, mengurangi beban inferensi pada hardware lokal. Hal ini memungkinkan konteks panjang 1M token diproses dengan biaya lebih rendah, bahkan menawarkan harga yang kompetitif dibandingkan model sejenis. Keberhasilan adaptasi ini membuka jalan bagi perusahaan Tiongkok untuk mengurangi ketergantungan pada NVIDIA, terutama dalam inferensi skala besar—langkah kritis menuju otonomi AI yang berkelanjutan di tengah ketidakpastian pasokan global.

Oleh | Pabrik Model Dunia

DeepSeek V4 sekali lagi mengguncang seluruh China.

Skala parameter, panjang konteks, skor benchmark... indikator teknis ini telah dibandingkan berulang kali dalam berbagai laporan.

Tetapi jika hanya berhenti pada data permukaan, kita melewatkan inti strategis terpenting dari peluncuran ini.

Tiga tahun terakhir, model besar China selalu terperangkap dalam realitas yang canggung: pelatihan bergantung pada Nvidia, inferensi juga bergantung pada Nvidia, chip domestik hanya menjadi opsi cadangan.

Begitu Nvidia menghentikan pasokan, seluruh lingkaran model China akan cemas.

Tetapi hari ini, DeepSeek V4 membuktikan dengan kemampuan:

Sebuah model besar tingkat parameter triliunan yang mutakhir, juga dapat berjalan dengan stabil dan efisien pada komputasi domestik.

Makna hal ini telah melampaui indikator teknis model itu sendiri.

Terobosan Lokalisasi

Untuk benar-benar memahami kesulitan adaptasi lokalisasi ini, pertama-tama harus memahami kerajaan chip Nvidia.

Nvidia tidak hanya memiliki chip, tetapi juga ekosistem lengkap yang sangat tertutup:

Di sisi perangkat keras, ada keluarga chip GPU, ditambah NVLink, NVSwitch yang mewujudkan jaringan kecepatan tinggi interkoneksi antar chip;

Di sisi perangkat lunak, CUDA adalah sistem operasi AI yang dibangun dengan hati-hati oleh Nvidia selama belasan tahun.

Ini seperti pabrik yang sangat dioptimalkan, dari operator paling dasar (unit dasar perhitungan model), hingga komputasi paralel, manajemen memori, komunikasi terdistribusi, seluruh rantai disesuaikan khusus untuk GPU Nvidia.

Dengan kata lain, Nvidia tidak hanya menjual mesin, tetapi juga membangun jalan, pompa bensin, bengkel, sistem navigasi.

Hampir semua model besar global tumbuh di ekosistem ini.

Beralih ke komputasi domestik, yang dihadapi adalah situasi yang sama sekali berbeda.

Arsitektur perangkat keras berbeda, cara interkoneksi berbeda, kematangan tumpukan perangkat lunak berbeda, ekosistem alat masih terus mengejar.

DeepSeek ingin beradaptasi dengan chip domestik, sama sekali bukan sekadar mengganti mesin, tetapi seperti mengalihkan mobil balap yang sudah melaju kencang di jalan tol, ke jalan pegunungan yang masih dalam pengerasan.

Sedikit saja ceroboh, akan terjadi guncangan, kehilangan kecepatan, bahkan kendaraan tidak dapat melanjutkan.

Kali ini, DeepSeek V4 tidak memilih untuk hanya mengoptimalkan sepanjang jalur CUDA, tetapi mulai masuk bersamaan ke dalam rantai adaptasi tumpukan perangkat lunak komputasi domestik.

Dari informasi yang terbuka, V4 telah mencapai terobosan berdasarkan chip inferensi domestik, beradaptasi mendalam dengan chip Huawei Ascend 950, Cambricon juga dapat berjalan stabil pada hari peluncuran model, benar-benar mencapai adaptasi Day 0.

Ini berarti, model mutakhir mulai memiliki kemungkinan untuk diimplementasikan dalam sistem chip domestik.

Bagaimana DeepSeek V4 melakukannya?

Langkah pertama, terjadi di lapisan arsitektur model.

V4 tidak memilih untuk memaksakan chip domestik menanggung konteks 1M, tetapi pertama-tama membuat model itu sendiri lebih hemat.

Desain paling kunci dalam laporan teknis resmi, adalah mekanisme perhatian campuran CSA + HCA, serta optimasi konteks panjang seperti kompresi KV Cache.

Sederhananya, inferensi konteks panjang tradisional, adalah membiarkan model setiap kali menjawab pertanyaan, membuka seluruh perpustakaan untuk dibolak-balik, memori, bandwidth dan komputasi akan cepat penuh.

Cara V4, adalah pertama-tama mengindeks ulang, mengompres dan menyaring materi di perpustakaan, hanya memasukkan informasi paling kunci ke dalam rantai komputasi.

Dengan demikian, konteks 1M tidak lagi sepenuhnya bergantung pada kekerasan perangkat keras, tetapi pertama-tama melalui algoritma mengurangi beban komputasi dan memori.

Ini sangat kunci untuk chip domestik.

Jika model sangat bergantung pada bandwidth memori dan pustaka CUDA matang, chip domestik bahkan jika bisa berjalan, sulit untuk berjalan murah, berjalan stabil.

V4 pertama-tama mengurangi beban inferensi, pada dasarnya adalah meringankan tekanan pada komputasi domestik.

Langkah kedua, terjadi di lapisan arsitektur MoE dan parameter aktivasi.

V4-Pro meskipun total parameter mencapai 1,6 triliun, tetapi setiap inferensi hanya mengaktifkan sekitar 49 miliar parameter; V4-Flash total parameter 284 miliar, setiap aktivasi sekitar 13 miliar parameter.

Ini berarti tidak setiap panggilan menarik semua parameter untuk dihitung, tetapi seperti tim ahli besar, tugas datang hanya memanggil ahli terkait yang turun.

Untuk chip domestik, ini juga penting.

Ini mengurangi tekanan komputasi yang harus ditanggung setiap inferensi, juga membuat konteks panjang dan skenario Agent lebih mudah diterima oleh kartu inferensi.

Langkah ketiga, adalah adaptasi di lapisan operator dan Kernel.

Tempat terkuat ekosistem CUDA, adalah banyak komputasi dasar telah dipoles matang oleh Nvidia, banyak komputasi kinerja tinggi dapat langsung dipanggil.

Makna V4 terletak pada, sebagian komputasi kunci ditarik keluar dari kotak hitam Nvidia, menjadi jalur komputasi khusus yang lebih dapat bermigrasi, dapat diadaptasi.

Sedikit lebih通俗, V4 seperti membongkar part paling kunci dalam mesin, memungkinkan Huawei Ascend, Cambricon dan produsen lain menyesuaikan ulang sesuai struktur chip mereka sendiri.

Langkah keempat, adalah kerangka inferensi dan lapisan layanan.

Adaptasi chip domestik jika hanya berhenti pada "menjalankan Demo", tidak banyak makna industri. Yang benar-benar layak diperhatikan, adalah apakah dapat masuk ke sistem layanan yang dapat dipanggil, dapat ditagih.

Menurut pengujian internal, pada Ascend 950PR, kecepatan inferensi V4 meningkat signifikan dibandingkan versi awal, konsumsi energi juga turun jelas, kinerja single-chip dalam skenario presisi rendah tertentu mencapai lebih dari 2 kali lipat khusus H20 Nvidia.

DeepSeek resmi menyebutkan, saat ini V4-Pro terbatas pada komputasi high-end, throughput layanan terbatas, diperkirakan setelah super node Ascend 950 diluncurkan massal paruh kedua tahun ini, harga akan turun besar.

Ini menunjukkan, seiring dengan produksi massal perangkat keras domestik seperti Ascend, throughput dan rasio kinerja-harga V4 di masa depan akan lebih dioptimalkan.

Tetapi perlu dicatat, V4 tidak sepenuhnya menggantikan GPU dan CUDA Nvidia. Pelatihan model mungkin masih tidak dapat lepas dari Nvidia, tetapi inferensi sudah dapat dilokalkan secara bertahap.

Ini sebenarnya adalah jalur komersial yang sangat realistis.

Pelatihan adalah investasi bertahap, latih sekali, sesuaikan sekali, iterasi sekali. Inferensi adalah biaya berkelanjutan, setiap hari jutaan, miliaran panggilan pengguna, setiap kali harus menghabiskan komputasi.

Kepala pembakaran uang sesungguhnya perusahaan model, dalam jangka panjang akan semakin condong ke inferensi. Siapa yang dapat menanggung kebutuhan inferensi lebih murah, lebih stabil, akan mendapatkan keunggulan nyata dalam aplikasi industri.

DeepSeek V4 pertama kali membuat deployment inferensi model mutakhir China, muncul sebuah rute yang tidak mengambil CUDA Nvidia sebagai prasyarat default.

Langkah ini sudah cukup berbobot.

Dampak V4 pada Aplikasi Industri

Jika adaptasi chip domestik menjawab apakah bisa berjalan, maka harga menjawab pertanyaan lebih realistis lain:

Apakah perusahaan mampu menggunakannya?

Kehebatan DeepSeek sebelumnya, justru kemampuannya menekan kemampuan mendekati model mutakhir, ke harga sangat rendah.

Era V3, R1 begitu, V4 tetap begitu.

Perbedaannya, kali ini bukan perang harga dalam jendela konteks biasa, tetapi terus menekan harga dengan prasyarat konteks 1M + kemampuan Agent.

Menurut harga resmi DeepSeek:

Input V4-Flash cache hit 0,2 yuan / juta tokens, input cache miss 1 yuan / juta tokens, output 2 yuan / juta tokens;

Input V4-Pro cache hit 1 yuan / juta tokens, input cache miss 12 yuan / juta tokens, output 24 yuan / juta tokens.

Memasukkannya ke dalam model domestik sejenis:

Dibandingkan dengan Ali Qwen3.6-Plus di tingkat 256K-1M, harga output V4-Pro sekitar setengahnya, V4-Flash lebih rendah.

Dibandingkan dengan Xiaomi MiMo Pro Series di tingkat 256K-1M, V4-Flash dan V4-Pro jelas lebih murah.

Konteks Kimi K2.6 adalah 256K, dibandingkan, konteks V4-Pro lebih panjang, harga lebih rendah; V4-Flash langsung menekan biaya panggilan frekuensi tinggi ke tingkat lain.

Ini sangat berarti untuk aplikasi perusahaan.

Karena konteks 1M, berarti model dapat sekaligus membaca seluruh gudang kode, paket kontrak tebal, prospektus ratusan halaman, notulen rapat jangka panjang, atau status historis yang terakumulasi saat Agent menjalankan tugas terus menerus.

Banyak aplikasi perusahaan sebelumnya mentok di sini, kemampuan model cukup, tetapi konteks tidak cukup; konteks cukup, harga terlalu mahal; harga dapat diterima, kemampuan model tidak cukup stabil.

Misalnya, sebuah perusahaan membuat Agent penelitian investasi, ingin model membaca sekaligus laporan tahunan perusahaan, konferensi telepon laporan keuangan, laporan industri, berita pesaing dan notulen internal.

Ketika konteks hanya 128K atau 256K, sistem sering harus terus mengiris, mengambil, meringkas, informasi hilang dalam kompresi berulang.

Konteks 1M memungkinkan model mempertahankan lebih banyak bahan mentah, mengurangi kelalaian dan putus.

Misalnya lagi Agent kode.

Ini bukan menulis beberapa baris kode sekaligus, tetapi membaca gudang, memahami ketergantungan, memodifikasi file, menjalankan tes, memperbaiki berdasarkan error. Proses ini akan反复 menghabiskan tokens.

Jika setiap langkah sangat mahal, Agent hanya dapat menjadi demo, tetapi jika tokens cukup murah, baru mungkin masuk proses pengembangan nyata.

Ini juga nilai industri V4.

Ini belum tentu model terkuat, tetapi mungkin menjadi model frekuensi tertinggi perusahaan.

DeepSeek sekali lagi membuat AI dari mainan eksklusif pabrik besar少数, menjadi alat produktivitas yang dapat disebarkan secara skala besar oleh ribuan industri.

Nilai Sebenarnya V4

Ketika konteks 1M dengan harga sangat rendah menuju lini depan industri, nilai sebenarnya DeepSeek V4 baru terungkap.

Semua ini, dibangun di atas dasar komputasi domestik yang belum matang.

Menghadapi kesenjangan sistemik ekosistem chip domestik, tim DeepSeek tidak memilih menunggu ekosistem matang baru上线.

Mereka berulang kali menunda jendela peluncuran, menginvestasikan waktu berbulan-bulan, melakukan调试 bersama mendalam dengan mitra seperti Huawei, kesulitan rekayasa seperti ini, jauh melampaui bayangan luar.

Karena itu, V4 mencapai kemampuan inferensi dan Agent mendekati model tertutip顶级 pada komputasi domestik,显得格外不易.

V4 membuktikan dengan自身, bahkan menghadapi kesenjangan bertahap ekosistem perangkat keras, tim China masih dapat melalui investasi rekayasa极致 dan inovasi kolaboratif perangkat lunak-keras, menghasilkan kinerja kompetitif.

Tentu, jarak menuju kematangan penuh masih ada.

Kelengkapan toolchain platform Ascend, stabilitas cluster skala sangat besar, serta optimasi mendalam lebih banyak skenario vertikal, memerlukan usaha bersama各方 industri.

Tetapi kesuksesan V4, telah membentangkan jalur yang dapat ditiru untuk model后续.

Ini menyuntikkan penenang hati untuk otonomi dan kendali seluruh rantai pasokan AI.

Dalam lingkungan eksternal penuh ketidakpastian saat ini, ketahanan yang masih dapat突破 dalam batasan ini, lebih layak dihormati daripada indikator parameter belaka.

"Tidak tergoda oleh pujian, tidak takut pada fitnah, bertindak sesuai jalan, teguh meluruskan diri".

Tulisan dari resmi DeepSeek ini,正是 catatan terbaiknya.

Pertanyaan Terkait

QApa nilai strategis utama dari DeepSeek V4 menurut artikel ini?

ANilai strategis utamanya adalah kemampuan DeepSeek V4 untuk berjalan secara stabil dan efisien pada komputasi buatan dalam negeri, membuktikan bahwa model AI canggih skala triliun parameter tidak harus bergantung pada chip dan ekosistem Nvidia.

QApa saja tantangan teknis utama dalam mengadaptasi model besar ke chip buatan dalam negeri?

ATantangannya meliputi perbedaan arsitektur hardware, metode interkoneksi, kematangan software stack, dan alat-alat ekosistem yang masih dalam tahap pengembangan, mengharuskan adaptasi mendalam di tingkat arsitektur model, operator, kernel, dan framework.

QBagaimana desain arsitektur DeepSeek V4 membantu mengurangi beban komputasi pada chip domestik?

AV4 menggunakan mekanisme perhatian hybrid CSA + HCA dan kompresi KV Cache untuk mengoptimalkan konteks panjang, serta arsitektur MoE yang hanya mengaktifkan sebagian parameter selama inferensi, sehingga mengurangi tekanan pada memori dan bandwidth chip domestik.

QApa implikasi harga rendah DeepSeek V4 untuk aplikasi perusahaan?

AHarga yang rendah untuk konteks 1M token memungkinkan perusahaan menggunakan kemampuan Agent dan pemrosesan dokumen panjang secara terjangkau, membuka pintu untuk penerapan skala besar di berbagai industri seperti penelitian investasi dan pengembangan kode.

QApa arti kesuksesan adaptasi DeepSeek V4 pada komputasi domestik bagi industri AI China?

AKesuksesan ini memberikan keyakinan bagi industri bahwa melalui rekayasa intensif dan inovasi kolaboratif perangkat lunak dan keras, China dapat mencapai kinerja kompetitif bahkan dengan keterbatasan ekosistem hardware, mendorong kemandirian dan ketahanan rantai pasokan AI.

Bacaan Terkait

Trading

Spot
Futures
活动图片