Nilai Sebenarnya DeepSeek V4 Tidak Terletak pada Parameternya

marsbitDipublikasikan tanggal 2026-04-25Terakhir diperbarui pada 2026-04-25

Abstrak

DeepSeek V4 telah melampaui sekadar perdebatan parameter teknis, dan menunjukkan nilai strategisnya dalam adaptasi komputasi lokal Tiongkok. Model ini berhasil dijalankan secara efisien pada chip domestik seperti Huawei Ascend 910B dan Cambricon, mengatasi tantangan ekosistem perangkat lunak yang masih berkembang. Dengan arsitektur MoE dan mekanisme perhatian hybrid CSA+HCA, V4 mengoptimalkan penggunaan memori dan komputasi, mengurangi beban inferensi pada hardware lokal. Hal ini memungkinkan konteks panjang 1M token diproses dengan biaya lebih rendah, bahkan menawarkan harga yang kompetitif dibandingkan model sejenis. Keberhasilan adaptasi ini membuka jalan bagi perusahaan Tiongkok untuk mengurangi ketergantungan pada NVIDIA, terutama dalam inferensi skala besar—langkah kritis menuju otonomi AI yang berkelanjutan di tengah ketidakpastian pasokan global.

Oleh | Pabrik Model Dunia

DeepSeek V4 sekali lagi mengguncang seluruh China.

Skala parameter, panjang konteks, skor benchmark... indikator teknis ini telah dibandingkan berulang kali dalam berbagai laporan.

Tetapi jika hanya berhenti pada data permukaan, kita melewatkan inti strategis terpenting dari peluncuran ini.

Tiga tahun terakhir, model besar China selalu terperangkap dalam realitas yang canggung: pelatihan bergantung pada Nvidia, inferensi juga bergantung pada Nvidia, chip domestik hanya menjadi opsi cadangan.

Begitu Nvidia menghentikan pasokan, seluruh lingkaran model China akan cemas.

Tetapi hari ini, DeepSeek V4 membuktikan dengan kemampuan:

Sebuah model besar tingkat parameter triliunan yang mutakhir, juga dapat berjalan dengan stabil dan efisien pada komputasi domestik.

Makna hal ini telah melampaui indikator teknis model itu sendiri.

Terobosan Lokalisasi

Untuk benar-benar memahami kesulitan adaptasi lokalisasi ini, pertama-tama harus memahami kerajaan chip Nvidia.

Nvidia tidak hanya memiliki chip, tetapi juga ekosistem lengkap yang sangat tertutup:

Di sisi perangkat keras, ada keluarga chip GPU, ditambah NVLink, NVSwitch yang mewujudkan jaringan kecepatan tinggi interkoneksi antar chip;

Di sisi perangkat lunak, CUDA adalah sistem operasi AI yang dibangun dengan hati-hati oleh Nvidia selama belasan tahun.

Ini seperti pabrik yang sangat dioptimalkan, dari operator paling dasar (unit dasar perhitungan model), hingga komputasi paralel, manajemen memori, komunikasi terdistribusi, seluruh rantai disesuaikan khusus untuk GPU Nvidia.

Dengan kata lain, Nvidia tidak hanya menjual mesin, tetapi juga membangun jalan, pompa bensin, bengkel, sistem navigasi.

Hampir semua model besar global tumbuh di ekosistem ini.

Beralih ke komputasi domestik, yang dihadapi adalah situasi yang sama sekali berbeda.

Arsitektur perangkat keras berbeda, cara interkoneksi berbeda, kematangan tumpukan perangkat lunak berbeda, ekosistem alat masih terus mengejar.

DeepSeek ingin beradaptasi dengan chip domestik, sama sekali bukan sekadar mengganti mesin, tetapi seperti mengalihkan mobil balap yang sudah melaju kencang di jalan tol, ke jalan pegunungan yang masih dalam pengerasan.

Sedikit saja ceroboh, akan terjadi guncangan, kehilangan kecepatan, bahkan kendaraan tidak dapat melanjutkan.

Kali ini, DeepSeek V4 tidak memilih untuk hanya mengoptimalkan sepanjang jalur CUDA, tetapi mulai masuk bersamaan ke dalam rantai adaptasi tumpukan perangkat lunak komputasi domestik.

Dari informasi yang terbuka, V4 telah mencapai terobosan berdasarkan chip inferensi domestik, beradaptasi mendalam dengan chip Huawei Ascend 950, Cambricon juga dapat berjalan stabil pada hari peluncuran model, benar-benar mencapai adaptasi Day 0.

Ini berarti, model mutakhir mulai memiliki kemungkinan untuk diimplementasikan dalam sistem chip domestik.

Bagaimana DeepSeek V4 melakukannya?

Langkah pertama, terjadi di lapisan arsitektur model.

V4 tidak memilih untuk memaksakan chip domestik menanggung konteks 1M, tetapi pertama-tama membuat model itu sendiri lebih hemat.

Desain paling kunci dalam laporan teknis resmi, adalah mekanisme perhatian campuran CSA + HCA, serta optimasi konteks panjang seperti kompresi KV Cache.

Sederhananya, inferensi konteks panjang tradisional, adalah membiarkan model setiap kali menjawab pertanyaan, membuka seluruh perpustakaan untuk dibolak-balik, memori, bandwidth dan komputasi akan cepat penuh.

Cara V4, adalah pertama-tama mengindeks ulang, mengompres dan menyaring materi di perpustakaan, hanya memasukkan informasi paling kunci ke dalam rantai komputasi.

Dengan demikian, konteks 1M tidak lagi sepenuhnya bergantung pada kekerasan perangkat keras, tetapi pertama-tama melalui algoritma mengurangi beban komputasi dan memori.

Ini sangat kunci untuk chip domestik.

Jika model sangat bergantung pada bandwidth memori dan pustaka CUDA matang, chip domestik bahkan jika bisa berjalan, sulit untuk berjalan murah, berjalan stabil.

V4 pertama-tama mengurangi beban inferensi, pada dasarnya adalah meringankan tekanan pada komputasi domestik.

Langkah kedua, terjadi di lapisan arsitektur MoE dan parameter aktivasi.

V4-Pro meskipun total parameter mencapai 1,6 triliun, tetapi setiap inferensi hanya mengaktifkan sekitar 49 miliar parameter; V4-Flash total parameter 284 miliar, setiap aktivasi sekitar 13 miliar parameter.

Ini berarti tidak setiap panggilan menarik semua parameter untuk dihitung, tetapi seperti tim ahli besar, tugas datang hanya memanggil ahli terkait yang turun.

Untuk chip domestik, ini juga penting.

Ini mengurangi tekanan komputasi yang harus ditanggung setiap inferensi, juga membuat konteks panjang dan skenario Agent lebih mudah diterima oleh kartu inferensi.

Langkah ketiga, adalah adaptasi di lapisan operator dan Kernel.

Tempat terkuat ekosistem CUDA, adalah banyak komputasi dasar telah dipoles matang oleh Nvidia, banyak komputasi kinerja tinggi dapat langsung dipanggil.

Makna V4 terletak pada, sebagian komputasi kunci ditarik keluar dari kotak hitam Nvidia, menjadi jalur komputasi khusus yang lebih dapat bermigrasi, dapat diadaptasi.

Sedikit lebih通俗, V4 seperti membongkar part paling kunci dalam mesin, memungkinkan Huawei Ascend, Cambricon dan produsen lain menyesuaikan ulang sesuai struktur chip mereka sendiri.

Langkah keempat, adalah kerangka inferensi dan lapisan layanan.

Adaptasi chip domestik jika hanya berhenti pada "menjalankan Demo", tidak banyak makna industri. Yang benar-benar layak diperhatikan, adalah apakah dapat masuk ke sistem layanan yang dapat dipanggil, dapat ditagih.

Menurut pengujian internal, pada Ascend 950PR, kecepatan inferensi V4 meningkat signifikan dibandingkan versi awal, konsumsi energi juga turun jelas, kinerja single-chip dalam skenario presisi rendah tertentu mencapai lebih dari 2 kali lipat khusus H20 Nvidia.

DeepSeek resmi menyebutkan, saat ini V4-Pro terbatas pada komputasi high-end, throughput layanan terbatas, diperkirakan setelah super node Ascend 950 diluncurkan massal paruh kedua tahun ini, harga akan turun besar.

Ini menunjukkan, seiring dengan produksi massal perangkat keras domestik seperti Ascend, throughput dan rasio kinerja-harga V4 di masa depan akan lebih dioptimalkan.

Tetapi perlu dicatat, V4 tidak sepenuhnya menggantikan GPU dan CUDA Nvidia. Pelatihan model mungkin masih tidak dapat lepas dari Nvidia, tetapi inferensi sudah dapat dilokalkan secara bertahap.

Ini sebenarnya adalah jalur komersial yang sangat realistis.

Pelatihan adalah investasi bertahap, latih sekali, sesuaikan sekali, iterasi sekali. Inferensi adalah biaya berkelanjutan, setiap hari jutaan, miliaran panggilan pengguna, setiap kali harus menghabiskan komputasi.

Kepala pembakaran uang sesungguhnya perusahaan model, dalam jangka panjang akan semakin condong ke inferensi. Siapa yang dapat menanggung kebutuhan inferensi lebih murah, lebih stabil, akan mendapatkan keunggulan nyata dalam aplikasi industri.

DeepSeek V4 pertama kali membuat deployment inferensi model mutakhir China, muncul sebuah rute yang tidak mengambil CUDA Nvidia sebagai prasyarat default.

Langkah ini sudah cukup berbobot.

Dampak V4 pada Aplikasi Industri

Jika adaptasi chip domestik menjawab apakah bisa berjalan, maka harga menjawab pertanyaan lebih realistis lain:

Apakah perusahaan mampu menggunakannya?

Kehebatan DeepSeek sebelumnya, justru kemampuannya menekan kemampuan mendekati model mutakhir, ke harga sangat rendah.

Era V3, R1 begitu, V4 tetap begitu.

Perbedaannya, kali ini bukan perang harga dalam jendela konteks biasa, tetapi terus menekan harga dengan prasyarat konteks 1M + kemampuan Agent.

Menurut harga resmi DeepSeek:

Input V4-Flash cache hit 0,2 yuan / juta tokens, input cache miss 1 yuan / juta tokens, output 2 yuan / juta tokens;

Input V4-Pro cache hit 1 yuan / juta tokens, input cache miss 12 yuan / juta tokens, output 24 yuan / juta tokens.

Memasukkannya ke dalam model domestik sejenis:

Dibandingkan dengan Ali Qwen3.6-Plus di tingkat 256K-1M, harga output V4-Pro sekitar setengahnya, V4-Flash lebih rendah.

Dibandingkan dengan Xiaomi MiMo Pro Series di tingkat 256K-1M, V4-Flash dan V4-Pro jelas lebih murah.

Konteks Kimi K2.6 adalah 256K, dibandingkan, konteks V4-Pro lebih panjang, harga lebih rendah; V4-Flash langsung menekan biaya panggilan frekuensi tinggi ke tingkat lain.

Ini sangat berarti untuk aplikasi perusahaan.

Karena konteks 1M, berarti model dapat sekaligus membaca seluruh gudang kode, paket kontrak tebal, prospektus ratusan halaman, notulen rapat jangka panjang, atau status historis yang terakumulasi saat Agent menjalankan tugas terus menerus.

Banyak aplikasi perusahaan sebelumnya mentok di sini, kemampuan model cukup, tetapi konteks tidak cukup; konteks cukup, harga terlalu mahal; harga dapat diterima, kemampuan model tidak cukup stabil.

Misalnya, sebuah perusahaan membuat Agent penelitian investasi, ingin model membaca sekaligus laporan tahunan perusahaan, konferensi telepon laporan keuangan, laporan industri, berita pesaing dan notulen internal.

Ketika konteks hanya 128K atau 256K, sistem sering harus terus mengiris, mengambil, meringkas, informasi hilang dalam kompresi berulang.

Konteks 1M memungkinkan model mempertahankan lebih banyak bahan mentah, mengurangi kelalaian dan putus.

Misalnya lagi Agent kode.

Ini bukan menulis beberapa baris kode sekaligus, tetapi membaca gudang, memahami ketergantungan, memodifikasi file, menjalankan tes, memperbaiki berdasarkan error. Proses ini akan反复 menghabiskan tokens.

Jika setiap langkah sangat mahal, Agent hanya dapat menjadi demo, tetapi jika tokens cukup murah, baru mungkin masuk proses pengembangan nyata.

Ini juga nilai industri V4.

Ini belum tentu model terkuat, tetapi mungkin menjadi model frekuensi tertinggi perusahaan.

DeepSeek sekali lagi membuat AI dari mainan eksklusif pabrik besar少数, menjadi alat produktivitas yang dapat disebarkan secara skala besar oleh ribuan industri.

Nilai Sebenarnya V4

Ketika konteks 1M dengan harga sangat rendah menuju lini depan industri, nilai sebenarnya DeepSeek V4 baru terungkap.

Semua ini, dibangun di atas dasar komputasi domestik yang belum matang.

Menghadapi kesenjangan sistemik ekosistem chip domestik, tim DeepSeek tidak memilih menunggu ekosistem matang baru上线.

Mereka berulang kali menunda jendela peluncuran, menginvestasikan waktu berbulan-bulan, melakukan调试 bersama mendalam dengan mitra seperti Huawei, kesulitan rekayasa seperti ini, jauh melampaui bayangan luar.

Karena itu, V4 mencapai kemampuan inferensi dan Agent mendekati model tertutip顶级 pada komputasi domestik,显得格外不易.

V4 membuktikan dengan自身, bahkan menghadapi kesenjangan bertahap ekosistem perangkat keras, tim China masih dapat melalui investasi rekayasa极致 dan inovasi kolaboratif perangkat lunak-keras, menghasilkan kinerja kompetitif.

Tentu, jarak menuju kematangan penuh masih ada.

Kelengkapan toolchain platform Ascend, stabilitas cluster skala sangat besar, serta optimasi mendalam lebih banyak skenario vertikal, memerlukan usaha bersama各方 industri.

Tetapi kesuksesan V4, telah membentangkan jalur yang dapat ditiru untuk model后续.

Ini menyuntikkan penenang hati untuk otonomi dan kendali seluruh rantai pasokan AI.

Dalam lingkungan eksternal penuh ketidakpastian saat ini, ketahanan yang masih dapat突破 dalam batasan ini, lebih layak dihormati daripada indikator parameter belaka.

"Tidak tergoda oleh pujian, tidak takut pada fitnah, bertindak sesuai jalan, teguh meluruskan diri".

Tulisan dari resmi DeepSeek ini,正是 catatan terbaiknya.

Pertanyaan Terkait

QApa nilai strategis utama dari DeepSeek V4 menurut artikel ini?

ANilai strategis utamanya adalah kemampuan DeepSeek V4 untuk berjalan secara stabil dan efisien pada komputasi buatan dalam negeri, membuktikan bahwa model AI canggih skala triliun parameter tidak harus bergantung pada chip dan ekosistem Nvidia.

QApa saja tantangan teknis utama dalam mengadaptasi model besar ke chip buatan dalam negeri?

ATantangannya meliputi perbedaan arsitektur hardware, metode interkoneksi, kematangan software stack, dan alat-alat ekosistem yang masih dalam tahap pengembangan, mengharuskan adaptasi mendalam di tingkat arsitektur model, operator, kernel, dan framework.

QBagaimana desain arsitektur DeepSeek V4 membantu mengurangi beban komputasi pada chip domestik?

AV4 menggunakan mekanisme perhatian hybrid CSA + HCA dan kompresi KV Cache untuk mengoptimalkan konteks panjang, serta arsitektur MoE yang hanya mengaktifkan sebagian parameter selama inferensi, sehingga mengurangi tekanan pada memori dan bandwidth chip domestik.

QApa implikasi harga rendah DeepSeek V4 untuk aplikasi perusahaan?

AHarga yang rendah untuk konteks 1M token memungkinkan perusahaan menggunakan kemampuan Agent dan pemrosesan dokumen panjang secara terjangkau, membuka pintu untuk penerapan skala besar di berbagai industri seperti penelitian investasi dan pengembangan kode.

QApa arti kesuksesan adaptasi DeepSeek V4 pada komputasi domestik bagi industri AI China?

AKesuksesan ini memberikan keyakinan bagi industri bahwa melalui rekayasa intensif dan inovasi kolaboratif perangkat lunak dan keras, China dapat mencapai kinerja kompetitif bahkan dengan keterbatasan ekosistem hardware, mendorong kemandirian dan ketahanan rantai pasokan AI.

Bacaan Terkait

Investor XRP dan Bitcoin 'Terjebak', Tapi Adakah Jalan Keluar?

Seorang pakar kripto, RWA Investor, menyatakan bahwa pedagang XRP yang melakukan short dan bear Bitcoin terjebak dalam posisi sulit. Ia memprediksi XRP akan mengalami kenaikan signifikan menuju $2–$3 setelah menembus range $1.50–$1.60, diikuti oleh pullback sebelum gelombang ketiga dimulai. Gelombang ketiga ini akan memicu bear trap sebelum akhirnya XRP rally ke $7. Faktor pendorongnya adalah pemotongan suku bunga Fed dan quantitative easing (QE). Analis lain, CasiTrades, menyebut XRP masih berpeluang mencapai $1.50–$1.53 selama harga tidak jatuh di bawah support $1.39, dengan pergerakan sangat bergantung pada Bitcoin yang mendekati $79.900.

bitcoinist20m yang lalu

Investor XRP dan Bitcoin 'Terjebak', Tapi Adakah Jalan Keluar?

bitcoinist20m yang lalu

Siapa Sebenarnya yang Terus Mengucurkan Dana di Tengah Bearish Pasar Kripto?

Meskipun pasar kripto mengalami penurunan signifikan pada kuartal pertama 2026 (BTC turun 25%, ETH 35%), lembaga keuangan justru meningkatkan aliran modal mereka. Perusahaan seperti Strategy (MSTR) menambah holding Bitcoin senilai $10 miliar, sementara sovereign wealth fund Uni Emirat Arab (Mubadala) menambah eksposur ETF Bitcoin sebesar 46%. SEC Amerika mempercepat persetujuan ETF, dengan 26 produk baru diluncurkan atau diajukan, termasuk ETF Bitcoin pertama dari bank (Morgan Stanley) dan ETF staking ETH dari BlackRock. VC funding terkonsentrasi pada tiga deal besar: BVNK ($18M), Kalshi ($10M), dan Polymarket ($6M), dengan fokus pada sektor pembayaran dan predictive markets. Pola institutional inflow terpolarisasi: perusahaan treasury dan sovereign fund menambah aset kripto, sementara hedge fund dan miner mengurangi eksposur. Ketidakpastian utama berasal dari rencana strategis Bitcoin AS yang belum direalisasi, sementara momentum justru datang dari Eropa dan Asia.

Odaily星球日报3j yang lalu

Siapa Sebenarnya yang Terus Mengucurkan Dana di Tengah Bearish Pasar Kripto?

Odaily星球日报3j yang lalu

Kelp DAO Diretas: Aave DAO Usulkan Kontribusi 25.000 ETH untuk Upaya Pemulihan

Aave DAO telah mengusulkan kontribusi 25.000 ETH dari kasnya untuk upaya pemulihan pasca-eksploitasi Kelp DAO pada 18 April. Serangan ini mengakibatkan kerugian sekitar 163.183 ETH, dengan celah pendanaan tersisa sekitar 75.081 ETH setelah berbagai upaya pemulihan. Koalisi "DeFi United" yang melibatkan EtherFi, Lido, Ethena, dan Mantle telah berkomitmen memberikan dukungan dana dan fasilitas kredit. Proposal Aave DAO menjadi bagian kunci dalam strategi pemulihan untuk mengembalikan integritas sistem dan dana pengguna, dengan kontribusi yang tidak akan berkurang meski ada donasi tambahan di masa depan.

bitcoinist3j yang lalu

Kelp DAO Diretas: Aave DAO Usulkan Kontribusi 25.000 ETH untuk Upaya Pemulihan

bitcoinist3j yang lalu

Pelepasan Token Mingguan: SUI Melepas Token Senilai $42 Juta

Rangkuman: Minggu ini, dua proyek kripto utama akan melakukan unlock token besar-besaran. EigenLayer, protokol restaking di Ethereum, akan melepas 36,85 juta token senilai sekitar $6,67 juta. Sementara itu, Jupiter, agregator DEX di Solana, akan melepas 53,35 juta token senilai sekitar $9,23 juta. Unlock token dapat memengaruhi pasar karena meningkatkan pasokan yang beredar.

marsbit4j yang lalu

Pelepasan Token Mingguan: SUI Melepas Token Senilai $42 Juta

marsbit4j yang lalu

Kapan Pertemuan FOMC Berikutnya dan Apa Ekspektasinya untuk Kripto?

Pertemuan Federal Open Market Committee (FOMC) berikutnya dijadwalkan pada 29 April 2026. FOMC bertemu delapan kali setahun untuk meninjau kondisi ekonomi AS, dengan keputusan suku bunga yang berdampak signifikan pada pasar crypto. Berdasarkan FedWatch Tool, terdapat probabilitas 99,5% bahwa suku bunga saat ini (3,5-3,75%) tidak akan berubah. Jika suku bunga naik (sikap hawkish), pasar cenderung turun. Jika turun (dovish), crypto biasanya merespons dengan kenaikan. Namun, karena ekspektasi tidak ada perubahan, pasar crypto diperkirakan tidak akan mengalami pergerakan signifikan pasca-pertemuan ini, dan akan melanjutkan tren yang sudah berjalan.

bitcoinist5j yang lalu

Kapan Pertemuan FOMC Berikutnya dan Apa Ekspektasinya untuk Kripto?