Oleh | Pabrik Model Dunia
DeepSeek V4 sekali lagi mengguncang seluruh China.
Skala parameter, panjang konteks, skor benchmark... indikator teknis ini telah dibandingkan berulang kali dalam berbagai laporan.
Tetapi jika hanya berhenti pada data permukaan, kita melewatkan inti strategis terpenting dari peluncuran ini.
Tiga tahun terakhir, model besar China selalu terperangkap dalam realitas yang canggung: pelatihan bergantung pada Nvidia, inferensi juga bergantung pada Nvidia, chip domestik hanya menjadi opsi cadangan.
Begitu Nvidia menghentikan pasokan, seluruh lingkaran model China akan cemas.
Tetapi hari ini, DeepSeek V4 membuktikan dengan kemampuan:
Sebuah model besar tingkat parameter triliunan yang mutakhir, juga dapat berjalan dengan stabil dan efisien pada komputasi domestik.
Makna hal ini telah melampaui indikator teknis model itu sendiri.
Terobosan Lokalisasi
Untuk benar-benar memahami kesulitan adaptasi lokalisasi ini, pertama-tama harus memahami kerajaan chip Nvidia.
Nvidia tidak hanya memiliki chip, tetapi juga ekosistem lengkap yang sangat tertutup:
Di sisi perangkat keras, ada keluarga chip GPU, ditambah NVLink, NVSwitch yang mewujudkan jaringan kecepatan tinggi interkoneksi antar chip;
Di sisi perangkat lunak, CUDA adalah sistem operasi AI yang dibangun dengan hati-hati oleh Nvidia selama belasan tahun.
Ini seperti pabrik yang sangat dioptimalkan, dari operator paling dasar (unit dasar perhitungan model), hingga komputasi paralel, manajemen memori, komunikasi terdistribusi, seluruh rantai disesuaikan khusus untuk GPU Nvidia.
Dengan kata lain, Nvidia tidak hanya menjual mesin, tetapi juga membangun jalan, pompa bensin, bengkel, sistem navigasi.
Hampir semua model besar global tumbuh di ekosistem ini.
Beralih ke komputasi domestik, yang dihadapi adalah situasi yang sama sekali berbeda.
Arsitektur perangkat keras berbeda, cara interkoneksi berbeda, kematangan tumpukan perangkat lunak berbeda, ekosistem alat masih terus mengejar.
DeepSeek ingin beradaptasi dengan chip domestik, sama sekali bukan sekadar mengganti mesin, tetapi seperti mengalihkan mobil balap yang sudah melaju kencang di jalan tol, ke jalan pegunungan yang masih dalam pengerasan.
Sedikit saja ceroboh, akan terjadi guncangan, kehilangan kecepatan, bahkan kendaraan tidak dapat melanjutkan.
Kali ini, DeepSeek V4 tidak memilih untuk hanya mengoptimalkan sepanjang jalur CUDA, tetapi mulai masuk bersamaan ke dalam rantai adaptasi tumpukan perangkat lunak komputasi domestik.
Dari informasi yang terbuka, V4 telah mencapai terobosan berdasarkan chip inferensi domestik, beradaptasi mendalam dengan chip Huawei Ascend 950, Cambricon juga dapat berjalan stabil pada hari peluncuran model, benar-benar mencapai adaptasi Day 0.
Ini berarti, model mutakhir mulai memiliki kemungkinan untuk diimplementasikan dalam sistem chip domestik.
Bagaimana DeepSeek V4 melakukannya?
Langkah pertama, terjadi di lapisan arsitektur model.
V4 tidak memilih untuk memaksakan chip domestik menanggung konteks 1M, tetapi pertama-tama membuat model itu sendiri lebih hemat.
Desain paling kunci dalam laporan teknis resmi, adalah mekanisme perhatian campuran CSA + HCA, serta optimasi konteks panjang seperti kompresi KV Cache.
Sederhananya, inferensi konteks panjang tradisional, adalah membiarkan model setiap kali menjawab pertanyaan, membuka seluruh perpustakaan untuk dibolak-balik, memori, bandwidth dan komputasi akan cepat penuh.
Cara V4, adalah pertama-tama mengindeks ulang, mengompres dan menyaring materi di perpustakaan, hanya memasukkan informasi paling kunci ke dalam rantai komputasi.
Dengan demikian, konteks 1M tidak lagi sepenuhnya bergantung pada kekerasan perangkat keras, tetapi pertama-tama melalui algoritma mengurangi beban komputasi dan memori.
Ini sangat kunci untuk chip domestik.
Jika model sangat bergantung pada bandwidth memori dan pustaka CUDA matang, chip domestik bahkan jika bisa berjalan, sulit untuk berjalan murah, berjalan stabil.
V4 pertama-tama mengurangi beban inferensi, pada dasarnya adalah meringankan tekanan pada komputasi domestik.
Langkah kedua, terjadi di lapisan arsitektur MoE dan parameter aktivasi.
V4-Pro meskipun total parameter mencapai 1,6 triliun, tetapi setiap inferensi hanya mengaktifkan sekitar 49 miliar parameter; V4-Flash total parameter 284 miliar, setiap aktivasi sekitar 13 miliar parameter.
Ini berarti tidak setiap panggilan menarik semua parameter untuk dihitung, tetapi seperti tim ahli besar, tugas datang hanya memanggil ahli terkait yang turun.
Untuk chip domestik, ini juga penting.
Ini mengurangi tekanan komputasi yang harus ditanggung setiap inferensi, juga membuat konteks panjang dan skenario Agent lebih mudah diterima oleh kartu inferensi.
Langkah ketiga, adalah adaptasi di lapisan operator dan Kernel.
Tempat terkuat ekosistem CUDA, adalah banyak komputasi dasar telah dipoles matang oleh Nvidia, banyak komputasi kinerja tinggi dapat langsung dipanggil.
Makna V4 terletak pada, sebagian komputasi kunci ditarik keluar dari kotak hitam Nvidia, menjadi jalur komputasi khusus yang lebih dapat bermigrasi, dapat diadaptasi.
Sedikit lebih通俗, V4 seperti membongkar part paling kunci dalam mesin, memungkinkan Huawei Ascend, Cambricon dan produsen lain menyesuaikan ulang sesuai struktur chip mereka sendiri.
Langkah keempat, adalah kerangka inferensi dan lapisan layanan.
Adaptasi chip domestik jika hanya berhenti pada "menjalankan Demo", tidak banyak makna industri. Yang benar-benar layak diperhatikan, adalah apakah dapat masuk ke sistem layanan yang dapat dipanggil, dapat ditagih.
Menurut pengujian internal, pada Ascend 950PR, kecepatan inferensi V4 meningkat signifikan dibandingkan versi awal, konsumsi energi juga turun jelas, kinerja single-chip dalam skenario presisi rendah tertentu mencapai lebih dari 2 kali lipat khusus H20 Nvidia.
DeepSeek resmi menyebutkan, saat ini V4-Pro terbatas pada komputasi high-end, throughput layanan terbatas, diperkirakan setelah super node Ascend 950 diluncurkan massal paruh kedua tahun ini, harga akan turun besar.
Ini menunjukkan, seiring dengan produksi massal perangkat keras domestik seperti Ascend, throughput dan rasio kinerja-harga V4 di masa depan akan lebih dioptimalkan.
Tetapi perlu dicatat, V4 tidak sepenuhnya menggantikan GPU dan CUDA Nvidia. Pelatihan model mungkin masih tidak dapat lepas dari Nvidia, tetapi inferensi sudah dapat dilokalkan secara bertahap.
Ini sebenarnya adalah jalur komersial yang sangat realistis.
Pelatihan adalah investasi bertahap, latih sekali, sesuaikan sekali, iterasi sekali. Inferensi adalah biaya berkelanjutan, setiap hari jutaan, miliaran panggilan pengguna, setiap kali harus menghabiskan komputasi.
Kepala pembakaran uang sesungguhnya perusahaan model, dalam jangka panjang akan semakin condong ke inferensi. Siapa yang dapat menanggung kebutuhan inferensi lebih murah, lebih stabil, akan mendapatkan keunggulan nyata dalam aplikasi industri.
DeepSeek V4 pertama kali membuat deployment inferensi model mutakhir China, muncul sebuah rute yang tidak mengambil CUDA Nvidia sebagai prasyarat default.
Langkah ini sudah cukup berbobot.
Dampak V4 pada Aplikasi Industri
Jika adaptasi chip domestik menjawab apakah bisa berjalan, maka harga menjawab pertanyaan lebih realistis lain:
Apakah perusahaan mampu menggunakannya?
Kehebatan DeepSeek sebelumnya, justru kemampuannya menekan kemampuan mendekati model mutakhir, ke harga sangat rendah.
Era V3, R1 begitu, V4 tetap begitu.
Perbedaannya, kali ini bukan perang harga dalam jendela konteks biasa, tetapi terus menekan harga dengan prasyarat konteks 1M + kemampuan Agent.
Menurut harga resmi DeepSeek:
Input V4-Flash cache hit 0,2 yuan / juta tokens, input cache miss 1 yuan / juta tokens, output 2 yuan / juta tokens;
Input V4-Pro cache hit 1 yuan / juta tokens, input cache miss 12 yuan / juta tokens, output 24 yuan / juta tokens.
Memasukkannya ke dalam model domestik sejenis:
Dibandingkan dengan Ali Qwen3.6-Plus di tingkat 256K-1M, harga output V4-Pro sekitar setengahnya, V4-Flash lebih rendah.
Dibandingkan dengan Xiaomi MiMo Pro Series di tingkat 256K-1M, V4-Flash dan V4-Pro jelas lebih murah.
Konteks Kimi K2.6 adalah 256K, dibandingkan, konteks V4-Pro lebih panjang, harga lebih rendah; V4-Flash langsung menekan biaya panggilan frekuensi tinggi ke tingkat lain.
Ini sangat berarti untuk aplikasi perusahaan.
Karena konteks 1M, berarti model dapat sekaligus membaca seluruh gudang kode, paket kontrak tebal, prospektus ratusan halaman, notulen rapat jangka panjang, atau status historis yang terakumulasi saat Agent menjalankan tugas terus menerus.
Banyak aplikasi perusahaan sebelumnya mentok di sini, kemampuan model cukup, tetapi konteks tidak cukup; konteks cukup, harga terlalu mahal; harga dapat diterima, kemampuan model tidak cukup stabil.
Misalnya, sebuah perusahaan membuat Agent penelitian investasi, ingin model membaca sekaligus laporan tahunan perusahaan, konferensi telepon laporan keuangan, laporan industri, berita pesaing dan notulen internal.
Ketika konteks hanya 128K atau 256K, sistem sering harus terus mengiris, mengambil, meringkas, informasi hilang dalam kompresi berulang.
Konteks 1M memungkinkan model mempertahankan lebih banyak bahan mentah, mengurangi kelalaian dan putus.
Misalnya lagi Agent kode.
Ini bukan menulis beberapa baris kode sekaligus, tetapi membaca gudang, memahami ketergantungan, memodifikasi file, menjalankan tes, memperbaiki berdasarkan error. Proses ini akan反复 menghabiskan tokens.
Jika setiap langkah sangat mahal, Agent hanya dapat menjadi demo, tetapi jika tokens cukup murah, baru mungkin masuk proses pengembangan nyata.
Ini juga nilai industri V4.
Ini belum tentu model terkuat, tetapi mungkin menjadi model frekuensi tertinggi perusahaan.
DeepSeek sekali lagi membuat AI dari mainan eksklusif pabrik besar少数, menjadi alat produktivitas yang dapat disebarkan secara skala besar oleh ribuan industri.
Nilai Sebenarnya V4
Ketika konteks 1M dengan harga sangat rendah menuju lini depan industri, nilai sebenarnya DeepSeek V4 baru terungkap.
Semua ini, dibangun di atas dasar komputasi domestik yang belum matang.
Menghadapi kesenjangan sistemik ekosistem chip domestik, tim DeepSeek tidak memilih menunggu ekosistem matang baru上线.
Mereka berulang kali menunda jendela peluncuran, menginvestasikan waktu berbulan-bulan, melakukan调试 bersama mendalam dengan mitra seperti Huawei, kesulitan rekayasa seperti ini, jauh melampaui bayangan luar.
Karena itu, V4 mencapai kemampuan inferensi dan Agent mendekati model tertutip顶级 pada komputasi domestik,显得格外不易.
V4 membuktikan dengan自身, bahkan menghadapi kesenjangan bertahap ekosistem perangkat keras, tim China masih dapat melalui investasi rekayasa极致 dan inovasi kolaboratif perangkat lunak-keras, menghasilkan kinerja kompetitif.
Tentu, jarak menuju kematangan penuh masih ada.
Kelengkapan toolchain platform Ascend, stabilitas cluster skala sangat besar, serta optimasi mendalam lebih banyak skenario vertikal, memerlukan usaha bersama各方 industri.
Tetapi kesuksesan V4, telah membentangkan jalur yang dapat ditiru untuk model后续.
Ini menyuntikkan penenang hati untuk otonomi dan kendali seluruh rantai pasokan AI.
Dalam lingkungan eksternal penuh ketidakpastian saat ini, ketahanan yang masih dapat突破 dalam batasan ini, lebih layak dihormati daripada indikator parameter belaka.
"Tidak tergoda oleh pujian, tidak takut pada fitnah, bertindak sesuai jalan, teguh meluruskan diri".
Tulisan dari resmi DeepSeek ini,正是 catatan terbaiknya.





