Pada paruh kedua tahun 2026, NVIDIA akan mengirimkan platform AI terkuatnya hingga saat ini: Vera Rubin VR200 NVL72. Satu kabinet penuh berisi 72 GPU Rubin dan 36 CPU Vera. Menurut perkiraan Morgan Stanley, biaya material mesin ini sekitar 7,8 juta dolar AS.
Angka ini sudah cukup mengejutkan. Tapi yang lebih perlu diperhatikan adalah kemana uangnya dibelanjakan.
Dari 7,8 juta dolar tersebut, sekitar 2 juta dolar tidak dibelanjakan untuk chip GPU terkenal itu, juga tidak untuk inti komputasi, melainkan untuk memori - memori bandwidth tinggi (HBM4) dan memori biasa (LPDDR5X). Hanya dalam satu tahun, biaya bagian memori ini melonjak 435% karena kenaikan harga.
Ini adalah sinyal. Dalam mesin AI yang semakin mahal ini, uang sedang mengalir secara besar-besaran dari "komponen yang bertanggung jawab atas komputasi" menuju "komponen yang bertanggung jawab atas memori dan penyimpanan".
Ingatlah sinyal ini. Karena artikel ini akan membahas DeepSeek, yang justru melakukan hal sebaliknya: semua orang didorong oleh zaman untuk membayar premi hardware AI untuk memori yang semakin mahal. Sementara DeepSeek berusaha, tanpa melemahkan daya saing, melalui integrasi perangkat keras dan lunak, untuk meningkatkan produktivitas token lebih dari 4 kali lipat dari hardware mahal ini, yang setara dengan menghemat 75% investasi hardware.
Dan di ujung jalan ini, baru-baru ini ada dugaan yang banyak diperbincangkan - mampukah DeepSeek melalui upayanya sendiri, menghemat satu triliun dolar untuk infrastruktur AI China?
Mungkinkah ini benar-benar terjadi?
Satu Triliun Dolar, Dihemat
Faktur harga NVIDIA tadi adalah uang paling nyata dalam pembukuan infrastruktur AI baru-baru ini. Dalam pola pasokan dan permintaan saat ini, jika Anda ingin membeli mesin AI tercanggih, Anda harus menerima faktur ini.
DeepSeek tidak bisa mengubah hal ini.
Yang diubahnya adalah hal lain: mesin yang sama, hardware penyimpanan mahal senilai 2 juta dolar itu, berapa banyak Token yang bisa dihasilkannya.
Masalah ini menjadi sangat konkret setelah peluncuran DeepSeek V4.
Yang lebih perlu diperhatikan dari V4 bukan hanya modelnya sendiri, tapi tiga jurus andalannya yang ditunjukkan: Pertama, terus mengompresi "ingatan", membuat konteks panjang tidak lagi membebani memori; Kedua, membangkitkan "tubuh" sesuai kebutuhan, membuat model pakar raksasa tidak harus bergerak semua setiap kali; Ketiga, mengubah komputasi berulang menjadi aset yang dapat digunakan kembali, membuat konteks yang sudah dihitung tidak lagi membakar uang berulang kali.
Fitur teknis ini menunjukkan karakteristik yang menonjol - mereka bekerja pada sinergi perangkat keras dan lunak, bukan hanya optimisasi perangkat lunak murni. Karena itulah ada yang menggunakan analogi bercanda - DeepSeek mungkin akan menjadi perusahaan hardware AI terbesar di China.
Halaman modelnya menunjukkan, dalam skenario konteks 1 juta Token, V4-Pro dibandingkan generasi sebelumnya hanya membutuhkan 27% daya komputasi inferensi per Token dan 10% penggunaan cache. Dalam artikel ini, kita ambil nilai sekitar seperempat daya komputasi untuk menghitung pembukuan selanjutnya.
Dalam jalur tradisional, hardware ini hanya bisa mendukung satu throughput, namun melalui kompresi konteks panjang, aktivasi sesuai kebutuhan, penggunaan ulang cache, dan penjadwalan inferensi, DeepSeek bisa meningkatkan output Token efektif dari hardware yang sama menjadi empat kali lipat - sehingga biayanya tidak "dipotong", tapi diencerkan. Pekerjaan yang sebelumnya membutuhkan 4 mesin, sekarang mungkin bisa dikerjakan oleh 1 mesin; biaya hardware mahal yang sebelumnya harus ditanggung penuh untuk setiap Token yang dihasilkan, sekarang bisa dialokasikan ke 4 Token dengan hardware yang sama.
Inilah kehebatan sebenarnya DeepSeek: mereka tidak mengubah harga NVIDIA, tapi mengubah tingkat produksi mesin NVIDIA dalam pembukuan AI. Makna hal ini jauh lebih besar daripada sekali penurunan harga API.
Dan skala 1 triliun dolar ini bukanlah asumsi sembarangan.
Laporan McKinsey tahun 2026 "The Cost of Compute" memberikan angka konkret: hingga 2030, pusat data global membutuhkan investasi sekitar 6,7 triliun dolar untuk mengikuti permintaan daya komputasi, di mana bagian yang khusus menangani beban AI akan menghabiskan sekitar 5,2 triliun dolar.
Dengan kata lain, dalam beberapa tahun ke depan, uang yang direncanakan umat manusia untuk dihabiskan pada hardware AI diukur dalam satuan triliun dolar.
Dan sebagian besar dari uang raksasa ini akan mengalir ke hardware yang paling canggih dan langka - yaitu memori bandwidth tinggi HBM dan memori LPDDR. Yang sedang dilakukan DeepSeek adalah secara sistematis mengurangi ketergantungan seluruh industri AI China pada hardware mahal ini. Meski hanya menekan sebagian, nilai yang dihematnya untuk industri akan menjadi angka astronomis tingkat triliunan.
Saat konsumsi Token harian China berkembang dari ratusan triliun hari ini menuju ratusan, ribuan triliun, setiap penurunan biaya per Token akan diperbesar menjadi selisih infrastruktur yang sangat besar. Jika throughput yang sama benar-benar bisa diselesaikan dengan seperempat hardware, maka di masa depan yang terlihat, ini berpotensi menghemat hampir 1 triliun dolar investasi hardware komputasi untuk infrastruktur AI China.
Ini adalah pembukuan infrastruktur: siapa yang bisa membuat pengeluaran hardware kaku yang sama menghasilkan lebih banyak Token, dialah yang membangun lebih sedikit pusat data, membeli lebih sedikit GPU, menumpuk lebih sedikit memori, dialah yang mendistribusikan kembali tiket masuk AI masa depan.
Lalu, bagaimana DeepSeek melakukannya? Jawabannya adalah, mereka memberikan tiga tebasan pada mesin model besar ini.
Dua Boros Bahan Bakar
Kesalahpahaman populer adalah bahwa tempat paling boros uang dalam model besar adalah "berpikir", adalah komputasi. Sebenarnya tidak.
Dua boros bahan bakar sebenarnya bernama "ingatan" dan "tubuh". Dan keduanya membakar bahan bakar termahal yang sama - memori bandwidth tinggi (HBM), memori yang terintegrasi langsung dalam sistem kemasan GPU, sangat cepat dan sangat mahal.
Pertama tentang ingatan. Model besar memiliki karakteristik canggung saat menghasilkan teks: setiap mengeluarkan kata baru, mereka harus melihat kembali semua konten sebelumnya. Karena makna bahasa dibangun lapis demi lapis, apa yang harus dikatakan selanjutnya sepenuhnya tergantung pada konteks apa yang sudah dibangun sebelumnya.
Ini seperti seorang penerjemah simultan. Dia tidak bisa berbicara hanya berdasarkan kalimat terakhir Anda, tapi harus selalu membawa semua yang Anda katakan sebelumnya - hanya dengan mengingat pengantar itu, dia bisa memahami ke mana sebenarnya kalimat ini mengarah. Semakin lama Anda berbicara, semakin banyak yang harus dia ingat.
Agar tidak menghitung ulang dari awal setiap kata (itu akan terlalu lambat untuk digunakan), model akan menyimpan sementara hasil perhitungan yang sudah dilakukan. Arsip ini disebut cache KV (Key-Value Cache, dapat dipahami sebagai ingatan jangka pendek model).
Masalahnya adalah, ini akan mengembang dengan gila saat percakapan semakin panjang.
Ambil contoh angka konkret: menurut perkiraan struktur standar tertentu, untuk menangani konteks sekitar seratus dua puluh ribu kata, ingatan ini saja bisa menghabiskan 488GB memori bandwidth tinggi. Dan GPU Rubin tingkat atas NVIDIA yang akan dikirimkan nanti, memiliki memori 288GB per kartu. Artinya, hanya untuk menyimpan satu ingatan ini, sudah memenuhi hampir satu setengah, bahkan mendekati dua GPU tercanggih - dan model belum benar-benar mulai bekerja.
Kemudian tentang tubuh. "Tubuh" model mengacu pada bobot parameternya, yang secara kasar dapat dipahami sebagai pembawa semua pengetahuan dan kemampuannya. Semakin kuat kemampuannya, tubuhnya seringkali semakin besar, mencapai ratusan miliar, triliunan parameter.
Model padat tradisional (Dense Model, mengacu pada model yang harus menggunakan semua parameter untuk memproses input apa pun) memiliki kelemahan: apa pun yang Anda tanyakan, seluruh tubuhnya harus digerakkan. Ini seperti pergi ke rumah sakit hanya untuk memeriksa gigi, tapi semua dokter dari semua departemen dipanggil, memeriksa Anda dari ujung kepala sampai kaki, baru akhirnya gigi. Konyol, tapi biayanya tetap ditagih penuh.
Tubuh besar ini juga harus selalu berada di memori bandwidth tinggi yang mahal, siap siaga kapan pun.
Ingatan dan tubuh, dua boros bahan bakar ini, mendistribusikan nilai seluruh sistem hardware, menekan mati pada hardware yang paling mahal, paling langka, paling dibatasi orang. Dan selama belasan tahun terakhir, strategi industri sederhana dan kasar: daya komputasi kurang, tambah; memori kurang, tambah lagi. Maka kekayaan industri sangat terkumpul di rantai hardware paling canggih ini, keuntungan paling gemuk tersangkut di mata rantai paling langka.
Harga Token dengan demikian disandera oleh kelangkaan satu jenis hardware. Dan tiga tebasan DeepSeek, kebetulan masing-masing melonggarkan ikatan ini.
Tebasan Pertama: Memodifikasi Otak
Tebasan pertama, jatuh pada "ingatan". Dan tempat tebasannya tepat di tempat yang paling tidak boleh disentuh, atau paling tidak berani disentuh dalam seluruh mesin - mekanisme perhatian (Attention, mekanisme inti yang digunakan model besar untuk memahami hubungan konteks).
Mekanisme perhatian adalah otak model besar. Kemampuannya membaca konteks, menangkap poin penting dalam percakapan panjang, sepenuhnya bergantung pada mekanisme ini yang terus menimbang hubungan antar kata. Ingatan mahal tadi adalah produk dari setiap denyut otak ini.
Ingin menghemat ingatan, tapi takut risiko, jadi hampir semua orang memilih menghindari otak ini, hanya bertindak di pinggiran. Dari perhatian kueri berganda (MQA) yang diusulkan oleh Noam Shazeer, salah satu penulis asli Transformer tahun 2019, hingga perhatian kueri kelompok (GQA) yang diusulkan Google tahun 2023 dan banyak digunakan oleh Llama, pemikiran jalur utama selalu "membuat beberapa kepala kueri berbagi ingatan yang sama" - pada dasarnya adalah "mengingat lebih sedikit, digunakan apa adanya". Efek penghematan tempatnya menakjubkan, tapi konsekuensinya adalah kualitas model dikurangi. Singkatnya, konsensus jalur ini selalu "kompromi": menganggap kompresi pasti merusak kualitas, hanya menawar seberapa banyak kerusakan.
DeepSeek menolak berkompromi. Mereka memilih langsung memodifikasi otak, mengubah mekanisme perhatian itu sendiri.
Solusinya disebut perhatian laten berkepala banyak (MLA, Multi-head Latent Attention), pertama kali muncul di DeepSeek-V2 tahun 2024. Analoginya: model lain mencatat, menyalin setiap detail asli, mengisi beberapa buku besar; MLA pertama-tama menyaring catatan menjadi ringkasan yang sangat padat, hanya menyimpan ringkasan, saat digunakan baru merestorasi detail berdasarkan ringkasan. Dalam terminologi, ini disebut "kompresi peringkat rendah" - memproyeksikan ingatan yang tampaknya kompleks tapi sebenarnya sangat redundan, ke dalam ruang yang jauh lebih kompak untuk disimpan.
Seberapa menakjubkan efeknya? Hasil yang diberikan makalah DeepSeek-V2 adalah, dibandingkan model generasi sebelumnya dengan kemampuan yang sama, V2 dengan kemampuan yang lebih kuat mengurangi biaya pelatihan 42,5%, cache KV berkurang 93,3%, throughput generasi maksimum meningkat menjadi 5,76 kali. Contoh yang menghabiskan 488GB tadi, dengan jalur ini, mungkin bisa ditekan ke tingkat beberapa GB.
Tapi yang benar-benar hebat bukanlah berapa banyak yang dihemat, melainkan hampir tidak membayar harga kehilangan detail.
Secara logika, memampatkan buku menjadi satu halaman ringkasan, sekeras apa pun direstorasi, tidak akan mendapatkan kembali semua detail. Tapi dalam eksperimen yang dirilis DeepSeek, ingatan versi terkompresi ini tidak hanya tidak kalah dengan perhatian standar "menyalin seluruh buku", bahkan dalam beberapa kasus sedikit lebih baik.
Sampai V4, jalur ini didorong ke skenario konteks panjang yang lebih ekstrem: V4-Pro menggunakan arsitektur perhatian hibrida, dalam pengaturan konteks 1 juta Token, dibandingkan generasi sebelumnya hanya membutuhkan 27% daya komputasi inferensi dan 10% penggunaan cache.
Untuk merasakan betapa sulitnya ini, harus tahu bahwa ini seperti melakukan operasi pada pesawat yang sedang terbang. Mengubah mekanisme perhatian berarti menulis ulang logika komputasi paling dasar model, melatih ulang seluruh model, membuat ulang seluruh sistem layanan yang mendukungnya. Salah satu bagian salah, kecerdasannya hancur. Ini bukan mengganti pentil ban, ini operasi otak.
Dan DeepSeek berhasil, membuat AI setelah operasi lebih sehat daripada sebelum operasi.
Tebasan Kedua dan Ketiga: Memasang Lemari Penyimpanan Bernomor pada Mesin
Tebasan pertama menaklukkan ingatan. Tebasan kedua, menangani "tubuh" yang besar itu.
Cara berpikir tebasan ini, DeepSeek bukan pencipta pertama, melainkan melanjutkan jalur tua yang jelas: pakar campuran (MoE), mengacu pada struktur yang membagi model menjadi banyak "pakar", setiap kali hanya memanggil beberapa di antaranya.
Konsep ini sudah ada sejak 1991, diperkenalkan ke jaringan neural oleh Shazeer dkk tahun 2017, kemudian GShard Google, Switch Transformer memindahkannya ke Transformer; yang benar-benar membuatnya terkenal adalah Mixtral 8x7B perusahaan Prancis Mistral akhir tahun 2023 - yang hanya membagikan tautan torrent saat dirilis - total parameter sekitar 46,7 miliar, tapi setiap kata yang diproses hanya mengaktifkan sekitar 12,9 miliar.
Kembali ke rumah sakit "periksa gigi tapi mengganggu seluruh rumah sakit". MoE mengubahnya menjadi rumah sakit dengan departemen yang jelas: Anda periksa gigi, resepsionis langsung mengarahkan Anda ke departemen gigi, dokter departemen lain melakukan apa yang harus mereka lakukan. Jumlah total rumah sakit tetap besar, total parameter bisa ratusan miliar, ribuan miliar, tapi yang benar-benar bergerak setiap kali hanya sebagian kecil.
DeepSeek dalam V3 mendorong jalur ini ke skala yang cukup agresif, di era V4 lebih ekstrem - V4-Pro adalah 1,6 triliun total parameter, 49 miliar parameter aktif; V4-Flash adalah 284 miliar total parameter, 13 miliar parameter aktif. Artinya, "total tubuh" model terus membesar, tapi bagian yang benar-benar bergerak setiap langkah, masih ditekan dalam porsi kecil.
Tapi kecerdasan sebenarnya dari tebasan kedua tidak hanya "menggerakkan lebih sedikit dokter". Ini sekaligus mengubah cara model mengakses "tubuh" ini.
Di sini bisa digambarkan dengan gambaran yang lebih tepat. Model besar sebelumnya seperti ruang penyimpanan besar tapi tidak teratur: semua barang ditumpuk bersama, setiap kali hanya ingin mengambil satu, harus membuka pintu lebar-lebar, mulai dari lapisan paling bawah, membalik semua barang baru ketemu. Agar pencarian ini cukup cepat menghadapi pelanggan yang banyak, Anda hanya bisa memindahkan seluruh ruang penyimpanan ke "toko di pusat kota" termahal - yaitu memori bandwidth tinggi.
DeepSeek mengubah ruang penyimpanan ini menjadi lemari dengan puluhan ribu kotak, setiap kotak diberi nomor. Ingin menggunakan barang apa, tekan nomornya langsung tarik kotak yang sesuai, tidak menyentuh yang lain sama sekali. Ini berarti, Anda tidak perlu lagi menumpuk semua barang di lemari di toko termahal. Sebagian besar kotak yang sementara tidak digunakan, bisa dimasukkan ke memori biasa (LPDDR) yang jauh lebih murah, bahkan ke hard disk solid yang lebih murah, saat dibutuhkan baru cepat memanggil kotak itu. Terkait pemindahan dan pemuatan streaming semacam ini, ekosistem DeepSeek dan sistem inferensi open source seperti SGLang terus mengeksplorasi.
Sampai di sini, sinergi dua dari tiga tebasan terlihat: tebasan pertama mengecilkan "ingatan", tebasan kedua memberi "tubuh" nomor, hanya mengambil kotak yang seharusnya diambil. Dua tebasan digabungkan, mesin ini setiap saat, bagian yang benar-benar perlu menempati memori termahal, ditekan sangat rendah.
Tebasan ketiga, mendorong logika "menggunakan sesuai nomor" ini ke tingkat paling ekstrem: bahkan tindakan "komputasi" bisa dihemat. Beberapa hasil komputasi sebenarnya bisa dihitung sebelumnya, disimpan sebagai kotak bernomor, saat digunakan langsung diambil, tidak perlu dihitung ulang setiap kali. Seperti orang yang hafal tabel perkalian, tidak akan menghitung tujuh kali delapan dengan jari setiap kali, langsung menjawab lima puluh enam. Ini sama dengan menggunakan "pengambilan" (membaca memori) dengan biaya sangat rendah, menggantikan "komputasi keras" (komputasi chip) dengan biaya sangat tinggi.
Dalam V4, tebasan ini memiliki ekspresi komersial yang lebih langsung: harga cache hit ditekan sangat rendah, penggunaan ulang konteks panjang langsung ditulis ke sistem harga - komputasi berulang tidak hanya bisa dihemat secara teknis, secara komersial juga didorong untuk dihemat.
Melihat tiga tebasan bersama, mereka bukan tiga hal terpisah, melainkan kemajuan bertahap dari logika yang sama: mengubah kekacauan yang harus dibolak-balik menjadi sistem di mana semuanya bisa diambil dengan tepat sesuai nomor. Ingatan ditekan minimal, tubuh hanya dibangkitkan yang seharusnya dibangkitkan, komputasi bisa cari tabel tidak usah hitung ulang. Setiap tebasan membuat mesin ini menggunakan hardware termahal lebih sedikit, tiga tebasan digabungkan, menjalankan pekerjaan yang sama, konsumsi hardware tercanggihnya hanya sisa sedikit dari sebelumnya.
Murah Sampai Seberapa
Mei 2026, DeepSeek mengumumkan mengubah harga diskon 75% sebelumnya dari V4-Pro menjadi harga jangka panjang, membuka perbedaan besar antara harga cache hit, cache miss, dan output Token. Pentingnya harga cache hit karena membuat tebasan ketiga DeepSeek langsung menjadi aturan komersial: konteks yang sudah dihitung, tidak boleh ditagih berulang kali sebagai "pekerjaan baru".
Dibandingkan dalam tagihan nyata, barulah terlihat perbedaannya. Menghitung aplikasi skala menengah yang menjalankan satu miliar token per bulan, pekerjaan yang sama: menggunakan DeepSeek V4-Pro, tagihan bulanan sekitar 522 dolar; mengganti dengan Claude Opus 4.7, sekitar 9.000 dolar; mengganti dengan GPT-5.5, sekitar 10.000 dolar. Perbedaannya tujuh belas sampai sembilan belas kali.
Lihat lagi skenario ekstrem tapi umum: asisten pemrograman konteks panjang, membaca berulang basis kode 100.000 Token seratus kali. Dengan cache hit yang hampir gratis, DeepSeek hanya menghabiskan sekitar 0,036 dolar untuk sekali ini; pekerjaan yang sama, GPT-5.5 dan Claude Opus 4.7 masing-masing sekitar 5 dolar - berbeda lebih dari seratus kali.
Harga ini sangat murah, tapi ini bukan merugi untuk menarik perhatian, melainkan mesin yang dimodifikasi ini memang berjalan sangat hemat - biaya yang dikerjakan orang China sedikit demi sedikit dengan rekayasa. Dua tahun lalu Liang Wenfeng berbicara tentang penetapan harga mengatakan, prinsipnya adalah "tidak menambah uang, juga tidak mengambil keuntungan besar". Sebenarnya harus dipahami seperti ini: ketika struktur biaya Anda dan orang lain sama sekali tidak dalam garis yang sama, penetapan harga Anda juga tidak dalam rentang yang sama.
Tentu, modifikasi ini bukan tanpa risiko. Misalnya memindahkan beban ke memori dan hard disk murah, penelitian yang ada menunjukkan, pemindahan yang sering mungkin merugikan dalam konsumsi daya, penundaan, dan kompleksitas penjadwalan. Dalam beberapa kasus, total biaya sistem per kata yang dihasilkan belum tentu lebih rendah, kecuali hardware, software stack, dan media penyimpanan dioptimalkan lebih lanjut. Jadi tiga tebasan ini adalah keseimbangan yang sangat sulit diukur, bukan hemat uang tanpa berpikir. Tapi arahnya pasti: menggunakan sumber daya murah, yang lebih mudah diperoleh sendiri, menggantikan sumber daya yang paling mahal, paling dicekik tenggorokannya.
Menghitung "Satu Triliun" Menjadi Pembukuan yang Terlihat
Setelah membicarakan banyak "hemat", lebih baik mengubahnya menjadi gambaran yang lebih intuitif: berapa pusat komputasi cerdas yang bisa dibangun lebih sedikit?
Pertama lihat arus Token. Data nasional adalah, hingga Maret 2026, panggilan Token harian China sudah melebihi 140 triliun, meningkat lebih dari seribu kali dibandingkan awal 2024. Dalam standar industri, hanya model besar Doubao saja, penggunaan harian bulan yang sama juga melampaui 120 triliun. Meski batasan statistik berbeda, tapi keduanya bersama-sama menjelaskan satu hal: konsumsi Token AI China sudah masuk operasional harian ratusan triliun, dan sedang berkembang cepat menuju ribuan triliun. Jadi, 500 triliun Token/hari, bisa dilihat sebagai langkah berikutnya yang tidak lama lagi; dan 5.000 triliun Token/hari, adalah skenario arus tinggi setelah agen cerdas, multimodal, pembuatan kode sepenuhnya diluncurkan.
Dalam konteks ini, melihat lagi biaya pusat komputasi, nilai DeepSeek baru menonjol. Tahun 2025, China Unicom mulai membangun pusat inferensi komputasi cerdas seribu kartu di Wuhan, investasi tahap pertama hampir 200 juta yuan. Kita bisa kasar melihatnya sebagai sampel investasi pusat inferensi seribu kartu: satu pusat seperti itu, sekitar 200 juta yuan.
Dan menurut peningkatan efisiensi DeepSeek V4, setidaknya dalam skenario konteks panjang yang dikuasainya, perubahan yang diberikan bukan lagi optimisasi belasan persen, melainkan peningkatan efisiensi hardware tingkat beberapa kali lipat. Kita tidak ambil standar paling agresif, melainkan asumsi yang lebih konservatif, lebih mudah dipahami: tiga jurus andalan V4 ini, membuat throughput Token efektif dari batch hardware yang sama meningkat 4 kali lipat. Artinya, pekerjaan yang sebelumnya membutuhkan 4 pusat, sekarang 1 pusat cukup, 3 pusat di tengah berkurang, setara menghemat 75% investasi hardware efektif.
Perhatikan, DeepSeek bukan sekadar menggunakan lebih sedikit penyimpanan. Justru sebaliknya, mereka menggunakan penyimpanan dengan baik - menggunakan perhatian terkompresi, aktivasi sesuai kebutuhan, cache hit, dan penjadwalan inferensi, menggunakan waktu GPU dan memori termahal lebih keras. Yang benar-benar dihemat adalah, dalam throughput Token yang sama, hardware tambahan yang seharusnya dibeli.
Lalu, satu triliun dolar sesuai dengan apa? 1 triliun dolar setara dengan sekitar 7 triliun yuan. Menurut perhitungan setiap pusat inferensi seribu kartu 200 juta yuan, 7 triliun yuan setara dengan 35.000 pusat seperti itu. Jika jalur V4 membawa peningkatan throughput efektif 4 kali lipat, harus membangun lebih sedikit 35.000 pusat efektif seperti itu, sesuai dengan arus Token harian sekitar 5.000 triliun.
Inilah gambaran industri yang sesuai dengan "satu triliun dolar" yang disebut dalam artikel ini. Ini bukan perhitungan tepat dalam dokumen tender rekayasa, melainkan pembukuan skala infrastruktur, sesuai juga dengan skenario arus masa depan bertahun-tahun, bukan arus yang sudah terwujud saat ini. Yang benar-benar ingin dijelaskan adalah: di era panggilan rendah, peningkatan efisiensi menghemat beberapa kartu, beberapa rak; di era ribuan triliun Token/hari, peningkatan efisiensi menghemat ribuan pusat komputasi cerdas yang seharusnya berdiri.
Jadi, yang benar-benar diubah DeepSeek bukan harga satu panggilan, melainkan pembukuan infrastruktur AI masa depan.
Mereka Membalikkan Tren Berbahaya
Sekarang, kembali ke mesin di awal. Masih ingat? Dari 7,8 juta dolar Vera Rubin, 2 juta dolar ditekan pada memori, dan bagian ini masih naik gila-gilaan. Ini mengungkapkan tren berbahaya - nilai seluruh industri, semakin banyak, tidak sehat, terikat mati pada chip memori. Padahal memori, seharusnya tidak didorong semahal ini.
Banyak orang salah mengira DeepSeek "mengikuti" tren ini, karena mereka juga banyak menggunakan memori. Justru sebaliknya, DeepSeek membalikkannya. Cara lama menelan hardware secara pasif, tidak efisien, menumpuk nilai terbalik pada chip, membiarkan memori didorong oleh gelombang kenaikan harga; DeepSeek pertama-tama menggunakan tiga tebasan untuk menekan permintaan nyata terhadap hardware secara besar-besaran, kemudian sisa permintaan sedikit, dialokasikan dengan cerdas ke tingkat penyimpanan termurah, paling sesuai. Yang pertama "didorong harga", yang kedua "hitung pembukuan dulu, baru putuskan belanjanya di mana".
Perbedaan ini sangat penting bagi China. Karena ini memindahkan medan pertempuran dari tempat kita dalam posisi lemah, ke tempat kita lebih punya peluang menang. Chip komputasi paling canggih, kita sementara belum bisa mengejar. Tapi chip penyimpanan seperti memori, justru kemampuan yang ditingkatkan China tahun ini secara nyata.
Pemimpin DRAM domestik ChangXin Memory, kuartal pertama 2026 pendapatannya mencapai 50,8 miliar yuan, laba bersih sekitar 25 miliar yuan, perusahaan memperkirakan laba bersih semester pertama mencapai 66 hingga 75 miliar yuan, setara dengan laba bersih ByteDance tahun lalu dalam setengah tahun. Meski ChangXin di pasar DRAM global masih kursi keempat, tapi kapasitas produksi domestik yang sebelumnya hampir nol ini, tahun ini akhirnya berdiri.
Dan ini, justru makna strategis tiga tebasan DeepSeek. Ini bukan "mengganti komputasi dengan penyimpanan", melainkan mengurangi ketergantungan marjinal pada komputasi paling langka, dan memindahkan sebagian tekanan ke penyimpanan, cache, dan rekayasa sistem yang lebih bisa diperoleh. Ketika satu mesin AI lebih mengandalkan memori, cache, penjadwalan, dan rekayasa sistem yang lebih berpeluang kita kuasai, rantai pasokan China yang ada, tiba-tiba dari "terkendala di mana-mana" menjadi "cukup", bahkan "bagus". Ini sangat meningkatkan keamanan seluruh rantai.
Kesimpulan
Seorang Liang Wenfeng yang menjadikan "menghilangkan ketidakefisienan" sebagai naluri, tidak akan puas hanya membuat suatu model sedikit lebih murah. Yang dia incar adalah ketidakefisienan terbesar di seluruh industri AI - premis "ingin kecerdasan lebih kuat, harus bergantung pada hardware paling canggih, paling langka, paling mahal" yang dianggap seluruh industri sebagai hal wajar.
Jika dia bisa membuat seluruh industri, menggunakan hardware tercanggih jauh lebih sedikit menyelesaikan hal yang sama, yang dia hemat untuk industri adalah basis kapasitas virtual tingkat triliunan - tidak menempati satu inci pun pabrik, tapi benar-benar melepaskan investasi besar yang seharusnya dihabiskan untuk hardware. "Satu triliun" itu, dengan demikian bukan lagi cerita valuasi, melainkan pembukuan infrastruktur.
Menulis DeepSeek sebagai "menghilangkan NVIDIA dengan algoritma" adalah mitos murahan lainnya. Tapi jika bertanya dengan cara lain, jawabannya menarik: mungkinkah DeepSeek membuat industri membeli lebih sedikit hardware termahal, menggunakan lebih sedikit memori paling langka, membayar lebih sedikit biaya inferensi yang sebelumnya dianggap wajar? Mungkin. Mungkinkah mereka mendistribusikan kembali nilai infrastruktur AI, dari narasi GPU high-end tunggal, ke struktur model, sistem inferensi, manajemen cache, penjadwalan penyimpanan, dan optimisasi rekayasa? Mungkin juga. Inilah makna industri sebenarnya.
Revolusi teknologi sebenarnya, seringkali bukan membuat segalanya lebih mahal, melainkan membuat hal yang sebelumnya hanya bisa digunakan sedikit orang, tiba-tiba menjadi infrastruktur sehari-hari yang bisa dijangkau kebanyakan orang. Dari dimensi lebih besar, yang penting dalam permainan ini bukanlah berapa banyak uang yang dihemat, melainkan hemat uang ini, diam-diam mengembalikan tiket menuju masa depan, ke ribuan industri China yang perlu diberdayakan AI.
(Artikel ini disusun berdasarkan data publik dan diskusi industri. Beberapa penilaian prospektif dalam artikel, seperti nilai penggantian infrastruktur tingkat triliunan, pertimbangan efisiensi energi hardware, konversi biaya efektif, dll., termasuk pandangan dalam perkiraan dan kontroversi industri, bukan fakta yang sudah ditetapkan, harap pembaca melihat dengan hati-hati.)
Artikel ini dari akun WeChat "胡说成理", penulis: Hu Zhe






