Mampukah DeepSeek Menghemat 1 Triliun Dolar untuk China?

marsbitDipublikasikan tanggal 2026-06-03Terakhir diperbarui pada 2026-06-03

Abstrak

**Ringkasan Artikel: Apakah DeepSeek Dapat Menghemat 1 Triliun Dolar AS untuk China?** Artikel ini membahas bagaimana DeepSeek, melalui serangkaian inovasi teknologinya, berpotensi secara drastis menekan biaya infrastruktur AI China dan berpotensi menghemat investasi hingga triliunan dolar AS. **Tantangan: Biaya AI yang Melonjak** Biaya perangkat keras AI, terutama memori berbandwidth tinggi (HBM), sedang meroket. Misalnya, pada sistem AI canggih NVIDIA Vera Rubin, biaya komponen memori saja mencapai sekitar $2 juta dan telah naik 435% dalam setahun. **Solusi DeepSeek: Tiga Inovasi Utama** DeepSeek mendekati masalah ini dengan tiga terobosan teknis utama untuk meningkatkan efisiensi token perangkat keras hingga 4 kali lipat: 1. **Kompresi Memori (KV Cache):** Melalui **Multi-head Latent Attention (MLA)**, DeepSeek mengompres "memori" konteks panjang model secara signifikan (hingga 90%+ pengurangan) tanpa mengorbankan kualitas, mengurangi ketergantungan pada HBM yang mahal. 2. **Aktivasi "Tubuh" Model Sesuai Kebutuhan:** Menggunakan arsitektur **Mixture of Experts (MoE)**, model hanya mengaktifkan sebagian kecil dari total parameternya untuk setiap tugas. Ini seperti hanya memanggil dokter spesialis yang relevan, bukan seluruh rumah sakit. 3. **Cache dan Penggunaan Ulang:** Hasil komputasi yang sudah dihitung disimpan dan digunakan kembali (cache hit), menghindari perhitungan berulang yang mahal. DeepSeek menerapkan ini bahkan dalam struktur harga layanannya. **Dampak ...

Pada paruh kedua tahun 2026, NVIDIA akan mengirimkan platform AI terkuatnya hingga saat ini: Vera Rubin VR200 NVL72. Satu kabinet penuh berisi 72 GPU Rubin dan 36 CPU Vera. Menurut perkiraan Morgan Stanley, biaya material mesin ini sekitar 7,8 juta dolar AS.

Angka ini sudah cukup mengejutkan. Tapi yang lebih perlu diperhatikan adalah kemana uangnya dibelanjakan.

Dari 7,8 juta dolar tersebut, sekitar 2 juta dolar tidak dibelanjakan untuk chip GPU terkenal itu, juga tidak untuk inti komputasi, melainkan untuk memori - memori bandwidth tinggi (HBM4) dan memori biasa (LPDDR5X). Hanya dalam satu tahun, biaya bagian memori ini melonjak 435% karena kenaikan harga.

Ini adalah sinyal. Dalam mesin AI yang semakin mahal ini, uang sedang mengalir secara besar-besaran dari "komponen yang bertanggung jawab atas komputasi" menuju "komponen yang bertanggung jawab atas memori dan penyimpanan".

Ingatlah sinyal ini. Karena artikel ini akan membahas DeepSeek, yang justru melakukan hal sebaliknya: semua orang didorong oleh zaman untuk membayar premi hardware AI untuk memori yang semakin mahal. Sementara DeepSeek berusaha, tanpa melemahkan daya saing, melalui integrasi perangkat keras dan lunak, untuk meningkatkan produktivitas token lebih dari 4 kali lipat dari hardware mahal ini, yang setara dengan menghemat 75% investasi hardware.

Dan di ujung jalan ini, baru-baru ini ada dugaan yang banyak diperbincangkan - mampukah DeepSeek melalui upayanya sendiri, menghemat satu triliun dolar untuk infrastruktur AI China?

Mungkinkah ini benar-benar terjadi?

Satu Triliun Dolar, Dihemat

Faktur harga NVIDIA tadi adalah uang paling nyata dalam pembukuan infrastruktur AI baru-baru ini. Dalam pola pasokan dan permintaan saat ini, jika Anda ingin membeli mesin AI tercanggih, Anda harus menerima faktur ini.

DeepSeek tidak bisa mengubah hal ini.

Yang diubahnya adalah hal lain: mesin yang sama, hardware penyimpanan mahal senilai 2 juta dolar itu, berapa banyak Token yang bisa dihasilkannya.

Masalah ini menjadi sangat konkret setelah peluncuran DeepSeek V4.

Yang lebih perlu diperhatikan dari V4 bukan hanya modelnya sendiri, tapi tiga jurus andalannya yang ditunjukkan: Pertama, terus mengompresi "ingatan", membuat konteks panjang tidak lagi membebani memori; Kedua, membangkitkan "tubuh" sesuai kebutuhan, membuat model pakar raksasa tidak harus bergerak semua setiap kali; Ketiga, mengubah komputasi berulang menjadi aset yang dapat digunakan kembali, membuat konteks yang sudah dihitung tidak lagi membakar uang berulang kali.

Fitur teknis ini menunjukkan karakteristik yang menonjol - mereka bekerja pada sinergi perangkat keras dan lunak, bukan hanya optimisasi perangkat lunak murni. Karena itulah ada yang menggunakan analogi bercanda - DeepSeek mungkin akan menjadi perusahaan hardware AI terbesar di China.

Halaman modelnya menunjukkan, dalam skenario konteks 1 juta Token, V4-Pro dibandingkan generasi sebelumnya hanya membutuhkan 27% daya komputasi inferensi per Token dan 10% penggunaan cache. Dalam artikel ini, kita ambil nilai sekitar seperempat daya komputasi untuk menghitung pembukuan selanjutnya.

Dalam jalur tradisional, hardware ini hanya bisa mendukung satu throughput, namun melalui kompresi konteks panjang, aktivasi sesuai kebutuhan, penggunaan ulang cache, dan penjadwalan inferensi, DeepSeek bisa meningkatkan output Token efektif dari hardware yang sama menjadi empat kali lipat - sehingga biayanya tidak "dipotong", tapi diencerkan. Pekerjaan yang sebelumnya membutuhkan 4 mesin, sekarang mungkin bisa dikerjakan oleh 1 mesin; biaya hardware mahal yang sebelumnya harus ditanggung penuh untuk setiap Token yang dihasilkan, sekarang bisa dialokasikan ke 4 Token dengan hardware yang sama.

Inilah kehebatan sebenarnya DeepSeek: mereka tidak mengubah harga NVIDIA, tapi mengubah tingkat produksi mesin NVIDIA dalam pembukuan AI. Makna hal ini jauh lebih besar daripada sekali penurunan harga API.

Dan skala 1 triliun dolar ini bukanlah asumsi sembarangan.

Laporan McKinsey tahun 2026 "The Cost of Compute" memberikan angka konkret: hingga 2030, pusat data global membutuhkan investasi sekitar 6,7 triliun dolar untuk mengikuti permintaan daya komputasi, di mana bagian yang khusus menangani beban AI akan menghabiskan sekitar 5,2 triliun dolar.

Dengan kata lain, dalam beberapa tahun ke depan, uang yang direncanakan umat manusia untuk dihabiskan pada hardware AI diukur dalam satuan triliun dolar.

Dan sebagian besar dari uang raksasa ini akan mengalir ke hardware yang paling canggih dan langka - yaitu memori bandwidth tinggi HBM dan memori LPDDR. Yang sedang dilakukan DeepSeek adalah secara sistematis mengurangi ketergantungan seluruh industri AI China pada hardware mahal ini. Meski hanya menekan sebagian, nilai yang dihematnya untuk industri akan menjadi angka astronomis tingkat triliunan.

Saat konsumsi Token harian China berkembang dari ratusan triliun hari ini menuju ratusan, ribuan triliun, setiap penurunan biaya per Token akan diperbesar menjadi selisih infrastruktur yang sangat besar. Jika throughput yang sama benar-benar bisa diselesaikan dengan seperempat hardware, maka di masa depan yang terlihat, ini berpotensi menghemat hampir 1 triliun dolar investasi hardware komputasi untuk infrastruktur AI China.

Ini adalah pembukuan infrastruktur: siapa yang bisa membuat pengeluaran hardware kaku yang sama menghasilkan lebih banyak Token, dialah yang membangun lebih sedikit pusat data, membeli lebih sedikit GPU, menumpuk lebih sedikit memori, dialah yang mendistribusikan kembali tiket masuk AI masa depan.

Lalu, bagaimana DeepSeek melakukannya? Jawabannya adalah, mereka memberikan tiga tebasan pada mesin model besar ini.

Dua Boros Bahan Bakar

Kesalahpahaman populer adalah bahwa tempat paling boros uang dalam model besar adalah "berpikir", adalah komputasi. Sebenarnya tidak.

Dua boros bahan bakar sebenarnya bernama "ingatan" dan "tubuh". Dan keduanya membakar bahan bakar termahal yang sama - memori bandwidth tinggi (HBM), memori yang terintegrasi langsung dalam sistem kemasan GPU, sangat cepat dan sangat mahal.

Pertama tentang ingatan. Model besar memiliki karakteristik canggung saat menghasilkan teks: setiap mengeluarkan kata baru, mereka harus melihat kembali semua konten sebelumnya. Karena makna bahasa dibangun lapis demi lapis, apa yang harus dikatakan selanjutnya sepenuhnya tergantung pada konteks apa yang sudah dibangun sebelumnya.

Ini seperti seorang penerjemah simultan. Dia tidak bisa berbicara hanya berdasarkan kalimat terakhir Anda, tapi harus selalu membawa semua yang Anda katakan sebelumnya - hanya dengan mengingat pengantar itu, dia bisa memahami ke mana sebenarnya kalimat ini mengarah. Semakin lama Anda berbicara, semakin banyak yang harus dia ingat.

Agar tidak menghitung ulang dari awal setiap kata (itu akan terlalu lambat untuk digunakan), model akan menyimpan sementara hasil perhitungan yang sudah dilakukan. Arsip ini disebut cache KV (Key-Value Cache, dapat dipahami sebagai ingatan jangka pendek model).

Masalahnya adalah, ini akan mengembang dengan gila saat percakapan semakin panjang.

Ambil contoh angka konkret: menurut perkiraan struktur standar tertentu, untuk menangani konteks sekitar seratus dua puluh ribu kata, ingatan ini saja bisa menghabiskan 488GB memori bandwidth tinggi. Dan GPU Rubin tingkat atas NVIDIA yang akan dikirimkan nanti, memiliki memori 288GB per kartu. Artinya, hanya untuk menyimpan satu ingatan ini, sudah memenuhi hampir satu setengah, bahkan mendekati dua GPU tercanggih - dan model belum benar-benar mulai bekerja.

Kemudian tentang tubuh. "Tubuh" model mengacu pada bobot parameternya, yang secara kasar dapat dipahami sebagai pembawa semua pengetahuan dan kemampuannya. Semakin kuat kemampuannya, tubuhnya seringkali semakin besar, mencapai ratusan miliar, triliunan parameter.

Model padat tradisional (Dense Model, mengacu pada model yang harus menggunakan semua parameter untuk memproses input apa pun) memiliki kelemahan: apa pun yang Anda tanyakan, seluruh tubuhnya harus digerakkan. Ini seperti pergi ke rumah sakit hanya untuk memeriksa gigi, tapi semua dokter dari semua departemen dipanggil, memeriksa Anda dari ujung kepala sampai kaki, baru akhirnya gigi. Konyol, tapi biayanya tetap ditagih penuh.

Tubuh besar ini juga harus selalu berada di memori bandwidth tinggi yang mahal, siap siaga kapan pun.

Ingatan dan tubuh, dua boros bahan bakar ini, mendistribusikan nilai seluruh sistem hardware, menekan mati pada hardware yang paling mahal, paling langka, paling dibatasi orang. Dan selama belasan tahun terakhir, strategi industri sederhana dan kasar: daya komputasi kurang, tambah; memori kurang, tambah lagi. Maka kekayaan industri sangat terkumpul di rantai hardware paling canggih ini, keuntungan paling gemuk tersangkut di mata rantai paling langka.

Harga Token dengan demikian disandera oleh kelangkaan satu jenis hardware. Dan tiga tebasan DeepSeek, kebetulan masing-masing melonggarkan ikatan ini.

Tebasan Pertama: Memodifikasi Otak

Tebasan pertama, jatuh pada "ingatan". Dan tempat tebasannya tepat di tempat yang paling tidak boleh disentuh, atau paling tidak berani disentuh dalam seluruh mesin - mekanisme perhatian (Attention, mekanisme inti yang digunakan model besar untuk memahami hubungan konteks).

Mekanisme perhatian adalah otak model besar. Kemampuannya membaca konteks, menangkap poin penting dalam percakapan panjang, sepenuhnya bergantung pada mekanisme ini yang terus menimbang hubungan antar kata. Ingatan mahal tadi adalah produk dari setiap denyut otak ini.

Ingin menghemat ingatan, tapi takut risiko, jadi hampir semua orang memilih menghindari otak ini, hanya bertindak di pinggiran. Dari perhatian kueri berganda (MQA) yang diusulkan oleh Noam Shazeer, salah satu penulis asli Transformer tahun 2019, hingga perhatian kueri kelompok (GQA) yang diusulkan Google tahun 2023 dan banyak digunakan oleh Llama, pemikiran jalur utama selalu "membuat beberapa kepala kueri berbagi ingatan yang sama" - pada dasarnya adalah "mengingat lebih sedikit, digunakan apa adanya". Efek penghematan tempatnya menakjubkan, tapi konsekuensinya adalah kualitas model dikurangi. Singkatnya, konsensus jalur ini selalu "kompromi": menganggap kompresi pasti merusak kualitas, hanya menawar seberapa banyak kerusakan.

DeepSeek menolak berkompromi. Mereka memilih langsung memodifikasi otak, mengubah mekanisme perhatian itu sendiri.

Solusinya disebut perhatian laten berkepala banyak (MLA, Multi-head Latent Attention), pertama kali muncul di DeepSeek-V2 tahun 2024. Analoginya: model lain mencatat, menyalin setiap detail asli, mengisi beberapa buku besar; MLA pertama-tama menyaring catatan menjadi ringkasan yang sangat padat, hanya menyimpan ringkasan, saat digunakan baru merestorasi detail berdasarkan ringkasan. Dalam terminologi, ini disebut "kompresi peringkat rendah" - memproyeksikan ingatan yang tampaknya kompleks tapi sebenarnya sangat redundan, ke dalam ruang yang jauh lebih kompak untuk disimpan.

Seberapa menakjubkan efeknya? Hasil yang diberikan makalah DeepSeek-V2 adalah, dibandingkan model generasi sebelumnya dengan kemampuan yang sama, V2 dengan kemampuan yang lebih kuat mengurangi biaya pelatihan 42,5%, cache KV berkurang 93,3%, throughput generasi maksimum meningkat menjadi 5,76 kali. Contoh yang menghabiskan 488GB tadi, dengan jalur ini, mungkin bisa ditekan ke tingkat beberapa GB.

Tapi yang benar-benar hebat bukanlah berapa banyak yang dihemat, melainkan hampir tidak membayar harga kehilangan detail.

Secara logika, memampatkan buku menjadi satu halaman ringkasan, sekeras apa pun direstorasi, tidak akan mendapatkan kembali semua detail. Tapi dalam eksperimen yang dirilis DeepSeek, ingatan versi terkompresi ini tidak hanya tidak kalah dengan perhatian standar "menyalin seluruh buku", bahkan dalam beberapa kasus sedikit lebih baik.

Sampai V4, jalur ini didorong ke skenario konteks panjang yang lebih ekstrem: V4-Pro menggunakan arsitektur perhatian hibrida, dalam pengaturan konteks 1 juta Token, dibandingkan generasi sebelumnya hanya membutuhkan 27% daya komputasi inferensi dan 10% penggunaan cache.

Untuk merasakan betapa sulitnya ini, harus tahu bahwa ini seperti melakukan operasi pada pesawat yang sedang terbang. Mengubah mekanisme perhatian berarti menulis ulang logika komputasi paling dasar model, melatih ulang seluruh model, membuat ulang seluruh sistem layanan yang mendukungnya. Salah satu bagian salah, kecerdasannya hancur. Ini bukan mengganti pentil ban, ini operasi otak.

Dan DeepSeek berhasil, membuat AI setelah operasi lebih sehat daripada sebelum operasi.

Tebasan Kedua dan Ketiga: Memasang Lemari Penyimpanan Bernomor pada Mesin

Tebasan pertama menaklukkan ingatan. Tebasan kedua, menangani "tubuh" yang besar itu.

Cara berpikir tebasan ini, DeepSeek bukan pencipta pertama, melainkan melanjutkan jalur tua yang jelas: pakar campuran (MoE), mengacu pada struktur yang membagi model menjadi banyak "pakar", setiap kali hanya memanggil beberapa di antaranya.

Konsep ini sudah ada sejak 1991, diperkenalkan ke jaringan neural oleh Shazeer dkk tahun 2017, kemudian GShard Google, Switch Transformer memindahkannya ke Transformer; yang benar-benar membuatnya terkenal adalah Mixtral 8x7B perusahaan Prancis Mistral akhir tahun 2023 - yang hanya membagikan tautan torrent saat dirilis - total parameter sekitar 46,7 miliar, tapi setiap kata yang diproses hanya mengaktifkan sekitar 12,9 miliar.

Kembali ke rumah sakit "periksa gigi tapi mengganggu seluruh rumah sakit". MoE mengubahnya menjadi rumah sakit dengan departemen yang jelas: Anda periksa gigi, resepsionis langsung mengarahkan Anda ke departemen gigi, dokter departemen lain melakukan apa yang harus mereka lakukan. Jumlah total rumah sakit tetap besar, total parameter bisa ratusan miliar, ribuan miliar, tapi yang benar-benar bergerak setiap kali hanya sebagian kecil.

DeepSeek dalam V3 mendorong jalur ini ke skala yang cukup agresif, di era V4 lebih ekstrem - V4-Pro adalah 1,6 triliun total parameter, 49 miliar parameter aktif; V4-Flash adalah 284 miliar total parameter, 13 miliar parameter aktif. Artinya, "total tubuh" model terus membesar, tapi bagian yang benar-benar bergerak setiap langkah, masih ditekan dalam porsi kecil.

Tapi kecerdasan sebenarnya dari tebasan kedua tidak hanya "menggerakkan lebih sedikit dokter". Ini sekaligus mengubah cara model mengakses "tubuh" ini.

Di sini bisa digambarkan dengan gambaran yang lebih tepat. Model besar sebelumnya seperti ruang penyimpanan besar tapi tidak teratur: semua barang ditumpuk bersama, setiap kali hanya ingin mengambil satu, harus membuka pintu lebar-lebar, mulai dari lapisan paling bawah, membalik semua barang baru ketemu. Agar pencarian ini cukup cepat menghadapi pelanggan yang banyak, Anda hanya bisa memindahkan seluruh ruang penyimpanan ke "toko di pusat kota" termahal - yaitu memori bandwidth tinggi.

DeepSeek mengubah ruang penyimpanan ini menjadi lemari dengan puluhan ribu kotak, setiap kotak diberi nomor. Ingin menggunakan barang apa, tekan nomornya langsung tarik kotak yang sesuai, tidak menyentuh yang lain sama sekali. Ini berarti, Anda tidak perlu lagi menumpuk semua barang di lemari di toko termahal. Sebagian besar kotak yang sementara tidak digunakan, bisa dimasukkan ke memori biasa (LPDDR) yang jauh lebih murah, bahkan ke hard disk solid yang lebih murah, saat dibutuhkan baru cepat memanggil kotak itu. Terkait pemindahan dan pemuatan streaming semacam ini, ekosistem DeepSeek dan sistem inferensi open source seperti SGLang terus mengeksplorasi.

Sampai di sini, sinergi dua dari tiga tebasan terlihat: tebasan pertama mengecilkan "ingatan", tebasan kedua memberi "tubuh" nomor, hanya mengambil kotak yang seharusnya diambil. Dua tebasan digabungkan, mesin ini setiap saat, bagian yang benar-benar perlu menempati memori termahal, ditekan sangat rendah.

Tebasan ketiga, mendorong logika "menggunakan sesuai nomor" ini ke tingkat paling ekstrem: bahkan tindakan "komputasi" bisa dihemat. Beberapa hasil komputasi sebenarnya bisa dihitung sebelumnya, disimpan sebagai kotak bernomor, saat digunakan langsung diambil, tidak perlu dihitung ulang setiap kali. Seperti orang yang hafal tabel perkalian, tidak akan menghitung tujuh kali delapan dengan jari setiap kali, langsung menjawab lima puluh enam. Ini sama dengan menggunakan "pengambilan" (membaca memori) dengan biaya sangat rendah, menggantikan "komputasi keras" (komputasi chip) dengan biaya sangat tinggi.

Dalam V4, tebasan ini memiliki ekspresi komersial yang lebih langsung: harga cache hit ditekan sangat rendah, penggunaan ulang konteks panjang langsung ditulis ke sistem harga - komputasi berulang tidak hanya bisa dihemat secara teknis, secara komersial juga didorong untuk dihemat.

Melihat tiga tebasan bersama, mereka bukan tiga hal terpisah, melainkan kemajuan bertahap dari logika yang sama: mengubah kekacauan yang harus dibolak-balik menjadi sistem di mana semuanya bisa diambil dengan tepat sesuai nomor. Ingatan ditekan minimal, tubuh hanya dibangkitkan yang seharusnya dibangkitkan, komputasi bisa cari tabel tidak usah hitung ulang. Setiap tebasan membuat mesin ini menggunakan hardware termahal lebih sedikit, tiga tebasan digabungkan, menjalankan pekerjaan yang sama, konsumsi hardware tercanggihnya hanya sisa sedikit dari sebelumnya.

Murah Sampai Seberapa

Mei 2026, DeepSeek mengumumkan mengubah harga diskon 75% sebelumnya dari V4-Pro menjadi harga jangka panjang, membuka perbedaan besar antara harga cache hit, cache miss, dan output Token. Pentingnya harga cache hit karena membuat tebasan ketiga DeepSeek langsung menjadi aturan komersial: konteks yang sudah dihitung, tidak boleh ditagih berulang kali sebagai "pekerjaan baru".

Dibandingkan dalam tagihan nyata, barulah terlihat perbedaannya. Menghitung aplikasi skala menengah yang menjalankan satu miliar token per bulan, pekerjaan yang sama: menggunakan DeepSeek V4-Pro, tagihan bulanan sekitar 522 dolar; mengganti dengan Claude Opus 4.7, sekitar 9.000 dolar; mengganti dengan GPT-5.5, sekitar 10.000 dolar. Perbedaannya tujuh belas sampai sembilan belas kali.

Lihat lagi skenario ekstrem tapi umum: asisten pemrograman konteks panjang, membaca berulang basis kode 100.000 Token seratus kali. Dengan cache hit yang hampir gratis, DeepSeek hanya menghabiskan sekitar 0,036 dolar untuk sekali ini; pekerjaan yang sama, GPT-5.5 dan Claude Opus 4.7 masing-masing sekitar 5 dolar - berbeda lebih dari seratus kali.

Harga ini sangat murah, tapi ini bukan merugi untuk menarik perhatian, melainkan mesin yang dimodifikasi ini memang berjalan sangat hemat - biaya yang dikerjakan orang China sedikit demi sedikit dengan rekayasa. Dua tahun lalu Liang Wenfeng berbicara tentang penetapan harga mengatakan, prinsipnya adalah "tidak menambah uang, juga tidak mengambil keuntungan besar". Sebenarnya harus dipahami seperti ini: ketika struktur biaya Anda dan orang lain sama sekali tidak dalam garis yang sama, penetapan harga Anda juga tidak dalam rentang yang sama.

Tentu, modifikasi ini bukan tanpa risiko. Misalnya memindahkan beban ke memori dan hard disk murah, penelitian yang ada menunjukkan, pemindahan yang sering mungkin merugikan dalam konsumsi daya, penundaan, dan kompleksitas penjadwalan. Dalam beberapa kasus, total biaya sistem per kata yang dihasilkan belum tentu lebih rendah, kecuali hardware, software stack, dan media penyimpanan dioptimalkan lebih lanjut. Jadi tiga tebasan ini adalah keseimbangan yang sangat sulit diukur, bukan hemat uang tanpa berpikir. Tapi arahnya pasti: menggunakan sumber daya murah, yang lebih mudah diperoleh sendiri, menggantikan sumber daya yang paling mahal, paling dicekik tenggorokannya.

Menghitung "Satu Triliun" Menjadi Pembukuan yang Terlihat

Setelah membicarakan banyak "hemat", lebih baik mengubahnya menjadi gambaran yang lebih intuitif: berapa pusat komputasi cerdas yang bisa dibangun lebih sedikit?

Pertama lihat arus Token. Data nasional adalah, hingga Maret 2026, panggilan Token harian China sudah melebihi 140 triliun, meningkat lebih dari seribu kali dibandingkan awal 2024. Dalam standar industri, hanya model besar Doubao saja, penggunaan harian bulan yang sama juga melampaui 120 triliun. Meski batasan statistik berbeda, tapi keduanya bersama-sama menjelaskan satu hal: konsumsi Token AI China sudah masuk operasional harian ratusan triliun, dan sedang berkembang cepat menuju ribuan triliun. Jadi, 500 triliun Token/hari, bisa dilihat sebagai langkah berikutnya yang tidak lama lagi; dan 5.000 triliun Token/hari, adalah skenario arus tinggi setelah agen cerdas, multimodal, pembuatan kode sepenuhnya diluncurkan.

Dalam konteks ini, melihat lagi biaya pusat komputasi, nilai DeepSeek baru menonjol. Tahun 2025, China Unicom mulai membangun pusat inferensi komputasi cerdas seribu kartu di Wuhan, investasi tahap pertama hampir 200 juta yuan. Kita bisa kasar melihatnya sebagai sampel investasi pusat inferensi seribu kartu: satu pusat seperti itu, sekitar 200 juta yuan.

Dan menurut peningkatan efisiensi DeepSeek V4, setidaknya dalam skenario konteks panjang yang dikuasainya, perubahan yang diberikan bukan lagi optimisasi belasan persen, melainkan peningkatan efisiensi hardware tingkat beberapa kali lipat. Kita tidak ambil standar paling agresif, melainkan asumsi yang lebih konservatif, lebih mudah dipahami: tiga jurus andalan V4 ini, membuat throughput Token efektif dari batch hardware yang sama meningkat 4 kali lipat. Artinya, pekerjaan yang sebelumnya membutuhkan 4 pusat, sekarang 1 pusat cukup, 3 pusat di tengah berkurang, setara menghemat 75% investasi hardware efektif.

Perhatikan, DeepSeek bukan sekadar menggunakan lebih sedikit penyimpanan. Justru sebaliknya, mereka menggunakan penyimpanan dengan baik - menggunakan perhatian terkompresi, aktivasi sesuai kebutuhan, cache hit, dan penjadwalan inferensi, menggunakan waktu GPU dan memori termahal lebih keras. Yang benar-benar dihemat adalah, dalam throughput Token yang sama, hardware tambahan yang seharusnya dibeli.

Lalu, satu triliun dolar sesuai dengan apa? 1 triliun dolar setara dengan sekitar 7 triliun yuan. Menurut perhitungan setiap pusat inferensi seribu kartu 200 juta yuan, 7 triliun yuan setara dengan 35.000 pusat seperti itu. Jika jalur V4 membawa peningkatan throughput efektif 4 kali lipat, harus membangun lebih sedikit 35.000 pusat efektif seperti itu, sesuai dengan arus Token harian sekitar 5.000 triliun.

Inilah gambaran industri yang sesuai dengan "satu triliun dolar" yang disebut dalam artikel ini. Ini bukan perhitungan tepat dalam dokumen tender rekayasa, melainkan pembukuan skala infrastruktur, sesuai juga dengan skenario arus masa depan bertahun-tahun, bukan arus yang sudah terwujud saat ini. Yang benar-benar ingin dijelaskan adalah: di era panggilan rendah, peningkatan efisiensi menghemat beberapa kartu, beberapa rak; di era ribuan triliun Token/hari, peningkatan efisiensi menghemat ribuan pusat komputasi cerdas yang seharusnya berdiri.

Jadi, yang benar-benar diubah DeepSeek bukan harga satu panggilan, melainkan pembukuan infrastruktur AI masa depan.

Mereka Membalikkan Tren Berbahaya

Sekarang, kembali ke mesin di awal. Masih ingat? Dari 7,8 juta dolar Vera Rubin, 2 juta dolar ditekan pada memori, dan bagian ini masih naik gila-gilaan. Ini mengungkapkan tren berbahaya - nilai seluruh industri, semakin banyak, tidak sehat, terikat mati pada chip memori. Padahal memori, seharusnya tidak didorong semahal ini.

Banyak orang salah mengira DeepSeek "mengikuti" tren ini, karena mereka juga banyak menggunakan memori. Justru sebaliknya, DeepSeek membalikkannya. Cara lama menelan hardware secara pasif, tidak efisien, menumpuk nilai terbalik pada chip, membiarkan memori didorong oleh gelombang kenaikan harga; DeepSeek pertama-tama menggunakan tiga tebasan untuk menekan permintaan nyata terhadap hardware secara besar-besaran, kemudian sisa permintaan sedikit, dialokasikan dengan cerdas ke tingkat penyimpanan termurah, paling sesuai. Yang pertama "didorong harga", yang kedua "hitung pembukuan dulu, baru putuskan belanjanya di mana".

Perbedaan ini sangat penting bagi China. Karena ini memindahkan medan pertempuran dari tempat kita dalam posisi lemah, ke tempat kita lebih punya peluang menang. Chip komputasi paling canggih, kita sementara belum bisa mengejar. Tapi chip penyimpanan seperti memori, justru kemampuan yang ditingkatkan China tahun ini secara nyata.

Pemimpin DRAM domestik ChangXin Memory, kuartal pertama 2026 pendapatannya mencapai 50,8 miliar yuan, laba bersih sekitar 25 miliar yuan, perusahaan memperkirakan laba bersih semester pertama mencapai 66 hingga 75 miliar yuan, setara dengan laba bersih ByteDance tahun lalu dalam setengah tahun. Meski ChangXin di pasar DRAM global masih kursi keempat, tapi kapasitas produksi domestik yang sebelumnya hampir nol ini, tahun ini akhirnya berdiri.

Dan ini, justru makna strategis tiga tebasan DeepSeek. Ini bukan "mengganti komputasi dengan penyimpanan", melainkan mengurangi ketergantungan marjinal pada komputasi paling langka, dan memindahkan sebagian tekanan ke penyimpanan, cache, dan rekayasa sistem yang lebih bisa diperoleh. Ketika satu mesin AI lebih mengandalkan memori, cache, penjadwalan, dan rekayasa sistem yang lebih berpeluang kita kuasai, rantai pasokan China yang ada, tiba-tiba dari "terkendala di mana-mana" menjadi "cukup", bahkan "bagus". Ini sangat meningkatkan keamanan seluruh rantai.

Kesimpulan

Seorang Liang Wenfeng yang menjadikan "menghilangkan ketidakefisienan" sebagai naluri, tidak akan puas hanya membuat suatu model sedikit lebih murah. Yang dia incar adalah ketidakefisienan terbesar di seluruh industri AI - premis "ingin kecerdasan lebih kuat, harus bergantung pada hardware paling canggih, paling langka, paling mahal" yang dianggap seluruh industri sebagai hal wajar.

Jika dia bisa membuat seluruh industri, menggunakan hardware tercanggih jauh lebih sedikit menyelesaikan hal yang sama, yang dia hemat untuk industri adalah basis kapasitas virtual tingkat triliunan - tidak menempati satu inci pun pabrik, tapi benar-benar melepaskan investasi besar yang seharusnya dihabiskan untuk hardware. "Satu triliun" itu, dengan demikian bukan lagi cerita valuasi, melainkan pembukuan infrastruktur.

Menulis DeepSeek sebagai "menghilangkan NVIDIA dengan algoritma" adalah mitos murahan lainnya. Tapi jika bertanya dengan cara lain, jawabannya menarik: mungkinkah DeepSeek membuat industri membeli lebih sedikit hardware termahal, menggunakan lebih sedikit memori paling langka, membayar lebih sedikit biaya inferensi yang sebelumnya dianggap wajar? Mungkin. Mungkinkah mereka mendistribusikan kembali nilai infrastruktur AI, dari narasi GPU high-end tunggal, ke struktur model, sistem inferensi, manajemen cache, penjadwalan penyimpanan, dan optimisasi rekayasa? Mungkin juga. Inilah makna industri sebenarnya.

Revolusi teknologi sebenarnya, seringkali bukan membuat segalanya lebih mahal, melainkan membuat hal yang sebelumnya hanya bisa digunakan sedikit orang, tiba-tiba menjadi infrastruktur sehari-hari yang bisa dijangkau kebanyakan orang. Dari dimensi lebih besar, yang penting dalam permainan ini bukanlah berapa banyak uang yang dihemat, melainkan hemat uang ini, diam-diam mengembalikan tiket menuju masa depan, ke ribuan industri China yang perlu diberdayakan AI.

(Artikel ini disusun berdasarkan data publik dan diskusi industri. Beberapa penilaian prospektif dalam artikel, seperti nilai penggantian infrastruktur tingkat triliunan, pertimbangan efisiensi energi hardware, konversi biaya efektif, dll., termasuk pandangan dalam perkiraan dan kontroversi industri, bukan fakta yang sudah ditetapkan, harap pembaca melihat dengan hati-hati.)

Artikel ini dari akun WeChat "胡说成理", penulis: Hu Zhe

Pertanyaan Terkait

QApa tiga inovasi utama DeepSeek V4 untuk meningkatkan efisiensi infrastruktur AI?

ADeepSeek V4 menggunakan tiga pendekatan utama: Pertama, kompresi memori (KV Cache) melalui perhatian laten multi-head (MLA) untuk mengurangi beban memori HBM yang mahal. Kedua, arsitektur campuran ahli (MoE) yang hanya mengaktifkan sebagian kecil parameter saat inferensi. Ketiga, penggunaan kembali cache dan penjadwalan inferensi untuk menghindari komputasi berulang.

QBagaimana DeepSeek dapat mengurangi ketergantungan industri AI Tiongkok pada hardware yang mahal?

ADeepSeek mengurangi ketergantungan dengan menurunkan kebutuhan akan memori HBM (High Bandwidth Memory) yang sangat mahal melalui optimasi perangkat lunak dan arsitektur model. Dengan meningkatkan efisiensi token per hardware hingga 4 kali lipat, industri dapat mencapai output yang sama dengan investasi hardware 75% lebih sedikit, sehingga mengalihkan tekanan ke komponen yang lebih terjangkau seperti memori biasa (DRAM/LPDDR).

QMengapa penghematan hingga satu triliun dolar disebutkan dalam artikel sebagai dampak potensial DeepSeek?

AEstimasi satu triliun dolar didasarkan pada proyeksi investasi global AI hardware sebesar 5,2 triliun dolar hingga 2030 oleh McKinsey. Jika teknologi DeepSeek (yang meningkatkan efisiensi hardware 4x) diadopsi luas di Tiongkok, hal ini dapat menghemat 75% investasi hardware yang setara. Dalam skenario konsumsi harian 5.000 triliun token, penghematan ini dapat mencapai tingkat triliunan dolar.

QApa signifikansi strategis teknologi DeepSeek bagi keamanan rantai pasokan AI Tiongkok?

ATeknologi DeepSeek menggeser ketergantungan dari GPU dan HBM canggih (yang dikuasai vendor asing) ke memori biasa (DRAM/LPDDR) dan optimasi rekayasa sistem, di mana industri Tiongkok lebih kompetitif (misalnya melalui ChangXin Memory). Ini meningkatkan ketahanan rantai pasokan dan mengurangi risiko pembatasan akses ke teknologi asing yang sensitif.

QBagaimana perbedaan harga antara DeepSeek V4-Pro dan model pesaing seperti GPT-5.5 dalam skenario dunia nyata?

ADalam aplikasi skala menengah (10 miliar token/bulan), DeepSeek V4-Pro berbiaya sekitar 522 USD, sementara GPT-5.5 sekitar 10.000 USD (19x lebih mahal). Untuk skenario pembacaan berulang kode 100.000 token sebanyak 100 kali, DeepSeek hanya memerlukan 0,036 USD berkat cache yang sangat murah, dibandingkan 5 USD untuk GPT-5.5 (perbedaan >100x).

Bacaan Terkait

Berhenti Fokus pada GPU, Intel Lemparkan Gerakan Besar, Bisakah Mengakhiri Monopoli Komputasi NVIDIA?

Dalam dua tahun terakhir, GPU telah menjadi pusat perangkat keras AI, mendorong dominasi Nvidia. Namun, di COMPUTEX 2026, Intel menyajikan perspektif berbeda: **era AI selanjutnya tidak boleh hanya berfokus pada GPU**. Kuncinya adalah **Agentic AI (agen cerdas)**. Agen cerdas mengubah paradigma komputasi dari sistem tanya-jawab menjadi entitas yang aktif "berpikir, merencanakan, bertindak, dan merefleksikan" dalam alur kerja nyata. Pergeseran ini akan **membentuk ulang alokasi komputasi di pusat data**. Untuk beban kerja pelatihan model, rasio CPU:GPU bisa mencapai 1:8, tetapi untuk inferensi agen cerdas yang membutuhkan pengaturan tugas, pemanggilan alat, dan koordinasi sistem, rasio tersebut bergerak menuju 1:1 atau bahkan membutuhkan kepadatan CPU lebih tinggi. Intel meluncurkan **prosesor Xeon 6+** berbasis proses 18A, dengan hingga 288 core efisiensi dan 576MB cache L3, dirancang untuk beban kerja cloud-native, Agentic AI, dan jaringan yang padat. Solusi rak yang ditawarkan menawarkan efisiensi energi lebih tinggi. Lebih lanjut, Intel memperkenalkan **arsitektur inferensi terpisah (fully decoupled inference)** bekerja sama dengan mitra seperti SambaNova. Skema ini membagi tugas inferensi agen cerdas di antara CPU Xeon 6 (untuk pengaturan), SambaNova SN40 RDU (dekode), dan GPU NVIDIA Blackwell (prefill), sehingga setiap tahap berjalan pada perangkat keras paling optimal. Di sisi *edge*, **prosesor Core Ultra Gen 3** menjadi inti AI lokal, memungkinkan alokasi beban kerja dinamis antara perangkat dan cloud untuk mengurangi biaya, latensi, dan meningkatkan privasi. Intel juga memperluasnya ke *gaming handheld* dan komputasi tepi. Strategi Intel melampaui prosesor umum. Perusahaan menekankan **chip khusus/custom** melalui kolaborasi dengan pelanggan seperti Google (untuk IPU) dan Ericsson, menawarkan solusi yang disesuaikan untuk kinerja dan efisiensi maksimal. Intel bertujuan untuk menjadi **"ada di mana-mana"** dengan memenuhi beragam kebutuhan di seluruh rantai AI – dari pengaturan agen di pusat data, inferensi terpisah, AI lokal di PC, hingga chip khusus untuk berbagai industri. Tantangan tetap ada dari dominasi Nvidia dan persaingan AMD, tetapi Intel melihat peluang dalam **periode redistribusi infrastruktur AI** di mana efisiensi sistem secara keseluruhan, bukan hanya kinerja puncak chip tunggal, menjadi kunci.

marsbit20m yang lalu

Berhenti Fokus pada GPU, Intel Lemparkan Gerakan Besar, Bisakah Mengakhiri Monopoli Komputasi NVIDIA?

marsbit20m yang lalu

Jembatan Cross-Chain Berubah Aktif, LI.FI Gunakan Arsitektur Intensi untuk Menjadi Pusat Likuiditas Institusi TradFi

**LI.FI Beradaptasi: Dari Jembatan Lintas Rantai ke Pusat Likuiditas untuk Institusi TradFi dengan Arsitektur Intents** Saat aset TradFi seperti pembayaran stablecoin dan RWA mulai berintegrasi dengan ekosistem on-chain, LI.FI, sebuah protokol jembatan lintas rantai, tidak tinggal diam. Menghadapi penurunan volume transaksi di sektor jembatan dan likuiditas pasar yang menyusut, LI.FI secara aktif mencari peran baru. Memanfaatkan pendanaan segar, LI.FI memperluas layanannya. Mereka meluncurkan **LI.FI Intents**, sebuah arsitektur eksekusi berbasis *intent* yang menargetkan perusahaan fintech, *neo-bank*, dompet digital, dan institusi keuangan terdaftar. Produk ini bertujuan menjadi lapisan eksekusi dasar untuk pembayaran stablecoin, RWA, dan likuiditas on-chain yang sesuai regulasi. LI.FI Intents menawarkan: * **Kemudahan Penggunaan:** Mengotomatiskan proses kompleks seperti manajemen gas dan langkah-langkah teknis blockchain, memungkinkan pertukaran stablecoin lintas rantai yang presisi. * **Kepatuhan (Kunci Utama):** Jaringannya terdiri dari entitas terverifikasi. Institusi dapat menyetujui pesanan secara individual dan memilih sistem pemrosesan yang tepercaya. Semua dompet yang berinteraksi diperiksa sesuai daftar OFAC AS. * **Cakupan Ekosistem Luas:** Mendukung jaringan utama seperti EVM, Solana, dan Tron. Intinya, LI.FI beralih dari sekadar "protokol transmisi likuiditas" menjadi penyedia layanan otomatis tingkat perusahaan. Dengan LI.FI Intents, pengguna institusional hanya perlu menetapkan tujuan akhir (*intent*), sementara sistem yang efisien dan sesuai regulasi akan menangani seluruh proses eksekusinya.

Odaily星球日报49m yang lalu

Jembatan Cross-Chain Berubah Aktif, LI.FI Gunakan Arsitektur Intensi untuk Menjadi Pusat Likuiditas Institusi TradFi

Odaily星球日报49m yang lalu

"Xiaomei" dan Yuanbao Saling Terhubung, Ini Sinyal Uji Coba untuk Smart Agent WeChat?

**Ringkasan:** Artikel ini membahas kemitraan antara asisten AI Meituan, "Xiaomei," dan asisten AI Tencent, "Yuanbao." Kolaborasi ini, yang memungkinkan pengguna Yuanbao mengakses layanan hidup lokal Meituan, dilihat sebagai strategi saling menguntungkan: Meituan mendapatkan akses ke pintu masuk AI baru, sedangkan Yuanbao memperkaya kemampuan layanannya. Kerja sama ini juga dianggap sebagai "tes tekanan" untuk persiapan peluncuran "WeChat Agent" Tencent, asisten AI terintegrasi di WeChat yang dapat menjalankan jutaan mini-program. Keberhasilan kemitraan Meituan-Yuanbao dapat menentukan kesediaan platform besar lain untuk bergabung dengan ekosistem WeChat Agent. Artikel ini menyoroti tantangan yang dihadapi Meituan dari AI asisten seperti Doubao (ByteDance) dan Qianwen (Alibaba), yang mengintegrasikan layanan mereka sendiri dan berpotensi melewati "parit pertahanan" Meituan. Sementara itu, Yuanbao, meskipun terintegrasi dengan ekosistem Tencent, tertinggal dalam hal pengguna aktif dan kurangnya ekosistem layanan komersial mandiri, sehingga kemitraan dengan Meituan menjadi penting. Tantangan utama kolaborasi ini meliputi: batasan pengalaman pengguna karena arsitektur "Agent to Agent" yang terpisah, pembagian keuntungan, dan kelancaran pengalaman pengguna di antara dua platform yang berbeda. Namun, jika berhasil, ini dapat membuka jalan bagi model kolaborasi serupa di ekosistem WeChat Agent di masa depan.

marsbit1j yang lalu

"Xiaomei" dan Yuanbao Saling Terhubung, Ini Sinyal Uji Coba untuk Smart Agent WeChat?

marsbit1j yang lalu

a16z: Mengapa Pasar Prediksi Menjadi Infrastruktur untuk 'Probabilitas Masa Depan'

**Ringkasan: Mengapa Pasar Prediksi Bisa Menjadi Infrastruktur untuk "Probabilitas Masa Depan"** Pasar prediksi, yang memungkinkan orang bertransaksi berdasarkan hasil peristiwa masa depan, semakin memasuki ranah informasi publik. Mekanismenya sederhana: sebuah peristiwa dirancang menjadi kontrak yang dapat diperdagangkan, di mana peserta menggunakan dana nyata untuk menyatakan penilaian mereka. Harga yang terbentuk kemudian mendekati probabilitas terjadinya peristiwa tersebut. Dibandingkan dengan jajak pendapat atau prediksi ahli, keunggulan pasar prediksi terletak pada kemampuannya untuk mengumpulkan informasi yang tersebar secara real-time dan memberi insentif kepada mereka yang benar-benar memiliki informasi untuk berpartisipasi melalui mekanisme "rugi jika salah tebak". Pasar ini memanfaatkan kemampuan pasar tradisional dalam mengagregasi informasi, tetapi menerapkannya secara khusus untuk menilai kemungkinan suatu peristiwa terjadi, mulai dari geopolitik hingga kinerja model AI. Namun, efektivitas pasar prediksi tidak otomatis. Ini bergantung pada siapa yang bertransaksi, desain kontrak, penyelesaian hasil, dan ketahanan terhadap manipulasi oleh pihak dalam. Tanpa partisipasi pemilik informasi sebenarnya, harga bisa menjadi noise. Jika ada upaya manipulasi untuk mempengaruhi persepsi publik, pasar prediksi bisa berubah dari alat agregasi informasi menjadi alat manipulasi. Oleh karena itu, langkah selanjutnya bukan hanya memperluas volume perdagangan, tetapi membangun infrastruktur pasar yang lebih kredibel: aturan partisipasi yang transparan, desain kontrak yang jelas, mekanisme penyelesaian yang dapat diaudit, dan batasan terhadap manipulasi. Nilai sebenarnya dari pasar prediksi terletak pada kemampuannya menyediakan sinyal probabilitas publik baru di lingkungan yang penuh ketidakpastian, membantu kita memahami dan mengantisipasi masa depan.

marsbit2j yang lalu

a16z: Mengapa Pasar Prediksi Menjadi Infrastruktur untuk 'Probabilitas Masa Depan'

marsbit2j yang lalu

Trading

Spot
Futures

Artikel Populer

Cara Membeli ONE

Selamat datang di HTX.com! Kami telah membuat pembelian Harmony (ONE) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli Harmony (ONE) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan Harmony (ONE) AndaSetelah melakukan pembelian, simpan Harmony (ONE) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading Harmony (ONE)Lakukan trading Harmony (ONE) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

522 Total TayanganDipublikasikan pada 2024.12.12Diperbarui pada 2026.06.02

Cara Membeli ONE

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga ONE (ONE) disajikan di bawah ini.

活动图片