Mampukah DeepSeek Menghemat 1 Triliun Dolar untuk China?

marsbitDipublikasikan tanggal 2026-06-03Terakhir diperbarui pada 2026-06-03

Abstrak

**Ringkasan Artikel: Apakah DeepSeek Dapat Menghemat 1 Triliun Dolar AS untuk China?** Artikel ini membahas bagaimana DeepSeek, melalui serangkaian inovasi teknologinya, berpotensi secara drastis menekan biaya infrastruktur AI China dan berpotensi menghemat investasi hingga triliunan dolar AS. **Tantangan: Biaya AI yang Melonjak** Biaya perangkat keras AI, terutama memori berbandwidth tinggi (HBM), sedang meroket. Misalnya, pada sistem AI canggih NVIDIA Vera Rubin, biaya komponen memori saja mencapai sekitar $2 juta dan telah naik 435% dalam setahun. **Solusi DeepSeek: Tiga Inovasi Utama** DeepSeek mendekati masalah ini dengan tiga terobosan teknis utama untuk meningkatkan efisiensi token perangkat keras hingga 4 kali lipat: 1. **Kompresi Memori (KV Cache):** Melalui **Multi-head Latent Attention (MLA)**, DeepSeek mengompres "memori" konteks panjang model secara signifikan (hingga 90%+ pengurangan) tanpa mengorbankan kualitas, mengurangi ketergantungan pada HBM yang mahal. 2. **Aktivasi "Tubuh" Model Sesuai Kebutuhan:** Menggunakan arsitektur **Mixture of Experts (MoE)**, model hanya mengaktifkan sebagian kecil dari total parameternya untuk setiap tugas. Ini seperti hanya memanggil dokter spesialis yang relevan, bukan seluruh rumah sakit. 3. **Cache dan Penggunaan Ulang:** Hasil komputasi yang sudah dihitung disimpan dan digunakan kembali (cache hit), menghindari perhitungan berulang yang mahal. DeepSeek menerapkan ini bahkan dalam struktur harga layanannya. **Dampak ...

Pada paruh kedua tahun 2026, NVIDIA akan mengirimkan platform AI terkuatnya hingga saat ini: Vera Rubin VR200 NVL72. Satu kabinet penuh berisi 72 GPU Rubin dan 36 CPU Vera. Menurut perkiraan Morgan Stanley, biaya material mesin ini sekitar 7,8 juta dolar AS.

Angka ini sudah cukup mengejutkan. Tapi yang lebih perlu diperhatikan adalah kemana uangnya dibelanjakan.

Dari 7,8 juta dolar tersebut, sekitar 2 juta dolar tidak dibelanjakan untuk chip GPU terkenal itu, juga tidak untuk inti komputasi, melainkan untuk memori - memori bandwidth tinggi (HBM4) dan memori biasa (LPDDR5X). Hanya dalam satu tahun, biaya bagian memori ini melonjak 435% karena kenaikan harga.

Ini adalah sinyal. Dalam mesin AI yang semakin mahal ini, uang sedang mengalir secara besar-besaran dari "komponen yang bertanggung jawab atas komputasi" menuju "komponen yang bertanggung jawab atas memori dan penyimpanan".

Ingatlah sinyal ini. Karena artikel ini akan membahas DeepSeek, yang justru melakukan hal sebaliknya: semua orang didorong oleh zaman untuk membayar premi hardware AI untuk memori yang semakin mahal. Sementara DeepSeek berusaha, tanpa melemahkan daya saing, melalui integrasi perangkat keras dan lunak, untuk meningkatkan produktivitas token lebih dari 4 kali lipat dari hardware mahal ini, yang setara dengan menghemat 75% investasi hardware.

Dan di ujung jalan ini, baru-baru ini ada dugaan yang banyak diperbincangkan - mampukah DeepSeek melalui upayanya sendiri, menghemat satu triliun dolar untuk infrastruktur AI China?

Mungkinkah ini benar-benar terjadi?

Satu Triliun Dolar, Dihemat

Faktur harga NVIDIA tadi adalah uang paling nyata dalam pembukuan infrastruktur AI baru-baru ini. Dalam pola pasokan dan permintaan saat ini, jika Anda ingin membeli mesin AI tercanggih, Anda harus menerima faktur ini.

DeepSeek tidak bisa mengubah hal ini.

Yang diubahnya adalah hal lain: mesin yang sama, hardware penyimpanan mahal senilai 2 juta dolar itu, berapa banyak Token yang bisa dihasilkannya.

Masalah ini menjadi sangat konkret setelah peluncuran DeepSeek V4.

Yang lebih perlu diperhatikan dari V4 bukan hanya modelnya sendiri, tapi tiga jurus andalannya yang ditunjukkan: Pertama, terus mengompresi "ingatan", membuat konteks panjang tidak lagi membebani memori; Kedua, membangkitkan "tubuh" sesuai kebutuhan, membuat model pakar raksasa tidak harus bergerak semua setiap kali; Ketiga, mengubah komputasi berulang menjadi aset yang dapat digunakan kembali, membuat konteks yang sudah dihitung tidak lagi membakar uang berulang kali.

Fitur teknis ini menunjukkan karakteristik yang menonjol - mereka bekerja pada sinergi perangkat keras dan lunak, bukan hanya optimisasi perangkat lunak murni. Karena itulah ada yang menggunakan analogi bercanda - DeepSeek mungkin akan menjadi perusahaan hardware AI terbesar di China.

Halaman modelnya menunjukkan, dalam skenario konteks 1 juta Token, V4-Pro dibandingkan generasi sebelumnya hanya membutuhkan 27% daya komputasi inferensi per Token dan 10% penggunaan cache. Dalam artikel ini, kita ambil nilai sekitar seperempat daya komputasi untuk menghitung pembukuan selanjutnya.

Dalam jalur tradisional, hardware ini hanya bisa mendukung satu throughput, namun melalui kompresi konteks panjang, aktivasi sesuai kebutuhan, penggunaan ulang cache, dan penjadwalan inferensi, DeepSeek bisa meningkatkan output Token efektif dari hardware yang sama menjadi empat kali lipat - sehingga biayanya tidak "dipotong", tapi diencerkan. Pekerjaan yang sebelumnya membutuhkan 4 mesin, sekarang mungkin bisa dikerjakan oleh 1 mesin; biaya hardware mahal yang sebelumnya harus ditanggung penuh untuk setiap Token yang dihasilkan, sekarang bisa dialokasikan ke 4 Token dengan hardware yang sama.

Inilah kehebatan sebenarnya DeepSeek: mereka tidak mengubah harga NVIDIA, tapi mengubah tingkat produksi mesin NVIDIA dalam pembukuan AI. Makna hal ini jauh lebih besar daripada sekali penurunan harga API.

Dan skala 1 triliun dolar ini bukanlah asumsi sembarangan.

Laporan McKinsey tahun 2026 "The Cost of Compute" memberikan angka konkret: hingga 2030, pusat data global membutuhkan investasi sekitar 6,7 triliun dolar untuk mengikuti permintaan daya komputasi, di mana bagian yang khusus menangani beban AI akan menghabiskan sekitar 5,2 triliun dolar.

Dengan kata lain, dalam beberapa tahun ke depan, uang yang direncanakan umat manusia untuk dihabiskan pada hardware AI diukur dalam satuan triliun dolar.

Dan sebagian besar dari uang raksasa ini akan mengalir ke hardware yang paling canggih dan langka - yaitu memori bandwidth tinggi HBM dan memori LPDDR. Yang sedang dilakukan DeepSeek adalah secara sistematis mengurangi ketergantungan seluruh industri AI China pada hardware mahal ini. Meski hanya menekan sebagian, nilai yang dihematnya untuk industri akan menjadi angka astronomis tingkat triliunan.

Saat konsumsi Token harian China berkembang dari ratusan triliun hari ini menuju ratusan, ribuan triliun, setiap penurunan biaya per Token akan diperbesar menjadi selisih infrastruktur yang sangat besar. Jika throughput yang sama benar-benar bisa diselesaikan dengan seperempat hardware, maka di masa depan yang terlihat, ini berpotensi menghemat hampir 1 triliun dolar investasi hardware komputasi untuk infrastruktur AI China.

Ini adalah pembukuan infrastruktur: siapa yang bisa membuat pengeluaran hardware kaku yang sama menghasilkan lebih banyak Token, dialah yang membangun lebih sedikit pusat data, membeli lebih sedikit GPU, menumpuk lebih sedikit memori, dialah yang mendistribusikan kembali tiket masuk AI masa depan.

Lalu, bagaimana DeepSeek melakukannya? Jawabannya adalah, mereka memberikan tiga tebasan pada mesin model besar ini.

Dua Boros Bahan Bakar

Kesalahpahaman populer adalah bahwa tempat paling boros uang dalam model besar adalah "berpikir", adalah komputasi. Sebenarnya tidak.

Dua boros bahan bakar sebenarnya bernama "ingatan" dan "tubuh". Dan keduanya membakar bahan bakar termahal yang sama - memori bandwidth tinggi (HBM), memori yang terintegrasi langsung dalam sistem kemasan GPU, sangat cepat dan sangat mahal.

Pertama tentang ingatan. Model besar memiliki karakteristik canggung saat menghasilkan teks: setiap mengeluarkan kata baru, mereka harus melihat kembali semua konten sebelumnya. Karena makna bahasa dibangun lapis demi lapis, apa yang harus dikatakan selanjutnya sepenuhnya tergantung pada konteks apa yang sudah dibangun sebelumnya.

Ini seperti seorang penerjemah simultan. Dia tidak bisa berbicara hanya berdasarkan kalimat terakhir Anda, tapi harus selalu membawa semua yang Anda katakan sebelumnya - hanya dengan mengingat pengantar itu, dia bisa memahami ke mana sebenarnya kalimat ini mengarah. Semakin lama Anda berbicara, semakin banyak yang harus dia ingat.

Agar tidak menghitung ulang dari awal setiap kata (itu akan terlalu lambat untuk digunakan), model akan menyimpan sementara hasil perhitungan yang sudah dilakukan. Arsip ini disebut cache KV (Key-Value Cache, dapat dipahami sebagai ingatan jangka pendek model).

Masalahnya adalah, ini akan mengembang dengan gila saat percakapan semakin panjang.

Ambil contoh angka konkret: menurut perkiraan struktur standar tertentu, untuk menangani konteks sekitar seratus dua puluh ribu kata, ingatan ini saja bisa menghabiskan 488GB memori bandwidth tinggi. Dan GPU Rubin tingkat atas NVIDIA yang akan dikirimkan nanti, memiliki memori 288GB per kartu. Artinya, hanya untuk menyimpan satu ingatan ini, sudah memenuhi hampir satu setengah, bahkan mendekati dua GPU tercanggih - dan model belum benar-benar mulai bekerja.

Kemudian tentang tubuh. "Tubuh" model mengacu pada bobot parameternya, yang secara kasar dapat dipahami sebagai pembawa semua pengetahuan dan kemampuannya. Semakin kuat kemampuannya, tubuhnya seringkali semakin besar, mencapai ratusan miliar, triliunan parameter.

Model padat tradisional (Dense Model, mengacu pada model yang harus menggunakan semua parameter untuk memproses input apa pun) memiliki kelemahan: apa pun yang Anda tanyakan, seluruh tubuhnya harus digerakkan. Ini seperti pergi ke rumah sakit hanya untuk memeriksa gigi, tapi semua dokter dari semua departemen dipanggil, memeriksa Anda dari ujung kepala sampai kaki, baru akhirnya gigi. Konyol, tapi biayanya tetap ditagih penuh.

Tubuh besar ini juga harus selalu berada di memori bandwidth tinggi yang mahal, siap siaga kapan pun.

Ingatan dan tubuh, dua boros bahan bakar ini, mendistribusikan nilai seluruh sistem hardware, menekan mati pada hardware yang paling mahal, paling langka, paling dibatasi orang. Dan selama belasan tahun terakhir, strategi industri sederhana dan kasar: daya komputasi kurang, tambah; memori kurang, tambah lagi. Maka kekayaan industri sangat terkumpul di rantai hardware paling canggih ini, keuntungan paling gemuk tersangkut di mata rantai paling langka.

Harga Token dengan demikian disandera oleh kelangkaan satu jenis hardware. Dan tiga tebasan DeepSeek, kebetulan masing-masing melonggarkan ikatan ini.

Tebasan Pertama: Memodifikasi Otak

Tebasan pertama, jatuh pada "ingatan". Dan tempat tebasannya tepat di tempat yang paling tidak boleh disentuh, atau paling tidak berani disentuh dalam seluruh mesin - mekanisme perhatian (Attention, mekanisme inti yang digunakan model besar untuk memahami hubungan konteks).

Mekanisme perhatian adalah otak model besar. Kemampuannya membaca konteks, menangkap poin penting dalam percakapan panjang, sepenuhnya bergantung pada mekanisme ini yang terus menimbang hubungan antar kata. Ingatan mahal tadi adalah produk dari setiap denyut otak ini.

Ingin menghemat ingatan, tapi takut risiko, jadi hampir semua orang memilih menghindari otak ini, hanya bertindak di pinggiran. Dari perhatian kueri berganda (MQA) yang diusulkan oleh Noam Shazeer, salah satu penulis asli Transformer tahun 2019, hingga perhatian kueri kelompok (GQA) yang diusulkan Google tahun 2023 dan banyak digunakan oleh Llama, pemikiran jalur utama selalu "membuat beberapa kepala kueri berbagi ingatan yang sama" - pada dasarnya adalah "mengingat lebih sedikit, digunakan apa adanya". Efek penghematan tempatnya menakjubkan, tapi konsekuensinya adalah kualitas model dikurangi. Singkatnya, konsensus jalur ini selalu "kompromi": menganggap kompresi pasti merusak kualitas, hanya menawar seberapa banyak kerusakan.

DeepSeek menolak berkompromi. Mereka memilih langsung memodifikasi otak, mengubah mekanisme perhatian itu sendiri.

Solusinya disebut perhatian laten berkepala banyak (MLA, Multi-head Latent Attention), pertama kali muncul di DeepSeek-V2 tahun 2024. Analoginya: model lain mencatat, menyalin setiap detail asli, mengisi beberapa buku besar; MLA pertama-tama menyaring catatan menjadi ringkasan yang sangat padat, hanya menyimpan ringkasan, saat digunakan baru merestorasi detail berdasarkan ringkasan. Dalam terminologi, ini disebut "kompresi peringkat rendah" - memproyeksikan ingatan yang tampaknya kompleks tapi sebenarnya sangat redundan, ke dalam ruang yang jauh lebih kompak untuk disimpan.

Seberapa menakjubkan efeknya? Hasil yang diberikan makalah DeepSeek-V2 adalah, dibandingkan model generasi sebelumnya dengan kemampuan yang sama, V2 dengan kemampuan yang lebih kuat mengurangi biaya pelatihan 42,5%, cache KV berkurang 93,3%, throughput generasi maksimum meningkat menjadi 5,76 kali. Contoh yang menghabiskan 488GB tadi, dengan jalur ini, mungkin bisa ditekan ke tingkat beberapa GB.

Tapi yang benar-benar hebat bukanlah berapa banyak yang dihemat, melainkan hampir tidak membayar harga kehilangan detail.

Secara logika, memampatkan buku menjadi satu halaman ringkasan, sekeras apa pun direstorasi, tidak akan mendapatkan kembali semua detail. Tapi dalam eksperimen yang dirilis DeepSeek, ingatan versi terkompresi ini tidak hanya tidak kalah dengan perhatian standar "menyalin seluruh buku", bahkan dalam beberapa kasus sedikit lebih baik.

Sampai V4, jalur ini didorong ke skenario konteks panjang yang lebih ekstrem: V4-Pro menggunakan arsitektur perhatian hibrida, dalam pengaturan konteks 1 juta Token, dibandingkan generasi sebelumnya hanya membutuhkan 27% daya komputasi inferensi dan 10% penggunaan cache.

Untuk merasakan betapa sulitnya ini, harus tahu bahwa ini seperti melakukan operasi pada pesawat yang sedang terbang. Mengubah mekanisme perhatian berarti menulis ulang logika komputasi paling dasar model, melatih ulang seluruh model, membuat ulang seluruh sistem layanan yang mendukungnya. Salah satu bagian salah, kecerdasannya hancur. Ini bukan mengganti pentil ban, ini operasi otak.

Dan DeepSeek berhasil, membuat AI setelah operasi lebih sehat daripada sebelum operasi.

Tebasan Kedua dan Ketiga: Memasang Lemari Penyimpanan Bernomor pada Mesin

Tebasan pertama menaklukkan ingatan. Tebasan kedua, menangani "tubuh" yang besar itu.

Cara berpikir tebasan ini, DeepSeek bukan pencipta pertama, melainkan melanjutkan jalur tua yang jelas: pakar campuran (MoE), mengacu pada struktur yang membagi model menjadi banyak "pakar", setiap kali hanya memanggil beberapa di antaranya.

Konsep ini sudah ada sejak 1991, diperkenalkan ke jaringan neural oleh Shazeer dkk tahun 2017, kemudian GShard Google, Switch Transformer memindahkannya ke Transformer; yang benar-benar membuatnya terkenal adalah Mixtral 8x7B perusahaan Prancis Mistral akhir tahun 2023 - yang hanya membagikan tautan torrent saat dirilis - total parameter sekitar 46,7 miliar, tapi setiap kata yang diproses hanya mengaktifkan sekitar 12,9 miliar.

Kembali ke rumah sakit "periksa gigi tapi mengganggu seluruh rumah sakit". MoE mengubahnya menjadi rumah sakit dengan departemen yang jelas: Anda periksa gigi, resepsionis langsung mengarahkan Anda ke departemen gigi, dokter departemen lain melakukan apa yang harus mereka lakukan. Jumlah total rumah sakit tetap besar, total parameter bisa ratusan miliar, ribuan miliar, tapi yang benar-benar bergerak setiap kali hanya sebagian kecil.

DeepSeek dalam V3 mendorong jalur ini ke skala yang cukup agresif, di era V4 lebih ekstrem - V4-Pro adalah 1,6 triliun total parameter, 49 miliar parameter aktif; V4-Flash adalah 284 miliar total parameter, 13 miliar parameter aktif. Artinya, "total tubuh" model terus membesar, tapi bagian yang benar-benar bergerak setiap langkah, masih ditekan dalam porsi kecil.

Tapi kecerdasan sebenarnya dari tebasan kedua tidak hanya "menggerakkan lebih sedikit dokter". Ini sekaligus mengubah cara model mengakses "tubuh" ini.

Di sini bisa digambarkan dengan gambaran yang lebih tepat. Model besar sebelumnya seperti ruang penyimpanan besar tapi tidak teratur: semua barang ditumpuk bersama, setiap kali hanya ingin mengambil satu, harus membuka pintu lebar-lebar, mulai dari lapisan paling bawah, membalik semua barang baru ketemu. Agar pencarian ini cukup cepat menghadapi pelanggan yang banyak, Anda hanya bisa memindahkan seluruh ruang penyimpanan ke "toko di pusat kota" termahal - yaitu memori bandwidth tinggi.

DeepSeek mengubah ruang penyimpanan ini menjadi lemari dengan puluhan ribu kotak, setiap kotak diberi nomor. Ingin menggunakan barang apa, tekan nomornya langsung tarik kotak yang sesuai, tidak menyentuh yang lain sama sekali. Ini berarti, Anda tidak perlu lagi menumpuk semua barang di lemari di toko termahal. Sebagian besar kotak yang sementara tidak digunakan, bisa dimasukkan ke memori biasa (LPDDR) yang jauh lebih murah, bahkan ke hard disk solid yang lebih murah, saat dibutuhkan baru cepat memanggil kotak itu. Terkait pemindahan dan pemuatan streaming semacam ini, ekosistem DeepSeek dan sistem inferensi open source seperti SGLang terus mengeksplorasi.

Sampai di sini, sinergi dua dari tiga tebasan terlihat: tebasan pertama mengecilkan "ingatan", tebasan kedua memberi "tubuh" nomor, hanya mengambil kotak yang seharusnya diambil. Dua tebasan digabungkan, mesin ini setiap saat, bagian yang benar-benar perlu menempati memori termahal, ditekan sangat rendah.

Tebasan ketiga, mendorong logika "menggunakan sesuai nomor" ini ke tingkat paling ekstrem: bahkan tindakan "komputasi" bisa dihemat. Beberapa hasil komputasi sebenarnya bisa dihitung sebelumnya, disimpan sebagai kotak bernomor, saat digunakan langsung diambil, tidak perlu dihitung ulang setiap kali. Seperti orang yang hafal tabel perkalian, tidak akan menghitung tujuh kali delapan dengan jari setiap kali, langsung menjawab lima puluh enam. Ini sama dengan menggunakan "pengambilan" (membaca memori) dengan biaya sangat rendah, menggantikan "komputasi keras" (komputasi chip) dengan biaya sangat tinggi.

Dalam V4, tebasan ini memiliki ekspresi komersial yang lebih langsung: harga cache hit ditekan sangat rendah, penggunaan ulang konteks panjang langsung ditulis ke sistem harga - komputasi berulang tidak hanya bisa dihemat secara teknis, secara komersial juga didorong untuk dihemat.

Melihat tiga tebasan bersama, mereka bukan tiga hal terpisah, melainkan kemajuan bertahap dari logika yang sama: mengubah kekacauan yang harus dibolak-balik menjadi sistem di mana semuanya bisa diambil dengan tepat sesuai nomor. Ingatan ditekan minimal, tubuh hanya dibangkitkan yang seharusnya dibangkitkan, komputasi bisa cari tabel tidak usah hitung ulang. Setiap tebasan membuat mesin ini menggunakan hardware termahal lebih sedikit, tiga tebasan digabungkan, menjalankan pekerjaan yang sama, konsumsi hardware tercanggihnya hanya sisa sedikit dari sebelumnya.

Murah Sampai Seberapa

Mei 2026, DeepSeek mengumumkan mengubah harga diskon 75% sebelumnya dari V4-Pro menjadi harga jangka panjang, membuka perbedaan besar antara harga cache hit, cache miss, dan output Token. Pentingnya harga cache hit karena membuat tebasan ketiga DeepSeek langsung menjadi aturan komersial: konteks yang sudah dihitung, tidak boleh ditagih berulang kali sebagai "pekerjaan baru".

Dibandingkan dalam tagihan nyata, barulah terlihat perbedaannya. Menghitung aplikasi skala menengah yang menjalankan satu miliar token per bulan, pekerjaan yang sama: menggunakan DeepSeek V4-Pro, tagihan bulanan sekitar 522 dolar; mengganti dengan Claude Opus 4.7, sekitar 9.000 dolar; mengganti dengan GPT-5.5, sekitar 10.000 dolar. Perbedaannya tujuh belas sampai sembilan belas kali.

Lihat lagi skenario ekstrem tapi umum: asisten pemrograman konteks panjang, membaca berulang basis kode 100.000 Token seratus kali. Dengan cache hit yang hampir gratis, DeepSeek hanya menghabiskan sekitar 0,036 dolar untuk sekali ini; pekerjaan yang sama, GPT-5.5 dan Claude Opus 4.7 masing-masing sekitar 5 dolar - berbeda lebih dari seratus kali.

Harga ini sangat murah, tapi ini bukan merugi untuk menarik perhatian, melainkan mesin yang dimodifikasi ini memang berjalan sangat hemat - biaya yang dikerjakan orang China sedikit demi sedikit dengan rekayasa. Dua tahun lalu Liang Wenfeng berbicara tentang penetapan harga mengatakan, prinsipnya adalah "tidak menambah uang, juga tidak mengambil keuntungan besar". Sebenarnya harus dipahami seperti ini: ketika struktur biaya Anda dan orang lain sama sekali tidak dalam garis yang sama, penetapan harga Anda juga tidak dalam rentang yang sama.

Tentu, modifikasi ini bukan tanpa risiko. Misalnya memindahkan beban ke memori dan hard disk murah, penelitian yang ada menunjukkan, pemindahan yang sering mungkin merugikan dalam konsumsi daya, penundaan, dan kompleksitas penjadwalan. Dalam beberapa kasus, total biaya sistem per kata yang dihasilkan belum tentu lebih rendah, kecuali hardware, software stack, dan media penyimpanan dioptimalkan lebih lanjut. Jadi tiga tebasan ini adalah keseimbangan yang sangat sulit diukur, bukan hemat uang tanpa berpikir. Tapi arahnya pasti: menggunakan sumber daya murah, yang lebih mudah diperoleh sendiri, menggantikan sumber daya yang paling mahal, paling dicekik tenggorokannya.

Menghitung "Satu Triliun" Menjadi Pembukuan yang Terlihat

Setelah membicarakan banyak "hemat", lebih baik mengubahnya menjadi gambaran yang lebih intuitif: berapa pusat komputasi cerdas yang bisa dibangun lebih sedikit?

Pertama lihat arus Token. Data nasional adalah, hingga Maret 2026, panggilan Token harian China sudah melebihi 140 triliun, meningkat lebih dari seribu kali dibandingkan awal 2024. Dalam standar industri, hanya model besar Doubao saja, penggunaan harian bulan yang sama juga melampaui 120 triliun. Meski batasan statistik berbeda, tapi keduanya bersama-sama menjelaskan satu hal: konsumsi Token AI China sudah masuk operasional harian ratusan triliun, dan sedang berkembang cepat menuju ribuan triliun. Jadi, 500 triliun Token/hari, bisa dilihat sebagai langkah berikutnya yang tidak lama lagi; dan 5.000 triliun Token/hari, adalah skenario arus tinggi setelah agen cerdas, multimodal, pembuatan kode sepenuhnya diluncurkan.

Dalam konteks ini, melihat lagi biaya pusat komputasi, nilai DeepSeek baru menonjol. Tahun 2025, China Unicom mulai membangun pusat inferensi komputasi cerdas seribu kartu di Wuhan, investasi tahap pertama hampir 200 juta yuan. Kita bisa kasar melihatnya sebagai sampel investasi pusat inferensi seribu kartu: satu pusat seperti itu, sekitar 200 juta yuan.

Dan menurut peningkatan efisiensi DeepSeek V4, setidaknya dalam skenario konteks panjang yang dikuasainya, perubahan yang diberikan bukan lagi optimisasi belasan persen, melainkan peningkatan efisiensi hardware tingkat beberapa kali lipat. Kita tidak ambil standar paling agresif, melainkan asumsi yang lebih konservatif, lebih mudah dipahami: tiga jurus andalan V4 ini, membuat throughput Token efektif dari batch hardware yang sama meningkat 4 kali lipat. Artinya, pekerjaan yang sebelumnya membutuhkan 4 pusat, sekarang 1 pusat cukup, 3 pusat di tengah berkurang, setara menghemat 75% investasi hardware efektif.

Perhatikan, DeepSeek bukan sekadar menggunakan lebih sedikit penyimpanan. Justru sebaliknya, mereka menggunakan penyimpanan dengan baik - menggunakan perhatian terkompresi, aktivasi sesuai kebutuhan, cache hit, dan penjadwalan inferensi, menggunakan waktu GPU dan memori termahal lebih keras. Yang benar-benar dihemat adalah, dalam throughput Token yang sama, hardware tambahan yang seharusnya dibeli.

Lalu, satu triliun dolar sesuai dengan apa? 1 triliun dolar setara dengan sekitar 7 triliun yuan. Menurut perhitungan setiap pusat inferensi seribu kartu 200 juta yuan, 7 triliun yuan setara dengan 35.000 pusat seperti itu. Jika jalur V4 membawa peningkatan throughput efektif 4 kali lipat, harus membangun lebih sedikit 35.000 pusat efektif seperti itu, sesuai dengan arus Token harian sekitar 5.000 triliun.

Inilah gambaran industri yang sesuai dengan "satu triliun dolar" yang disebut dalam artikel ini. Ini bukan perhitungan tepat dalam dokumen tender rekayasa, melainkan pembukuan skala infrastruktur, sesuai juga dengan skenario arus masa depan bertahun-tahun, bukan arus yang sudah terwujud saat ini. Yang benar-benar ingin dijelaskan adalah: di era panggilan rendah, peningkatan efisiensi menghemat beberapa kartu, beberapa rak; di era ribuan triliun Token/hari, peningkatan efisiensi menghemat ribuan pusat komputasi cerdas yang seharusnya berdiri.

Jadi, yang benar-benar diubah DeepSeek bukan harga satu panggilan, melainkan pembukuan infrastruktur AI masa depan.

Mereka Membalikkan Tren Berbahaya

Sekarang, kembali ke mesin di awal. Masih ingat? Dari 7,8 juta dolar Vera Rubin, 2 juta dolar ditekan pada memori, dan bagian ini masih naik gila-gilaan. Ini mengungkapkan tren berbahaya - nilai seluruh industri, semakin banyak, tidak sehat, terikat mati pada chip memori. Padahal memori, seharusnya tidak didorong semahal ini.

Banyak orang salah mengira DeepSeek "mengikuti" tren ini, karena mereka juga banyak menggunakan memori. Justru sebaliknya, DeepSeek membalikkannya. Cara lama menelan hardware secara pasif, tidak efisien, menumpuk nilai terbalik pada chip, membiarkan memori didorong oleh gelombang kenaikan harga; DeepSeek pertama-tama menggunakan tiga tebasan untuk menekan permintaan nyata terhadap hardware secara besar-besaran, kemudian sisa permintaan sedikit, dialokasikan dengan cerdas ke tingkat penyimpanan termurah, paling sesuai. Yang pertama "didorong harga", yang kedua "hitung pembukuan dulu, baru putuskan belanjanya di mana".

Perbedaan ini sangat penting bagi China. Karena ini memindahkan medan pertempuran dari tempat kita dalam posisi lemah, ke tempat kita lebih punya peluang menang. Chip komputasi paling canggih, kita sementara belum bisa mengejar. Tapi chip penyimpanan seperti memori, justru kemampuan yang ditingkatkan China tahun ini secara nyata.

Pemimpin DRAM domestik ChangXin Memory, kuartal pertama 2026 pendapatannya mencapai 50,8 miliar yuan, laba bersih sekitar 25 miliar yuan, perusahaan memperkirakan laba bersih semester pertama mencapai 66 hingga 75 miliar yuan, setara dengan laba bersih ByteDance tahun lalu dalam setengah tahun. Meski ChangXin di pasar DRAM global masih kursi keempat, tapi kapasitas produksi domestik yang sebelumnya hampir nol ini, tahun ini akhirnya berdiri.

Dan ini, justru makna strategis tiga tebasan DeepSeek. Ini bukan "mengganti komputasi dengan penyimpanan", melainkan mengurangi ketergantungan marjinal pada komputasi paling langka, dan memindahkan sebagian tekanan ke penyimpanan, cache, dan rekayasa sistem yang lebih bisa diperoleh. Ketika satu mesin AI lebih mengandalkan memori, cache, penjadwalan, dan rekayasa sistem yang lebih berpeluang kita kuasai, rantai pasokan China yang ada, tiba-tiba dari "terkendala di mana-mana" menjadi "cukup", bahkan "bagus". Ini sangat meningkatkan keamanan seluruh rantai.

Kesimpulan

Seorang Liang Wenfeng yang menjadikan "menghilangkan ketidakefisienan" sebagai naluri, tidak akan puas hanya membuat suatu model sedikit lebih murah. Yang dia incar adalah ketidakefisienan terbesar di seluruh industri AI - premis "ingin kecerdasan lebih kuat, harus bergantung pada hardware paling canggih, paling langka, paling mahal" yang dianggap seluruh industri sebagai hal wajar.

Jika dia bisa membuat seluruh industri, menggunakan hardware tercanggih jauh lebih sedikit menyelesaikan hal yang sama, yang dia hemat untuk industri adalah basis kapasitas virtual tingkat triliunan - tidak menempati satu inci pun pabrik, tapi benar-benar melepaskan investasi besar yang seharusnya dihabiskan untuk hardware. "Satu triliun" itu, dengan demikian bukan lagi cerita valuasi, melainkan pembukuan infrastruktur.

Menulis DeepSeek sebagai "menghilangkan NVIDIA dengan algoritma" adalah mitos murahan lainnya. Tapi jika bertanya dengan cara lain, jawabannya menarik: mungkinkah DeepSeek membuat industri membeli lebih sedikit hardware termahal, menggunakan lebih sedikit memori paling langka, membayar lebih sedikit biaya inferensi yang sebelumnya dianggap wajar? Mungkin. Mungkinkah mereka mendistribusikan kembali nilai infrastruktur AI, dari narasi GPU high-end tunggal, ke struktur model, sistem inferensi, manajemen cache, penjadwalan penyimpanan, dan optimisasi rekayasa? Mungkin juga. Inilah makna industri sebenarnya.

Revolusi teknologi sebenarnya, seringkali bukan membuat segalanya lebih mahal, melainkan membuat hal yang sebelumnya hanya bisa digunakan sedikit orang, tiba-tiba menjadi infrastruktur sehari-hari yang bisa dijangkau kebanyakan orang. Dari dimensi lebih besar, yang penting dalam permainan ini bukanlah berapa banyak uang yang dihemat, melainkan hemat uang ini, diam-diam mengembalikan tiket menuju masa depan, ke ribuan industri China yang perlu diberdayakan AI.

(Artikel ini disusun berdasarkan data publik dan diskusi industri. Beberapa penilaian prospektif dalam artikel, seperti nilai penggantian infrastruktur tingkat triliunan, pertimbangan efisiensi energi hardware, konversi biaya efektif, dll., termasuk pandangan dalam perkiraan dan kontroversi industri, bukan fakta yang sudah ditetapkan, harap pembaca melihat dengan hati-hati.)

Artikel ini dari akun WeChat "胡说成理", penulis: Hu Zhe

Kripto yang Sedang Tren

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

ZRX（0X）ZRX

PancakeSwapCAKE

Pertanyaan Terkait

QApa tiga inovasi utama DeepSeek V4 untuk meningkatkan efisiensi infrastruktur AI?

ADeepSeek V4 menggunakan tiga pendekatan utama: Pertama, kompresi memori (KV Cache) melalui perhatian laten multi-head (MLA) untuk mengurangi beban memori HBM yang mahal. Kedua, arsitektur campuran ahli (MoE) yang hanya mengaktifkan sebagian kecil parameter saat inferensi. Ketiga, penggunaan kembali cache dan penjadwalan inferensi untuk menghindari komputasi berulang.

QBagaimana DeepSeek dapat mengurangi ketergantungan industri AI Tiongkok pada hardware yang mahal?

ADeepSeek mengurangi ketergantungan dengan menurunkan kebutuhan akan memori HBM (High Bandwidth Memory) yang sangat mahal melalui optimasi perangkat lunak dan arsitektur model. Dengan meningkatkan efisiensi token per hardware hingga 4 kali lipat, industri dapat mencapai output yang sama dengan investasi hardware 75% lebih sedikit, sehingga mengalihkan tekanan ke komponen yang lebih terjangkau seperti memori biasa (DRAM/LPDDR).

QMengapa penghematan hingga satu triliun dolar disebutkan dalam artikel sebagai dampak potensial DeepSeek?

AEstimasi satu triliun dolar didasarkan pada proyeksi investasi global AI hardware sebesar 5,2 triliun dolar hingga 2030 oleh McKinsey. Jika teknologi DeepSeek (yang meningkatkan efisiensi hardware 4x) diadopsi luas di Tiongkok, hal ini dapat menghemat 75% investasi hardware yang setara. Dalam skenario konsumsi harian 5.000 triliun token, penghematan ini dapat mencapai tingkat triliunan dolar.

QApa signifikansi strategis teknologi DeepSeek bagi keamanan rantai pasokan AI Tiongkok?

ATeknologi DeepSeek menggeser ketergantungan dari GPU dan HBM canggih (yang dikuasai vendor asing) ke memori biasa (DRAM/LPDDR) dan optimasi rekayasa sistem, di mana industri Tiongkok lebih kompetitif (misalnya melalui ChangXin Memory). Ini meningkatkan ketahanan rantai pasokan dan mengurangi risiko pembatasan akses ke teknologi asing yang sensitif.

QBagaimana perbedaan harga antara DeepSeek V4-Pro dan model pesaing seperti GPT-5.5 dalam skenario dunia nyata?

ADalam aplikasi skala menengah (10 miliar token/bulan), DeepSeek V4-Pro berbiaya sekitar 522 USD, sementara GPT-5.5 sekitar 10.000 USD (19x lebih mahal). Untuk skenario pembacaan berulang kode 100.000 token sebanyak 100 kali, DeepSeek hanya memerlukan 0,036 USD berkat cache yang sangat murah, dibandingkan 5 USD untuk GPT-5.5 (perbedaan >100x).

Bacaan Terkait

Cara Mengenali Penipuan Kripto atau Rug Pull?

Bayangkan menemukan token baru yang menjanjikan dengan ribuan pemegang, harga naik, dan komunitas aktif. Semuanya tampak sah hingga likuiditas tiba-tiba lenyap. Begitulah cara *rug pull* dimulai. Para pengembang membangun kepercayaan melalui likuiditas terkunci dan kontrak yang diserahkan, lalu menciptakan buzz di media sosial. *Rug pull* keras menguras likuiditas sekaligus, sedangkan yang halus mengikis nilai lewat penjualan insider atau roadmap yang ditinggalkan. Peringatan sering muncul bersamaan: konsentrasi kepemilikan tinggi (5-10 dompet menguasai >30% pasokan), kontrak dengan fungsi cetak tersembunyi atau yang dapat di-upgrade, serta perilaku pasar seperti kenaikan harga cepat yang didorong influencer dengan volume organik rendah. Eksploitasi umum meliputi *honeypot* (98.442 kasus) yang memerangkap dana dengan membeli tapi membatasi penjualan, fungsi cetak tersembunyi (60.985 kasus), dan klaim desentralisasi palsu (48.974 kasus). Transparansi melalui penguncian vesting, kode terverifikasi, dan audit pihak ketiga sangat penting untuk mencegah manipulasi.

ambcrypto37m yang lalu

Cara Mengenali Penipuan Kripto atau Rug Pull?

ambcrypto37m yang lalu

XRP Open Interest Capai $2,6B Seiring Permintaan Derivatif Meningkat

Bunga terbuka (open interest) kontrak berjangka XRP telah mencapai $2,6 miliar, meningkat lebih dari 10% dalam 24 jam, menurut data CoinGlass. Posisi ini menempatkan XRP sebagai aset kripto keempat terbesar berdasarkan metrik bunga terbuka derivatif, mengungguli HYBE. Kenaikan bunga terbuka menunjukkan aktivitas derivatif yang meningkat, yang berarti lebih banyak modal masuk ke pasar. Namun, metrik ini tidak secara otomatis mengungkapkan apakah sentimen pedagang bullish atau bearish, karena dapat mencerminkan posisi long, short, lindung nilai, atau perdagangan spekulatif berleverage. Peningkatan pesat ini menandakan XRP kembali menarik perhatian serius di pasar derivatif, kemungkinan didorong oleh ekspektasi terkait struktur pasar, spekulasi ETF, perkembangan terkait Ripple, atau perdagangan momentum. Meski signifikan, lonjakan bunga terbuka saja tidak membuktikan akumulasi spot atau partisipasi institusional langsung. Leverage dari aktivitas derivatif dapat memotong dua arah: mendukung pergerakan harga yang lebih kuat atau justru menciptakan risiko volatilitas dan tekanan likuidasi jika harga berbalik arah. Konfirmasi kunci bagi pihak bullish adalah adanya peningkatan volume perdagangan spot dan permintaan yang sehat di pasar spot bersamaan dengan kenaikan bunga terbuka. Singkatnya, capai $2,6 miliar ini menegaskan XRP sebagai aset yang aktif diperdagangkan di pasar derivatif. Tantangan selanjutnya adalah apakah modal ini akan mendukung tren yang lebih berkelanjutan atau hanya menambah volatilitas di pasar.

bitcoinist1j yang lalu

XRP Open Interest Capai $2,6B Seiring Permintaan Derivatif Meningkat

bitcoinist1j yang lalu

Prediksi harga Bitcoin 2030: Inilah yang harus Anda ketahui tentang bull run berikutnya

Prediksi harga Bitcoin 2030 dan perkiraan siklus bull run berikutnya Bitcoin (BTC) berada dalam tren bearish sejak 10 Oktober 2025. Analisis dari CEO Alphractal, Joao Wedson, menunjukkan bahwa dasar pasar diperkirakan terjadi pada paruh pertama Oktober 2026, di kisaran $41.5k-$45k, berdasarkan simetri historis. Mengacu pada siklus sebelumnya, Bitcoin mungkin akan terkoreksi hingga level retracement Fibonacci $39.1k. Dari titik itu, aset kripto terkemuka ini berpotensi melanjutkan tren naik jangka panjang dan mencapai level ekstensi Fibonacci 61.8% di $152.3k. Secara keseluruhan, prediksi harga untuk 2030 adalah di kisaran $200k-$220k. Namun, siklus ini diperkirakan membutuhkan waktu lebih lama dibandingkan tahun 2020. Aliran stablecoin ke bursa juga merupakan indikator kunci untuk dipantau, karena masuknya dana yang kuat dibutuhkan untuk mendorong momentum bullish.

ambcrypto2j yang lalu

Prediksi harga Bitcoin 2030: Inilah yang harus Anda ketahui tentang bull run berikutnya

ambcrypto2j yang lalu

BTC Market Pulse: Minggu ke-30

Bitcoin (BTC) berhasil bangkit dari level di bawah $58K untuk menguji $65K, sebelum memasuki fase konsolidasi di sekitar $64,5K. Momentum naik mendingin dan volume spot tetap rendah, menunjukkan pasar masih mencari titik keseimbangan yang lebih kokoh. Sentimen mulai membaik dengan minat spekulatif kembali perlahan, terlihat dari peningkatan open interest futures dan opsi serta aliran pembelian bersih di pasar perpetual. Permintaan untuk lindung nilai downside juga berkurang. Aktivitas on-chain stabil dengan peningkatan moderat dalam throughput ekonomi dan keterlibatan peserta. Aliran modal tetap hati-hati, namun tekanan jual institusional tampak memudar seiring membaiknya aliran dana ETF spot AS dan posisi ETF yang mendekati titik impas. Secara keseluruhan, pasar tampak semakin seimbang dengan dukungan keyakinan jangka panjang, meski partisipasi spekulatif masih terkendali. Profitabilitas investor yang kuat dan posisi derivatif yang stabil mendukung rezim konsolidasi ini. Namun, peningkatan porsi modal jangka pendek yang sensitif harga dapat meningkatkan potensi volatilitas yang lebih tajam, membuat pasar tetap tangguh tetapi semakin sensitif terhadap perubahan momentum dan tekanan penjualan.

insights.glassnode4j yang lalu

insights.glassnode4j yang lalu

Permintaan spot Bitcoin melemah karena modal baru ragu-ragu meskipun ada arus masuk ETF

Meskipun aliran dana ke ETF Bitcoin spot telah positif sejak 14 Juli, permintaan spot Bitcoin sebenarnya melemah. Data dari CryptoQuant menunjukkan penurunan permintaan spot 30-hari dari -80k BTC menjadi -170k BTC. Harga Bitcoin tertahan di sekitar $65k, didukung oleh penutupan posisi short di pasar derivatif dan tekanan jual pemegang jangka pendek yang berkurang. Analis menyoroti bahwa metrik "Investor Baru Bitcoin" masih berada di level terendah tahunan, menunjukkan masuknya modal baru tidak cukup kuat untuk membalikkan tren. Rasio Profitabilitas Output yang Dihabiskan Pemegang Jangka Pendek (STH SOPR) juga tetap di bawah 1.0, menandakan bahwa pemegang jangka pendek rata-rata masih menjual dengan kerugian. Kesimpulannya, kenaikan harga menuju $65k hanyalah jeda sesaat dari penjualan, bukan awal dari pemulihan bullish. Pasar Bitcoin tampaknya mengalami stabilisasi lokal, bukan pembalikan tren, karena kurangnya partisipasi signifikan dari modal baru dan sentimen yang masih didominasi bearish. Kunci untuk perubahan tren adalah keberhasilan menembus level resistance di $67.3k.

ambcrypto5j yang lalu

Permintaan spot Bitcoin melemah karena modal baru ragu-ragu meskipun ada arus masuk ETF

ambcrypto5j yang lalu

Trading

Spot

Artikel Populer

Cara Membeli ONE

Selamat datang di HTX.com! Kami telah membuat pembelian Harmony (ONE) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli Harmony (ONE) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan Harmony (ONE) AndaSetelah melakukan pembelian, simpan Harmony (ONE) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading Harmony (ONE)Lakukan trading Harmony (ONE) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

589 Total TayanganDipublikasikan pada 2024.12.12Diperbarui pada 2026.06.02

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga ONE (ONE) disajikan di bawah ini.

Mampukah DeepSeek Menghemat 1 Triliun Dolar untuk China?

Abstrak

Satu Triliun Dolar, Dihemat

Dua Boros Bahan Bakar

Tebasan Pertama: Memodifikasi Otak

Tebasan Kedua dan Ketiga: Memasang Lemari Penyimpanan Bernomor pada Mesin

Murah Sampai Seberapa

Menghitung "Satu Triliun" Menjadi Pembukuan yang Terlihat

Mereka Membalikkan Tren Berbahaya

Kesimpulan

Kripto yang Sedang Tren

Pertanyaan Terkait

Bacaan Terkait

Cara Mengenali Penipuan Kripto atau Rug Pull?

XRP Open Interest Capai $2,6B Seiring Permintaan Derivatif Meningkat

Prediksi harga Bitcoin 2030: Inilah yang harus Anda ketahui tentang bull run berikutnya

BTC Market Pulse: Minggu ke-30

Permintaan spot Bitcoin melemah karena modal baru ragu-ragu meskipun ada arus masuk ETF

Trading

Artikel Populer

Cara Membeli ONE

Diskusi

Kategori Populer

Tag Populer