Penulis: Frank Fu, IOSG
Lubang yang diajukan David Cahn pada 2023 itu, tak pernah tertutup di sisi pelatihan. Ia tertutup di sisi inferensi, dan pasar baru mulai memperhitungkannya dalam penentuan harga beberapa minggu terakhir. Ketika Nvidia menyusun ulang laporan keuangannya seputar "token layanan", Cerebras go public dengan oversubscription 20 kali lipat, perdebatan bottleneck telah berakhir. Pertanyaan sesungguhnya adalah: Ketika inferensi menjadi sumber daya langka, di lapisan mana tumpukan komputasi nilainya akan mengendap?
I. Mengikuti Arus GPU: Dari Masalah 200 Miliar Dolar AS ke Masalah 600 Miliar Dolar AS
Pada 2023, David Cahn dari Sequoia mengajukan pertanyaan menggantung di atas seluruh pembangunan AI, yaitu "masalah 200 miliar dolar AS". Untuk setiap 1 dolar yang dihabiskan untuk membeli GPU, diperlukan sekitar 1 dolar lagi untuk memberi daya di pusat data. Oleh karena itu, setiap tahun, CapEx GPU berarti chip-chip tersebut pada akhirnya harus menghasilkan pendapatan sekitar 200 miliar dolar AS untuk menutup modal ini. Bahkan dengan asumsi pendapatan AI yang sangat murah hati, ia masih menemukan lubang lebih dari 125 miliar dolar AS antara "investasi" dan "pembayaran aktual pelanggan akhir". Kekhawatirannya lugas: GPU sedang dibangun secara berlebihan, melebihi kebutuhan riil.
Setahun kemudian, celah tidak menyempit, malah melebar. Dalam tulisan lanjutannya pada 2024, dengan membengkaknya CapEx vendor hyperscale, Cahn mendefinisikannya ulang sebagai "masalah 600 miliar dolar AS". Logika bearish menyatu menjadi bentuk yang familiar: kelebihan konstruksi menyebabkan kelebihan pasokan, dan kelebihan akan membakar modal.
Kedua artikel sebenarnya menanyakan hal yang sama: Siapa yang akan menutup lubang ini? Jawabannya tidak pernah muncul di buku besar sisi "pelatihan". Ia muncul di sisi inferensi, dan pasar baru mulai memperhitungkannya dalam penentuan harga beberapa minggu terakhir.
II. IPO Cerebras dan Tekanan Inferensi
Cerebras go public pada hari Kamis. IPO ini mendapatkan oversubscription 20 kali lipat, harga ditetapkan mendekati dua kali lipat dari harga akhir Rabu. Permintaan bukan berasal dari taruhan "pembunuh Nvidia berikutnya", melainkan dari hal yang lebih sederhana: pasar mulai menyadari bahwa bottleneck sesungguhnya di AI adalah inferensi, bukan pelatihan.
Keahlian unggulan Cerebras adalah arsitektur chip yang membuat inferensi sangat cepat. Bukan pelatihan, melainkan inferensi. Ini adalah hal yang membuat Wall Street bersemangat. Pasar inferensi adalah recurring, ia berkembang seiring penggunaan. Setiap kali Claude menjawab pertanyaan, setiap kali agen menjalankan tugas, komputasi terpakai. Pelatihan hanya terjadi sekali, inferensi tidak pernah berhenti.
J.P. Morgan memperkirakan skala pasar inferensi 10 hingga 50 kali lipat lebih besar daripada pelatihan. Ketika mesin mulai menjalankan tugas yang diberikan oleh mesin lain, yaitu ekspansi tipe agentic, permintaan inferensi tidak lagi berkembang seiring jumlah pengguna, melainkan berkembang seiring komputasi itu sendiri.
III. Peta Baru Nvidia: Inferensi Menjadi Headline
Jika Cerebras adalah kebangkitan pasar, maka laporan keuangan terbaru Nvidia adalah konfirmasi dari ujung rantai pasokan. Dalam konferensi telepon terbaru, Jensen Huang menegaskan kalimat yang telah dipahami bersama: Permintaan AI tumbuh secara parabola. Alasannya sederhana: agentic AI telah tiba. AI arus utama telah bertransisi dari inferensi satu kali, ke penalaran logis, lalu ke tahap agen yang dapat memanggil alat dan mengatur tugasnya sendiri. Huang berkata, "Token kini menguntungkan." Di era AI, komputasi adalah pendapatan dan keuntungan.
Ini membentuk ulang seluruh industri. Pelatihan adalah biaya satu kali untuk membangun model, inferensi adalah biaya berulang untuk menjalankannya, dan bottleneck saat ini ada di inferensi, bukan pelatihan.
Nvidia memasukkan penilaian ini ke dalam pelaporan keuangannya. Mereka kini mengungkapkan berdasarkan dua platform, bukan satu: Data Center (Pusat Data) dan Edge Computing (Komputasi Ujung/Pinggir). Data Center (sekitar 75 miliar dolar AS pada kuartal itu, +92% YoY) dipecah lebih lanjut menjadi Hyperscale (sekitar 38 miliar dolar AS, +12% QoQ) dan ACIE, yaitu AI Cloud, Industri & Perusahaan (sekitar 37 miliar dolar AS, +31% QoQ). Baris baru adalah Edge Computing: 6,4 miliar dolar AS, +29% YoY, mencakup ujung di mana agentic AI dan physical AI benar-benar berjalan, seperti PC, workstation, base station AI-RAN, robot, dan mobil.
Edge saat ini masih menyumbang kurang dari 8% dari total pendapatan, namun Nvidia telah menaikkannya ke status "platform kedua" yang sejajar dengan data center. Sinyal ini adalah: inferensi sedang terpecah menjadi dua front, cloud inference (inferensi awan) di data center, dan endpoint inference (inferensi titik akhir) di sisi edge, di mana AI harus melihat, bergerak, dan bertindak di dunia fisik. Peta jalan mengikuti logika yang sama: Vera Rubin yang mulai dikirim pada kuartal ketiga, throughput inferensi hingga 35 kali lipat dari Blackwell; Huang juga memberikan TAM baru 200 miliar dolar AS untuk Vera CPU yang ditujukan untuk beban kerja agentic. Setiap perusahaan model terdepan diperkirakan akan sepenuhnya beralih ke sana pada hari pertama.
Ketika perusahaan dengan kapitalisasi pasar tertinggi di dunia menyusun ulang pengungkapan finansialnya seputar "token layanan", perdebatan bottleneck telah berakhir. Sisa artikel ini membahas tentang siapa yang akan menguasai nilai ketika inferensi (bukan pelatihan) menjadi sumber daya langka.
Mari lakukan penjelasan lingkup. Di antara dua front ini, artikel ini membahas tentang cloud inference, yaitu GPU data center yang disewa yang menyediakan layanan API token. Endpoint inference berjalan pada chip lokal di dalam perangkat itu sendiri (Jetson, RTX, Drive, AI-RAN milik Nvidia), sama sekali tidak melewati tumpukan penyewaan dan agregasi GPU di bawahnya. Di sini, anggaplah sebagai angin pendorong yang memperbesar ekonomi inferensi secara keseluruhan, mendukung argumen bottleneck, bukan pasar tempat Hyperbolic dan Venice berada. Kedua perusahaan ini sepenuhnya berada di jalur sisi awan.
IV. Tekanan Telah Tiba
Anthropic adalah canary in the coal mine. Penggunaan jauh melampaui kapasitas yang dikonfigurasi sebelumnya, keluhan tentang Claude yang "terlobotomisasi" membanjiri seluruh internet, termasuk balasan yang dibatasi kecepatan, inferensi yang melambat, dan jendela konteks yang dikompresi. Solusinya adalah komputasi telanjang: Mei 2026, Anthropic mengambil alih seluruh data center Colossus 1 dari SpaceX, 220.000+ GPU Nvidia, 300+ megawatt, dan mengkhususkan untuk inferensi, bukan pelatihan.
Bagian kapasitas ini membuka serangkaian perubahan batasan, masing-masing adalah sinyal. 6 Mei, Anthropic menggandakan batas lima jam Claude Code, menghapus pembatasan laju selama jam sibuk, dan secara signifikan meningkatkan batas laju API untuk Opus. 13 Mei, menambah batas mingguan Claude Code sebesar 50% lagi (hingga 13 Juli). Kemudian, mulai 15 Juni, mereka melakukan hal yang berlawanan dengan "murah hati": memisahkan penggunaan agentic dan terprogram (Agent SDK, mode headless claude -p, pipeline CI) dari langganan flat, memasukkannya ke dalam kumpulan kredit yang diukur secara independen (20 hingga 200 dolar AS per bulan, harga dihitung berdasarkan harga API). Langkah terakhir ini merangkum seluruh argumen dalam satu tindakan: agen mengkonsumsi inferensi dengan kecepatan yang jauh melebihi kemampuan desain langganan flat, sehingga harus diberi harga sesuai "biaya berulang" sebenarnya.
Pelatihan adalah pengeluaran modal satu kali. Inferensi adalah biaya operasional berulang, yang terakumulasi secara majemuk dengan setiap pengguna baru, setiap agen baru.
V. Tumpukan Ini: Enam Lapisan, Satu Bottleneck
Setiap aplikasi AI duduk di atas rantai pasokan yang dimulai dari fabrikasi wafer TSMC, dan berakhir di endpoint API:
Sebagian besar perusahaan hanya memiliki satu lapisan. Nvidia memiliki silikon, CoreWeave memiliki bare metal, Together AI memiliki optimasi inferensi, OpenRouter memiliki routing model API.
Hanya satu yang berbeda.
VI. Hyperbolic: Satu-satunya Perusahaan yang Menjangkau Tiga Lapisan
Hyperbolic meluncurkan pasar GPU on-demand-nya pada Juni 2025. Dalam beberapa bulan pertama, jumlah pengembangnya melampaui 200.000+, adopsi mencakup lab AI terdepan, mesin pencari, dan platform konsumen besar.
Yang menarik adalah arsitekturnya.
Hyperbolic sendiri tidak memiliki satu pun GPU. Setiap kartu berasal dari neocloud dan data center, termasuk CoreWeave, Lambda Labs, Nebius, serta operator kecil yang memiliki kapasitas menganggur. Ini terdengar seperti kelemahan, tetapi sebenarnya adalah parit pertahanan.
Dengan duduk di antara penyedia dan konsumen GPU, Hyperbolic dapat melihat data real-time yang tidak dilihat orang lain. Mereka tahu siapa yang membeli GPU apa, dengan harga berapa, dan kapan. Mereka melihat kelebihan pasokan sebelum hal itu menjadi pengetahuan umum, melihat lonjakan permintaan sebelum hal itu menghantam pasar.
Kini, parit pertahanan itu sendiri adalah agregasi multi-cloud ini. Hyperbolic menyatukan kapasitas yang terfragmentasi dari puluhan cloud dan data center independen menjadi satu kolam yang seragam dan terstandarisasi, memungkinkan pengembang menyewa GPU termurah yang tersedia di mana pun tanpa harus bernegosiasi dengan setiap operator atau mengelola banyak akun. Semakin banyak cloud yang dihubungkan, semakin dalam likuiditas, semakin kaya data harga. Selanjutnya, tim sedang mengeksplorasi bagaimana menggunakan data ini untuk memodelkan kurva harga GPU, dan pada akhirnya menginvestasikan modal sendiri untuk meratakan penawaran dan permintaan, memainkan peranan market maker untuk komputasi fisik; tetapi tujuan ini masih dalam tahap awal, yang benar-benar menghasilkan bunga majemuk saat ini adalah lapisan agregasi.
Ini adalah flywheel:
-
Terhubung ke lebih banyak cloud → Lebih banyak pasokan yang diagregasi
-
Lebih banyak pasokan → Pasar yang lebih dalam dan data harga real-time
-
Data yang lebih baik → Routing yang lebih cerdas saat ini, model harga dalam jangka panjang
-
Likuiditas dan harga yang lebih baik → Lebih banyak pengembang → Lebih banyak cloud ingin terhubung
Tidak ada perusahaan lain yang mencoba hal ini. Hyperbolic adalah satu-satunya perusahaan yang sekaligus menjangkau lapisan penyewaan GPU, lapisan deployment, dan lapisan model API.
VII. Cermin Venice
Venice adalah wujud ekonomi inferensi yang paling jelas di lapisan aplikasi, dan juga perbandingan yang berguna dengan posisi Hyperbolic. Ini adalah aplikasi inferensi yang mengutamakan privasi: API yang kompatibel dengan OpenAI, ditambah langganan untuk konsumen (Free / Pro / Pro+ / Max), merutekan permintaan ke sekitar 75 model, sekitar dua pertiga di antaranya adalah model open-source atau self-hosted (Llama, Mistral, Qwen, DeepSeek), sisanya adalah transmisi anonim ke model terdepan yang tertutup. Kuncinya adalah, Venice sendiri tidak memiliki komputasi yang signifikan. Mereka menyewa dari mitra GPU yang tidak diungkapkan dan penyedia komputasi rahasia (NEAR AI Cloud, Phala), dan membayar lab terdepan untuk transmisi, sehingga cost of revenue yang sebenarnya adalah komputasi inferensi, bukan hosting SaaS.
Yang benar-benar dijual Venice adalah privasi. "Privatisasi" di sini bukan mengubah komputasi publik menjadi milik pribadi, melainkan membungkus inferensi yang telah dikomodifikasi dengan jaminan: tidak menyimpan data, tidak digunakan untuk pelatihan, permintaan dianonimkan, sebagian beban kerja berjalan di TEE, sehingga operator pun tidak dapat melihat plaintext. Komputasi dasarnya adalah komoditas, yang dijual dengan harga lebih tinggi adalah bungkus privasi ini. Dan jaminan ini berlapis, tidak homogen: untuk model open-source yang berjalan pada GPU yang mereka kendalikan atau TEE, dapat mencapai komputasi rahasia yang hampir end-to-end; tetapi untuk transmisi anonim ke model tertutup seperti Claude, GPT, privasi hanya berupa pelepasan identitas, di sisi lab terdepan masih memproses prompt asli Anda. Jadi privasi terkuat hanya mencakup bagian open-source, bagian model terdepan adalah "anonim" bukan "rahasia sejati". Margin kotor Venice = harga langganan − biaya inferensi yang dibayarkan ke hilir, dan sebagian besar dari selisih harga yang dapat mereka kenakan dibandingkan dengan harga API telanjang ditopang oleh premi privasi ini, yang juga menjadi alasan mengapa marginnya tipis dan bergantung pada harga transmisi terdepan.
Desain token membungkus kebutuhan inferensi ini. Venice berjalan pada dua token: VVV (staking dan akses platform) dan DIEM, yang merupakan kredit inferensi, setiap DIEM kira-kira setara dengan 1 dolar AS komputasi per hari. Langganan berbayar memicu pembelian ulang dan penghancuran terprogram VVV (Pro / Pro+ / Max masing-masing sekitar 2 / 5 / 10 dolar AS), emisi mengikuti jadwal tetap yang menurun: 6M → 5M → 4M VVV per bulan, dan akan diturunkan menjadi 3M pada 1 Juli. Pembelian ulang nyata, tetapi bersifat diskresioner dan masih kecil: sekitar 103 ribu dolar AS masing-masing pada April dan Mei, Juni perlahan mendekati sekitar 110 ribu dolar AS, masih jauh di bawah garis 200 ribu dolar AS per bulan.
Fundamental lebih sehat dari headline. Angka "70 juta dolar AS ARR" yang beredar luas hampir pasti merupakan hasil dari kesalahan menganggap perpanjangan langganan sebagai perolehan pelanggan baru bersih; interval yang dapat dipertahankan secara lebih baik mendekati 6 hingga 15 juta dolar AS ARR. Di bawahnya, traksi nyata: sekitar 136.000 alamat pemegang token, sekitar 9,9 juta kunjungan situs web per bulan (sekitar 330 ribu per hari), langganan Pro baru berkisar di sekitar garis 1.400 per hari. Ini adalah bisnis nyata, tetapi bisnis dengan margin tipis, yang ekonominya dibatasi oleh komputasi yang mereka beli.
Inilah mengapa Hyperbolic berada satu lapisan di atasnya. Jika Venice adalah pompa bensin, Hyperbolic adalah kilang minyak. Venice membeli komputasi dari pasokan terbatas yang sama yang diandalkan semua orang; Hyperbolic mengagregasi, menstandarisasi pasokan terfragmentasi itu, lalu menjualnya kepada Venice dan semua pemain lain seperti itu. Seiring pertumbuhan permintaan inferensi, nilai tidak hanya terakumulasi ke aplikasi yang mengkonsumsi komputasi, tetapi lebih ke lapisan yang mengagregasi dan merutekan komputasi, dan menguasai cost of revenue yang dibayarkan oleh aplikasi-aplikasi itu.
VIII. Mengapa Hal Ini Penting Saat Ini
Nvidia menyusun ulang keuangan seputar "token layanan". IPO Cerebras membuktikan pasar telah memahami inferensi adalah bottleneck. Anthropic mencari kapasitas ke mana-mana, membuktikan ini adalah masalah nyata. Agentic dan physical AI akan memperbesar permintaan dalam beberapa orde magnitudo, melintasi dua front awan dan ujung/pinggir.
Dan hal ini juga menutup lingkaran "masalah 600 miliar dolar AS" dari sisi lain. Logika bearish Cahn, yaitu kelebihan konstruksi, lalu kelebihan pasokan, pada akhirnya kemungkinan akan terbukti benar. Tetapi kelebihan pasokan justru adalah kondisi optimal bagi agregator ringan: Ketika harga GPU turun, pasokan terfragmentasi tersebar di puluhan cloud, pemain yang tidak memiliki perangkat keras apa pun, yang merutekan setiap beban kerja ke kartu termurah yang tersedia akan menghasilkan selisih harga, sementara operator yang memiliki GPU yang terus terdepresiasi menanggung kerugian. Hyperbolic bertaruh pada kelebihan pasokan, bukan melawannya.
Perusahaan yang akhirnya menang, bukanlah yang memiliki GPU terbanyak, melainkan yang dapat memberitahukan GPU mana yang tersedia di mana, dengan harga berapa, dan merutekan setiap beban kerja ke tempat yang dapat dijalankan dengan biaya terendah.
Hyperbolic sedang membangun perusahaan seperti itu. Tidak memiliki GPU sendiri, sepenuhnya perangkat lunak, menjangkau tiga lapisan, tetapi membangunnya menjadi lapisan agregasi komputasi inferensi yang definitif.







