Penulis: Zhao Ying
Sumber: Wall Street Insights
Komersialisasi aplikasi AI sedang berkembang dari penjualan perangkat lunak dan keanggotaan hingga penjualan kapasitas pemanggilan Token. Token di sini adalah unit informasi terkecil yang diproses oleh model besar, sekaligus dasar penagihan, penyelesaian, dan konsumsi API model. Seiring dengan peningkatan volume pemanggilan, Token itu sendiri mulai diperlakukan seperti "persediaan" yang dibeli, diarahkan, dibagi, dan dijual kembali.
Analis Huayuan Securities Chen Liangdong, dalam laporan khusus sektor media yang dirilis baru-baru ini, merangkum perubahan inti sebagai: "Operasi Token sedang membentuk pasar lapisan menengah baru, yaitu mengeksplorasi model distribusi Token, menghubungkan penyedia model besar hulu dengan pengembang, perusahaan, dan individu hilir, pada dasarnya adalah infrastruktur likuiditas dari jaringan grosir hingga ritel Token global."
Latar belakang munculnya bisnis ini tidak rumit: di satu sisi, volume pemanggilan Token di China meningkat pesat, dari 100 miliar per hari pada awal 2024 menjadi 100 triliun pada akhir 2025, dan melampaui 140 triliun pada Maret 2026; di sisi lain, model besar domestik telah meningkat kemampuannya, memasuki tier atas global dalam beberapa peringkat dan volume pemanggilan. Permintaan membesar, model bertambah banyak, dan hambatan transaksi yang sebenarnya menjadi pembayaran, jaringan, antarmuka, kepatuhan, saluran, dan implementasi skenario.
Namun, distribusi Token tidak bisa dipahami hanya sebagai "menjual kembali kuota API". Lapisan keuntungan tertipis berasal dari selisih jual beli, bagian yang lebih tebal berasal dari percepatan inferensi, antarmuka terpadu, rekayasa Prompt sisi perusahaan, penyusunan Agen, pemilihan model, dan integrasi sistem bisnis. Justru karena ambang masuknya tidak terlalu tinggi, risiko pasar ini juga langsung: persaingan yang meningkat, pembiayaan di muka dan piutang macet, serta perubahan kebijakan penyedia model hulu, semuanya akan mempersempit margin keuntungan lapisan menengah.
Token Mulai Memiliki "Grosir" dan "Pengecer"
Rantai dasar distribusi Token mencakup tiga jenis peran.
Hulu adalah pihak model, termasuk seri Seedance ByteDance, seri Qwen Alibaba, seri GLM Zhipu, seri Kimi Moonshot, seri DeepSeek, dll. Mereka adalah penyedia sumber Token.
Tengah adalah platform agen, bertanggung jawab untuk menerima sumber daya model dari hulu, lalu mendistribusikannya ke pengguna akhir. Tugasnya bukan hanya menjual kembali kuota, tetapi juga mengonversi protokol antarmuka model yang berbeda ke format API yang seragam, memungkinkan hilir memanggil berbagai model hanya dengan satu API Key.
Hilir adalah orang yang benar-benar mengonsumsi Token, termasuk pengguna individu, pengembang, klien perusahaan, dan mungkin juga termasuk pelaku distribusi tingkat bawah.
Nilai lapisan menengah ini terkonsentrasi di beberapa tempat: koneksi langsung dalam negeri menurunkan ambang jaringan; satu set kode yang dapat beradaptasi dengan banyak model; mendukung pembayaran individu dan korporat; pembelian dalam jumlah besar mungkin mendapatkan biaya yang lebih rendah; satu platform mengagregasi model yang berbeda seperti GPT, Claude, DeepSeek, Kimi, mengurangi biaya pengembang untuk berulang kali mengintegrasikan.
Jadi, distribusi Token tampaknya beraset ringan, tidak perlu melatih model besar sendiri, juga tidak memerlukan kluster server skala besar. Aset inti menjadi sistem penjadwalan transit API, sumber daya model hulu, saluran pelanggan, dan kemampuan layanan.
Ledakan Volume Pemanggilan, adalah Bahan Bakar Langsung Bisnis Ini
Agar model operasi Token dapat berdiri, pertama-tama harus ada volume konsumsi yang cukup besar.
Volume pemanggilan Token harian China meningkat dari 100 miliar menjadi lebih dari 140 triliun dalam dua tahun, tumbuh lebih dari seribu kali lipat. Ekspansi volume pemanggilan berasal dari implementasi berbagai Agen vertikal, juga dari perusahaan yang menyematkan AI generatif ke dalam lebih banyak alur kerja bisnis.
Data IDC memberikan jalur yang lebih agresif: Jumlah Agen cerdas aktif perusahaan China diperkirakan akan melampaui 350 juta pada tahun 2031, dengan tingkat pertumbuhan tahunan gabungan (CAGR) melebihi 135%; seiring dengan peningkatan kepadatan dan kompleksitas tugas Agen, peningkatan konsumsi Token tahunan Agen cerdas diperkirakan dapat melebihi 30 kali lipat.
Agen eksekusi sudah dapat melihat perubahan ini. Konsumsi Token mingguan OpenClaw di platform OpenRouter, dari 2 Februari hingga 16 Maret 2026 naik dari 0.81T menjadi 4.97T, proporsinya meningkat dari 8.31% menjadi 24.36%.
Begitu Token menjadi barang konsumsi skala besar, pembelian, penetapan harga, perutean, dan penyelesaian di sekitarnya akan secara alami berlapis. Pihak model belum tentu melayani setiap pelanggan secara langsung, pelanggan akhir juga belum tentu mau mengakses model satu per satu, sehingga lapisan menengah memiliki ruang.
Rasio Harga-Kinerja Model Domestik, Membuka Pintu Masuk Token ke Luar Negeri
Peningkatan kemampuan model besar domestik adalah variabel kunci yang mendorong distribusi Token dari dalam negeri melintasi batas negara.
Data SuperCLUE menunjukkan, model domestik seperti ByteDance Doubao, seri DeepSeek telah mencetak skor komprehensif lebih dari 70, menyempitkan jarak dengan model top luar negeri seperti GPT-5.4, Gemini; model seperti Tongyi Qianwen, Kimi, Zhipu GLM juga telah membentuk kelompok yang lebih jelas.
style="text-align: start;">Dalam data OpenRouter, hingga minggu 10 Mei 2026, Hy3 preview(gratis) Tencent menempati posisi teratas volume pemanggilan; di antara lima, sepuluh, dan dua puluh besar, masing-masing ada 2, 6, dan 9 model besar domestik.Perubahan yang lebih signifikan terjadi pada kuartal pertama 2026. Dari 9 hingga 15 Februari, volume pemanggilan mingguan model China di OpenRouter mencapai 4,12 triliun Token, pertama kalinya melebihi model AS pada periode yang sama yang sebesar 2,94 triliun Token. Dari 16 hingga 22 Februari, volume pemanggilan mingguan model China meningkat lebih lanjut menjadi 5,16 triliun Token; empat dari lima model dengan volume pemanggilan tertinggi di platform berasal dari produsen China, masing-masing adalah MiniMax M2.5, Kimi K2.5, Zhipu GLM-5 dan DeepSeek V3.2, bersama-sama menyumbang 85,7% dari total volume pemanggilan Top5.
Keunggulan harga juga sangat menonjol. Harga input MiniMax M2.5 dan GLM 5 keduanya adalah $0,3 per juta Token, sedangkan Claude Opus 4.6 adalah $5; untuk harga output, MiniMax M2.5 adalah $1,1, GLM 5 adalah $2,55, Claude Opus 4.6 adalah $25. Perbedaan rasio harga-kinerja model domestik dalam skenario konsumsi Token tinggi seperti AI Agent dan pengembangan kode akan terus diperbesar.
Ketidakseimbangan Sumber Daya AI Global, Platform Perutean Menjadi "Stasiun Transit"
Distribusi Token tidak hanya menyelesaikan masalah harga, tetapi juga menyelesaikan ketidakcocokan sumber daya.
Model besar top luar negeri terpengaruh oleh batasan akses geografis, aturan kepatuhan, dan hambatan pembayaran, sehingga tidak dapat langsung menjangkau sebagian pengguna termasuk pengembang di Tiongkok Daratan. Model besar domestik berkualitas yang pergi ke luar negeri juga akan menghadapi kesulitan adaptasi lokal, penempatan saluran, dan perolehan pengguna.
Ketidakseimbangan ini melahirkan kebutuhan perputaran lintas batas, agregasi perutean, dan distribusi berlapis.
OpenRouter sudah menjadi contoh khas. Volume Token yang diproses platformnya meningkat dari 5 hingga 7 triliun per minggu pada 2025 menjadi lebih dari 20 triliun per minggu pada April 2026; pendapatan tahunan 2026 melebihi $50 juta, meningkat sekitar lima kali lipat dari lebih dari $10 juta yang diungkapkan pada Oktober 2025.
Di dalam negeri juga ada platform serupa. Silicon Flow adalah platform layanan cloud model besar serba lengkap, berdasarkan mesin inferensi buatan sendiri untuk percepatan inferensi yang efisien, sekaligus menyediakan layanan model besar tingkat perusahaan. Hingga Desember 2025, platform ini memiliki lebih dari 9 juta pengguna terdaftar, lebih dari 10.000 pengguna perusahaan, dan lebih dari 150 model yang diluncurkan.
Bahkan modal terkait politik AS juga memasuki jalur ini. Pada 5 Mei 2026, perusahaan kripto WLFI yang memiliki hubungan erat dengan Trump dan keluarganya bekerja sama dengan WorldClaw meluncurkan WorldRouter, mengintegrasikan lebih dari 300 model termasuk Claude, GPT, Gemini, dengan penyelesaian USD, harga sekitar 30% lebih rendah dari tarif resmi yang diumumkan.
Keuntungan Sebenarnya, Tidak Selalu pada "Selisih Jual Beli"
Distribusi Token memiliki tiga cara menghasilkan keuntungan.
Pertama adalah selisih jual beli. Platform membeli kuota API secara grosir dari penyedia model hulu, lalu menjualnya dengan harga lebih tinggi kepada pelanggan hilir. OpenRouter menambah premium sekitar 5,5% pada biaya pemasok, mewakili model ini.
Kedua adalah premium teknologi. Platform mengurangi biaya operasi per Token melalui mesin percepatan inferensi buatan sendiri, dan ketika harga jual mendekati atau bahkan lebih rendah dari harga resmi, mereka memperoleh margin keuntungan dari perbedaan efisiensi komputasi. Teknologi SiliconLLM dan OneDiff dari Silicon Flow meningkatkan kecepatan inferensi model bahasa hingga 10 kali lipat dan efisiensi teks-ke-gambar hingga 3 kali lipat, mengurangi biaya pemanggilan API model besar hingga 1/10 industri.
Ketiga adalah layanan nilai tambah perusahaan. Biaya penerapan AI bagi perusahaan tidak hanya pada harga satuan Token, tetapi juga termasuk rekayasa Prompt, pemilihan banyak model, integrasi sistem bisnis, penyusunan alur kerja, penjadwalan operasi-pemeliharaan, dan pembangunan kemampuan AI karyawan. Setelah harga dasar Token turun, biaya tersembunyi ini justru lebih mudah menjadi titik pembayaran.
Platform MaaS tingkat perusahaan Silicon Flow mengarah ke arah ini: menyediakan tiga lapisan kemampuan kepada pengguna perusahaan, yaitu pelatihan dan penyesuaian model, penyebaran inferensi, dan dukungan pengembangan aplikasi, mencakup pemrosesan data, penyempurnaan model, rekayasa Prompt, dan RAG, yang akhirnya disampaikan ke industri seperti energi, keuangan, dan pemerintah dalam bentuk API terstandar.
Pemasaran, Drama Pendek, Game, E-dagang, adalah Skenario yang Lebih Mudah Mengonsumsi Token
Untuk menghasilkan uang, distribusi Token akhirnya harus jatuh pada skenario nyata.
Aplikasi AI generatif sedang memasuki industri seperti kesehatan medis, transportasi umum, dan manufaktur industri, juga mulai terlibat dalam proses inti seperti dukungan pengambilan keputusan perusahaan dan manajemen strategis. Namun, dasar transformasi kecerdasan banyak perusahaan lemah, akumulasi aset data tidak mencukupi, investasi daya komputasi terbatas, sehingga tidak mudah untuk langsung menyebarkan kemampuan AI.
Sebaliknya, perusahaan pemasaran dan periklanan sudah memiliki pelanggan dan skenario di tangan mereka, melibatkan bidang-bidang seperti drama pendek, drama komik, game, dan e-dagang, kebutuhan konsumsi Token lebih langsung dan berkelanjutan. Bagi perusahaan semacam ini, peluangnya bukan hanya menjual kembali kemampuan model, tetapi juga menyematkan Token ke dalam proses generasi konten, penempatan, produksi materi, dan visualisasi video klien.
Petunjuk investasi juga mengikuti dua jalur utama:
Satu adalah perusahaan dengan kemampuan model berkualitas, termasuk Alibaba, Tencent Holdings, Kuaishou, Kunlun Tech, Zhipu, MiniMax, dll.
Lainnya adalah perusahaan dengan skenario Token yang kuat dan sumber pelanggan berkualitas, terutama yang memiliki sumber daya pelanggan luar negeri dan skenario pemasaran, serta bersedia secara aktif berinvestasi dalam arah pemasaran AI dan visualisasi video AI, termasuk Yeahmobi, BlueFocus, dll.
Risikanya Juga Keras: Ambang Rendah, Perlu Pembiayaan di Muka, Hulu yang Berkuasa
Model bisnis distribusi Token ringan, tetapi parit pertahanannya tidak secara alami dalam.
Persaingan sejenis adalah risiko lapisan pertama. Ambang teknologi bisnis distribusi rendah, begitu distributor top memasuki pasar dengan keunggulan modal, pelanggan, dan saluran, mereka dapat dengan cepat meniru model, mempersempit ruang keuntungan.
Pembiayaan di muka dan piutang macet adalah risiko lapisan kedua. Distributor sering menggunakan penyelesaian bulanan atau triwulanan untuk pelanggan hilir, tetapi perlu membiayai di muka saat membeli kuota API dari hulu. Semakin besar skala konsumsi Token, semakin besar tekanan pembiayaan di muka; begitu pelanggan menunggak, risiko piutang macet akan membesar secara bersamaan.
Perubahan kebijakan penyedia model hulu adalah risiko lapisan ketiga. Penyedia model besar mengendalikan harga dan aturan akses API, mungkin menyesuaikan harga, juga mungkin memperketat kebijakan akses pihak ketiga. Bagi lapisan menengah, ini adalah bagian yang paling sulit dikendalikan.









