Ditulis oleh: @KSimback
Diterjemahkan oleh: AididiaoJP
Skenario Asumsi: Apa yang Terjadi jika Model Terdepan Tiba-tiba Diblokir?
Waktu bergulir ke Oktober 2026, hanya empat bulan dari sekarang. GLM-6 baru saja dirilis, mengungguli Fable-5.1 (versi terbatas dari model yang diblokir) dalam tes benchmark utama, dan setara dengan Mythos. Pemerintah AS tidak dapat langsung mematikannya, sehingga mengeluarkan serangkaian larangan: melarang penyedia mana pun di dalam wilayah AS atau kepada warga Amerika untuk menyediakan model GLM-6, pembaruan, layanan inferensi, pengelolaan deployment, atau dukungan teknis.
Amazon Bedrock, Google Vertex, Microsoft Azure dengan cepat menyatakan kepatuhan, menolak untuk menghosting model tersebut untuk klien korporat. Platform agregator utama seperti OpenRouter, Vercel, Cloudflare, TogetherAI dll juga setuju untuk tidak memasangnya. GitHub membersihkan semua jejak terkait di platformnya. Hugging Face sebagai penahan terakhir, akhirnya juga menghapus semua unduhan model terkait GLM-6.
Skenario ini meskipun bukan hasil ideal yang kita harapkan, namun dalam dunia di mana model AI berkembang secara eksponensial sementara kebijakan bergerak seperti siput, ini adalah akhir yang sepenuhnya masuk akal.
Hasil seperti ini, atau skenario lain di mana AI terdepan masih dimonopoli oleh segelintir entitas terpusat, adalah alasan mendasar mengapa AI terdesentralisasi sangat penting.
Artikel ini adalah kelanjutan dari panduan awal penulis sebelumnya "Proof of Useful Work", menggunakan pendekatan pragmatis yang sama, berfokus pada sudut kunci lain crypto-AI (keduanya memiliki sebagian tumpang tindih). Penulis membongkar secara mendalam masalah yang harus dipecahkan oleh AI terdesentralisasi, proyek yang sedang dilacak, kerangka due diligence, serta penilaian pribadi setelah penelitian mendalam.
Mengapa Inferensi Terdesentralisasi Sangat Diperlukan?
Mengikuti skenario di atas, Anda mungkin sudah mengaitkannya dengan inferensi terdesentralisasi. Jika belum, mari kita lanjutkan penalarannya.
Bobot model GLM-6 begitu dirilis, salinannya akan langsung menyebar ke seluruh internet — larangan atau tindakan perbaikan apa pun tidak dapat menghilangkan ribuan salinan yang sudah ada sekarang. Salinan ini akan dilayani di jaringan inferensi terdesentralisasi, karena di sana tidak ada otoritas pusat yang dapat mengambil tindakan terhadapnya, dan tidak ada node tunggal yang jika diblokir akan melumpuhkan seluruh jaringan.
Saya ingin memperjelas satu hal: Saya tidak berdebat apakah ini baik atau buruk. Jika model open-weight baru dirilis dan berpotensi menyebabkan kerusakan serius karena disalahgunakan, saya tidak akan pernah menyarankan untuk hanya diam. Yang ingin saya tekankan adalah: model pada akhirnya akan diakses oleh mereka yang tidak ingin disensor, ini tidak terhindarkan.
Inilah premis inti inferensi terdesentralisasi — ia adalah lindung nilai (hedge) melawan sensor otoritas, baik dari pemerintah maupun lab terdepan. Keunggulan penjualan lainnya, seperti token yang lebih murah, inferensi yang dapat diverifikasi, perlindungan privasi, semuanya sekunder. Taruhan intinya hanya satu: mengurangi risiko sensor.
Inferensi Terdesentralisasi Sangat Sulit, Empat Tantangan Besar Menghadang
Bagi sebagian besar startup, menyelesaikan satu atau dua masalah sudah merupakan tantangan besar. Proyek inferensi terdesentralisasi harus mengatasi empat masalah yang benar-benar sulit secara bersamaan. Bagaimana setiap proyek menangani masalah-masalah ini adalah kunci untuk membedakan substansi dari gelembung, alpha dari noise.
Tantangan 1: Menjalankan Model yang Tidak Muat dalam Mesin Tunggal
Ide intinya adalah membangun kluster GPU (swarm), memanfaatkan pipeline parallelism untuk melayani model yang benar-benar diinginkan pengguna. Secara sederhana, setiap node hanya memegang sepotong kecil irisan bobot model, serta bagian cache KV-nya sendiri, potongan ini cukup kecil untuk dimasukkan ke dalam GPU konsumen 3090/4090, atau bahkan spesifikasi lebih tinggi seperti H100. Dengan menggabungkan node yang cukup banyak, model besar seperti GLM dapat dihosting.
Petals sejak 2022 sudah membuktikan kelayakan metode ini dengan BLOOM-176B di GPU konsumen menggunakan swarm gaya BitTorrent, namun kecepatannya saat itu hanya sekitar 1 token per detik. Jelas kecepatan ini sama sekali tidak dapat digunakan, sehingga inovasi selanjutnya berfokus pada bagaimana membuat model berjalan lebih cepat.
Kendala yang benar-benar mematikan adalah jaringan. Di dalam pusat data, GPU berkomunikasi melalui NVLink dengan kecepatan terabyte per detik; sementara di internet publik, latensi bolak-balik (RTT) bisa mencapai puluhan milidetik. Proses decoding berjalan berurutan, swarm yang naif harus membayar satu kali perjalanan jaringan untuk setiap token yang dihasilkan.
Solusi paling umum adalah speculative decoding: model draft kecil dan murah terlebih dahulu mengusulkan K kandidat token, model besar yang di-sharded kemudian memverifikasi K token ini dalam satu lintasan pipeline, lalu mempertahankan urutan yang cocok terpanjang. Dengan demikian, satu lintasan jaringan yang mahal dapat menghasilkan beberapa token, bukan hanya satu.
Saat ini telah mencapai sekitar 30-40 tokens per second pada tautan internet nyata, kemajuan signifikan, namun belum sepenuhnya terbukti pada skala besar dan kecepatan yang benar-benar dibutuhkan pengguna. Ini adalah masalah yang membutuhkan kemampuan rekayasa yang benar-benar keras.
Perhatian: Melayani Inferensi Jauh Lebih dari Sekadar Menyusun FLOPs
Ada jebakan umum ketika membandingkan metode swarm dengan model terhosting cloud: orang hanya melihat tokens per second, mengira itu adalah segalanya.
Tetapi inferensi tingkat produksi harus melakukan banyak hal dengan baik, yang semuanya tidak terkait dengan daya komputasi mentah:
- Keseimbangan antara waktu token pertama (TTFT) dan latensi antar token
- Dua fase: Prefill dan decode (kebutuhan perangkat keras sepenuhnya berlawanan)
- Penempatan dan transmisi cache KV
- Streaming, continuous batching, dan utilisasi di bawah beban campuran
- Perilaku konteks panjang, cold start, dan pemanasan model
- Fluktuasi node (churn)
Poin Due Diligence: Ketika proyek mengutip angka throughput, tanyakan dengan apa mereka bersaing. Deployment vLLM atau SGLang terpusat (menggunakan disaggregated prefill dan continuous batching) adalah tolok ukur nyata, dan tolok ukur ini menjadi lebih cepat setiap kuartal. "Kami mencapai 30 tokens per second di internet" terdengar mengesankan, namun mungkin masih kurang kompetitif.
Tantangan 2: Membuktikan Bahwa Anda Benar-benar Mendapatkan Model yang Anda Bayar
Jika Anda tidak mempercayai node, bagaimana Anda tahu bahwa ia memang menjalankan model yang diklaim, dan bukan diam-diam menggantinya dengan versi terkuantisasi yang lebih murah? Terutama di jaringan yang melibatkan token penambangan, penyedia mudah "bermain game", secara lahiriah melayani model sebenarnya, namun menjalankan sesuatu yang lebih murah.
Saat ini ada lima metode penanganan utama:
- ZKML: Zero-knowledge proof untuk forward pass. Tidak dapat ditembus secara kriptografi, namun overhead sekitar 10000 kali native. Model Llama-3 membutuhkan sekitar 150 detik untuk menghasilkan satu token. Skala terdepan tidak mungkin diterapkan dalam waktu dekat.
- opML: Output disertai jaminan, membuka jendela tantangan, menyelesaikan perselisihan hingga satu langkah melalui fraud-proof yang dibagi dua, dijalankan ulang oleh arbiter. Kecepatan mendekati native, namun finalitas memerlukan periode tunggu jendela, dan ada "dilema verifikator" (jika biaya verifikasi lebih tinggi dari nilai menangkap kecurangan, tidak ada yang memverifikasi).
- Deterministic re-execution: Membuat inferensi dapat direproduksi pada tingkat byte, perselisihan hanya perlu memeriksa kesetaraan byte. Overhead di bawah 2%, dijamin oleh restaked ETH.
- Statistical fingerprints: Melakukan hash atau sampling komputasi dengan murah, menangkap sebagian besar kecurangan sebagian besar waktu. Tidak benar-benar sempurna, namun cepat dan cocok untuk GPU heterogen, yang diperlukan untuk swarm permissionless.
- Live-weight proofs: Secara langsung mengambil sampel tensor yang benar-benar berada dalam memori selama runtime layanan, membandingkannya dengan manifes model yang disetujui. Memverifikasi "apa yang dimuat", bukan "apa yang dihasilkan", overhead hanya sekitar 0,1%. Ini adalah pendekatan yang benar-benar berbeda.
Pertukaran realitas adalah: Anda hanya bisa mendapatkan dua dari tiga ini secara bersamaan — integritas kriptografi, latensi rendah, efisiensi biaya. ZKML mendapatkan integritas, namun mengorbankan latensi dan biaya; metode lain mendapatkan latensi dan biaya, namun hanya memenuhi integritas ekonomi atau statistik.
Poin Due Diligence: Tanyakan metode mana yang digunakan proyek, mengapa, dan dampak pertukaran ini pada produk akhir.
Tantangan 3: Bagaimana Menjaga Kerahasiaan Prompt yang Sebenarnya?
Membuktikan output benar, sangat berbeda dengan menyembunyikan input. Dalam swarm yang di-sharded, setiap node harus mendekripsi aktivasi untuk melakukan komputasi — enkripsi hanya melindungi jalur transmisi, tidak melindungi node itu sendiri.
Aktivasi Transformer sebenarnya sangat mudah direkonstruksi ulang. Makalah CCS 2025 menunjukkan, akurasi rekonstruksi input prompt dari aktivasi menengah melebihi 90%. Makalah "Hidden No More" ICML 2025 mencapai pemulihan yang hampir sempurna, dan mengalahkan pertahanan noise-and-permutation yang umum digunakan swarm.
Satu-satunya solusi perbaikan yang kuat saat ini adalah skema sequence-sharded yang lebih berat, dan belum ada yang benar-benar meluncurkannya di kubu GPU konsumen, sehingga ini masih merupakan masalah yang sebagian besar belum terpecahkan.
Sebuah swarm dapat mengklaim "tidak ada node yang memegang seluruh model", namun tetap akan membocorkan setiap prompt ke node mana pun di jalurnya. "Tidak ada node yang memegang model" bukan pernah merupakan atribut privasi.
Yang benar-benar dapat memberikan privasi adalah perangkat keras atau metode matematika, bukan topologi jaringan. TEEs (Trusted Execution Environment) — seperti solusi Phala pada GPU, solusi Darkbloom pada Apple silicon, mode Pro Venice — memindahkan kepercayaan ke root perangkat keras dan melakukan attestation.
Fully Homomorphic Encryption (FHE) dapat menghitung langsung pada ciphertext, tidak mempercayai apa pun, namun biayanya untuk model besar saat ini masih belum dapat diterima.
Poin Due Diligence: Proyek harus benar-benar memiliki salah satu skema ini, atau tidak memiliki privasi, tidak peduli bagaimana halaman landing mengemasnya.
Pengingat penting: Private tidak sama dengan trustless (tanpa kepercayaan). TEE tidak menghilangkan kepercayaan, hanya memindahkan kepercayaan dari operator node ke pabrikan perangkat keras, rantai firmware, layanan attestation, dan implementasi enclave.
Pertanyaan sesungguhnya adalah: Anda bersedia menerima root of trust siapa? Pabrikan chip? Himpunan validator restaked? Jaringan TEE? Atau matematika murni?
Tantangan 4: Bagaimana Membangun Pasar Dua Sisi yang Sesungguhnya?
Tiga pertama adalah tantangan teknis, keempat adalah tantangan bisnis.
Untuk jaringan inferensi terdesentralisasi yang melayani model open-weight, siapakah klien ideal (ICP)?
Sebagian besar konsumen biasa saat ini mendapatkan nilai besar dari paket berlangganan — $20-200 per bulan untuk menggunakan banyak kecerdasan. Di masa depan, skema subsidi ini mungkin hilang atau dibatasi, namun saat ini sangat sulit memikat sisi konsumen untuk menjual inferensi API bayar sesuai pemakaian.
Perusahaan juga tidak akan menjadi pembeli besar dalam waktu dekat. Mungkin berubah di masa depan, namun jangan berharap cepat.
Dua kategori pengguna yang benar-benar tersisa adalah: 1) Startup dan perusahaan yang menyematkan inferensi ke dalam stack produk mereka, yang secara alami membutuhkan paket API; 2) AI agents otonom yang mencari kemampuan inferensi mereka sendiri.
Kategori startup adalah pasar yang tumbuh, ceruk yang mungkin dapat menembus pendapatan signifikan, namun memiliki batas atas yang jelas dalam penangkapan nilai jangka pendek. AI agents sebagai pembeli lebih spekulatif — dalam jangka pendek masih perlu ada yang membayarnya.
Inilah masalahnya: Bagaimana mengagregasi pasokan bermakna dari model yang benar-benar diinginkan orang, sementara kelompok pengguna target tidak mungkin menjadi pengeluaran besar di jaringan?
Satu-satunya tempat yang saat ini layak adalah penyedia GPU terdesentralisasi. Proyek seperti io.net, Akash, Render, Aethir, Nosana telah melakukan ini selama bertahun-tahun, mereka menyewakan GPU utuh atau kapasitas model utuh per node ke pembayar melalui pasar yang dikoordinasi token. Ini ada presedennya.
Poin Due Diligence: Tanyakan ICP proyek, dan bagaimana mereka sekaligus menarik pengguna target dan membuat sisi pasokan puas. Jika semuanya dibangun di atas ekspektasi kenaikan token spekulatif, itu adalah sinyal yang jelas.
Siapa yang Benar-benar Memecahkan Tantangan Ini? Tinjauan Proyek Utama
Saat ini ada banyak proyek yang dikategorikan "inferensi terdesentralisasi", namun sebagian besar tidak menyelesaikan keempat tantangan secara setara, melainkan fokus masing-masing.
Petals: Pelopor mutlak inferensi terdesentralisasi. Pada 2022 membuktikan BLOOM-176B dapat berjalan di GPU konsumen dengan swarm gaya BitTorrent, signifikansi konseptual besar, namun tidak menyelesaikan masalah insentif, privasi, dan monetisasi. Proyek yang esensinya adalah "Arsitektur Petals + token", kemungkinan besar adalah larp.
Dolphin Network: Tim di balik seri model open uncensored Dolphin (unduhan Hugging Face >5 juta). Asal mulanya adalah kebutuhan pengguna nyata terlebih dahulu, kemudian membungkus jaringan. Sorotan teknis adalah live-weight proofs (overhead 0.1%), ditambah sidik jari logprob, pemeriksaan integritas perangkat lunak, dan bonding tingkat akun. Telah menghasilkan >3.2 miliar token, bandwidth berkelanjutan ~9400 t/s, adalah perwakilan yang mengutamakan produk dan eksekusi kuat.
Inference.net (sebelumnya Kuzco): Salah satu upaya verifikasi model di lingkungan nyata paling matang. Mekanisme unik LOGIC berdasarkan tes statistik logprob menangkap penggantian model, telah berproduksi ~18 bulan, armada ribuan GPU, adalah salah satu proyek yang sekaligus memiliki primitif verifikasi dan sejarah operasional nyata.
Morpheus: Lapisan routing dan reward terdesentralisasi, menyediakan API kompatibel OpenAI + wrapper agent cerdas. Sorotan teknis adalah verifikasi penyedia berbasis TEE (Intel TDX + attestasi GPU NVIDIA sudah diluncurkan). Perlu dipantau terus emisi MOR dan bukti permintaan eksternal nyata.
Chutes (Subnet Bittensor 64): Sisi pengguna adalah API kompatibel OpenAI, backend adalah deployment chute yang dikemas Docker ke penambang GPU Bittensor. Keunggulan distribusi dan skalabilitas jelas, namun masih ada kesenjangan dalam verifikasi dan privasi.
c0mpute: Proyek baru native Solana, Shard engine membagi model terdepan ke GPU konsumen. Telah mendemonstrasikan GLM-5.2 744B dan gpt-oss-120B secara nyata (30-40 t/s). Artifak teknis dapat diverifikasi, namun masih sangat awal (repositori baru online beberapa hari, pendiri anonim, token dengan kapitalisasi mikro pump.fun).
Parallax (Gradient Network): Kerangka kerja inferensi LLM terdistribusi P2P, mendukung pemecahan pipeline parallelism di GPU konsumen dan Apple Silicon, memungkinkan individu atau organisasi kecil menjalankan "kluster berdaulat". Dukungan institusi kuat (Pantera dan Multicoin memimpin putaran seed $10 juta), namun skema privasi masih belum jelas.
Darkbloom: Memungkinkan pengguna mengubah daya komputasi Mac menganggur menjadi pasar inferensi pribadi. Setiap Mac menjalankan seluruh model, privasi dijamin melalui attestation Secure Enclave. Tidak mengambil jalur swarm terpecah, tumpukan attestation ketat. Telah dari pratinjau penelitian masuk alpha publik, traction nyata perlu dipantau (terdesentralisasi tidak harus selalu berupa token).
MeshLLM: Mesh inferensi P2P permissionless yang dibangun oleh tim terkait Block, diperkenalkan Jack Dorsey. Berdasarkan penemuan node Nostr, tanpa server pusat, lebih mendekati BitTorrent daripada Bittensor. Protokol diutamakan, tanpa token, anti-sensor.
Venice dan Ekosistem Resellernya: Contoh teladan seluruh bidang dalam mencari PMF dan model bisnis yang layak. Ia sendiri adalah proxy konsumen terpusat namun berlapis privasi, telah secara efektif menyelesaikan sebagian tantangan. Di sekitarnya terbentuk sub-ekosistem reseller seperti UsePod, AntSeed, Surplus Intelligence, terutama melakukan agregasi permintaan dan penyelesaian, bukan menyediakan daya komputasi terdesentralisasi secara langsung.
Medan Pertempuran Inferensi Terdesentralisasi
Keunggulan biaya hanya berlaku ketika memisahkan latensi dan throughput untuk dilihat. Mereka adalah dua produk berbeda, desentralisasi adalah pajak untuk yang satu, dan fitur untuk yang lain.
Skenario di mana sentralisasi jelas menang (desentralisasi adalah pajak): Obrolan interaktif gaya ChatGPT, agent coding real-time, suara latensi rendah, pemanggilan alat frekuensi tinggi, SLA latensi p95 ketat perusahaan, layanan latensi kompetitif untuk model padat terdepan.
Skenario di mana desentralisasi mungkin menang (keunggulan agregasi pasokan): Pembuatan data sintetis, evaluasi offline, embedding batch, RAG batch, tugas penelitian agent jangka panjang, antrean pembuatan gambar/video, inferensi model terbuka non-darurat (biaya marjinal perangkat keras menganggur mendekati nol).
Kerangka sederhana: Ketika latensi penting, desentralisasi adalah pajak; ketika throughput penting, desentralisasi dapat menjadi keunggulan agregasi pasokan.
Nilai Jangka Panjang Tersembunyi: Siklus Data
Jaringan inferensi terdesentralisasi juga dapat mengumpulkan banyak data berharga — data pelatihan sintetis, data preferensi, jejak agent, output evaluasi, data fine-tuning, lingkungan RL, jejak penggunaan alat, dll. Data ini dapat memberi makan jaringan pelatihan terdesentralisasi (seperti proyek gaya Nous Psyche, Prime Intellect, Gensyn), menghasilkan model open-weight yang lebih baru, yang kemudian mengalir kembali ke jaringan inferensi.
Dalam jangka panjang, ini bukan taruhan terpisah "pelatihan terdesentralisasi" atau "inferensi terdesentralisasi", melainkan sebuah loop tertutup: Inferensi menghasilkan jejak → Jejak menjadi data pelatihan → Pelatihan memperbarui model → Model terbaru mengalir kembali ke inferensi.
Proyek terbaik akan menjadikan siklus ini sebagai strategi inti, di masa depan proyek pelatihan dan inferensi akan semakin menyatu.
Daftar Periksa Due Diligence Praktis: Cukup Jawab Tujuh Pertanyaan Ini
- Apakah ini benar-benar terdesentralisasi? Secara spesifik di lapisan mana? (Banyak yang hanya memberi label karena punya token)
- Dapatkah Anda mempercayai output berasal dari model yang Anda bayar? (Deterministik, proof, fingerprint, atau tidak ada apa-apa)
- Setelah dikurangi token dan overhead koordinasi, apakah benar-benar lebih murah daripada sentralisasi? (Dalam produksi, bukan teori)
- Apakah prompt benar-benar disembunyikan dari operator? (Hanya TEE/FHE yang dihitung, sharding belaka tidak)
- Apakah sistem masih dapat berjalan stabil ketika node tidak dapat diandalkan, tersebar di internet?
- Apakah ada yang benar-benar membayar, dan itu sesuatu yang tidak dapat dibeli lebih murah secara terpusat?
- Apakah tim memiliki kemampuan teknis AI yang sesungguhnya? (Yang paling penting)
Saran tambahan: Waspadai "solusi teknis elegan" yang tidak memiliki rencana distribusi yang kredibel.
Penilaian Akhir Saya
Saya secara keseluruhan bearish terhadap kategori yang hanya menarik bagi penduduk asli crypto (TAM menurut saya daya tariknya terbatas). Saya lebih ingin melihat proyek yang juga menarik bagi pengguna non-crypto, menyembunyikan mekanisme crypto di balik layar.
Inferensi terdesentralisasi adalah salah satu dari sedikit jalur di crypto yang benar-benar memiliki potensi terobosan — setiap orang membutuhkan inferensi, ia dapat melayani seperti penyedia tradisional, bahkan melalui platform seperti OpenRouter untuk pengalaman mulus. Kuncinya adalah biaya, kinerja, dan privasi.
Saran: Dukung proyek yang dapat menjelaskan dengan jelas lapisan mana yang mereka desentralisasikan, dan jelas tahu siapa pembelinya. Jauhi proyek yang hanya menggunakan "AI Terdesentralisasi" sebagai slogan, diikuti oleh sebuah koin.
Keterangan: Penulis asli memegang token dari beberapa proyek dalam artikel, tidak dipengaruhi atau mendapat kompensasi dari proyek mana pun, penilaian semuanya merupakan pandangan pribadi.






