"Cawan Suci" sistem terdistribusi — Protokol Konsensus (Consensus Protocols), telah lama menjadi "Neraka Bug" bagi insinyur infrastruktur tingkat atas. Karena keadaan dan interaksi multi-node yang sangat kompleks, pengujian tradisional dan LLM tunggal hampir tidak berdaya terhadap Deep Bug (kerentanan logika dalam) yang keras.
Baru-baru ini, dalam paper yang diterima di ICML 2026, peneliti dari 0G Labs serta tim akademik dan industri terkemuka seperti National University of Singapore, Peking University, dan Beijing University of Posts and Telecommunications mengusulkan kerangka kerja pengujian otomatis pertama yang menggabungkan pengetahuan domain dengan kolaborasi multi-Agent Model Besar secara mendalam — Agora.
Melalui arsitektur inovatif, kerangka kerja ini langsung menargetkan titik sakit protokol, dan berhasil menemukan 15 Deep Bug tingkat protokol yang belum pernah diketahui sebelumnya dalam protokol inti industri dan akademik seperti Raft, EPaxos, HotStuff, dan BullShark! Sebagai perbandingan, model besar asli yang kuat seperti GPT-5.2, Claude 4.5 semuanya gagal, mencetak angka nol. Di saat sistem Multi-Agent dan "Audit Keamanan Berbasis Agent" (Agentic Quality Control) menjadi jalur paling panas di tahun 2026, Agora tidak hanya memberikan sebuah makalah, tetapi juga solusi tingkat industri yang dapat diterapkan.
Paper: "Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents"
1. Latar Belakang: Sinergi Kuat 0G dan NUS, Perpaduan Lintas Generasi antara Akumulasi Pengetahuan Sistem Jangka Panjang dan Paradigma Multi-Agent
Evolusi protokol konsensus terdistribusi adalah sejarah inovasi jenius, sekaligus sejarah langkah salah yang berdarah-darah bagi banyak insinyur terbaik. Seperti yang dikatakan oleh penerima Penghargaan Turing Lamport, memastikan kebenaran implementasi protokol terdistribusi sama sulitnya dengan berjalan dengan mata tertutup di labirin yang terus bergoyang. Di jalur "neraka" ini, pasar secara diam-diam beralih: Menurut observasi Gartner, permintaan konsultasi perusahaan untuk sistem multi-agen melonjak lebih dari sepuluh kali lipat dalam setahun lebih, dan pasar platform multi-agen juga memasuki periode ekspansi cepat yang hampir dua kali lipat setiap tahun — menggunakan "kolaborasi multi-Agent" untuk verifikasi sistem dasar yang paling keras, berubah dari konsep canggih menjadi kebutuhan industri.
Menghadapi jalur neraka ini, raksasa teknologi bereksplorasi dengan pendekatan aset berat. Misalnya, proyek Glasswing yang diusulkan secara internal oleh Anthropic dalam Claude Code baru-baru ini, meskipun mencoba menyentuh pengujian infrastruktur dasar dengan Agent, arsitekturnya masih sangat bergantung pada model besar komersial kelas atas, detail proyek tidak jelas, dan hanya bekerja sama secara tertutup dengan sangat sedikit institusi teknologi besar dan perusahaan multinasional. Lebih fatalnya, solusi raksasa semacam ini mungkin menunjukkan konsumsi Token yang menakutkan selama operasi, hambatan komputasi tinggi dan jalur aset berat ini langsung menutup pintu bagi startup dan usaha kecil dan menengah dengan anggaran terbatas.
Apakah perusahaan kecil, komunitas open source ditakdirkan tidak bisa menggunakan alat audit kerentanan otomatis kelas atas?
Insinyur dari 0G Labs bersama Liu Xiang dari National University of Singapore, Song Sa dan Sun Yong dari Beijing University of Posts and Telecommunications, serta Zhang Zhaowei dan Zhang Cejun dari Peking University, mengisi pengetahuan mendalam mereka di bidang Agent ke dalam sistem, meluncurkan inovasi disruptif "kecil melawan besar", yang karyanya telah diterima di konferensi AI top ICML 2026.
"Akumulasi pengetahuan sistem jangka panjang" dari dunia akademik bertemu dengan "titik sakit dan naluri tajam" industri, bagaimana cara memicu revolusi keamanan sistem generasi berikutnya?
Tim 0G telah mengumpulkan pengalaman serangan dan pertahanan tingkat produksi yang sangat kaya dalam implementasi protokol konsensus blockchain; sedangkan tim memiliki akumulasi akademik yang sangat mendalam di bidang sistem terdistribusi kinerja tinggi, kontrol konkurensi dasar, dan verifikasi formal sistem. Mereka sangat menyadari bahwa metode tradisional (seperti pengujian kabur Fuzzing) sering dibatasi oleh ledakan ruang keadaan ketika menghadapi basis kode tingkat industri. Para peneliti dari berbagai pihak memutuskan untuk memasukkan pengetahuan deduksi logis invariants (ketidakberubahan) sistem terdistribusi yang terakumulasi lama sebagai "jiwa", ke dalam paradigma kolaborasi multi-agen dan arsitektur Harness otomatis yang paling mutakhir, meluncurkan kerangka kerja Agora yang terbuka dan setara.
Sementara itu, sebagai infrastruktur AI modular dan jaringan ketersediaan data terdesentralisasi kinerja tinggi di garis depan industri, tim 0G telah mengumpulkan pengalaman serangan dan pertahanan tingkat produksi serta sampel cacat protokol dunia nyata yang sangat kaya dalam implementasi industri protokol konsensus blockchain dan arsitektur BFT (Byzantine Fault Tolerance) konkurensi tinggi.
Perpaduan lintas batas ini benar-benar mengubah aturan permainan: Ini bukan pengujian buta yang brutal, juga bukan model besar "meraba-raba" tanpa pengetahuan domain umum, tetapi melalui pembagian kerja Agent yang terspesialisasi, mengubah naluri deduksi logis berpuluh-puluh tahun dari pakar sistem berpengalaman menjadi permainan dan kolaborasi antar Agent, sehingga memiliki kemampuan keras untuk menyerang alat uji tradisional secara dimensional.
Tidak seperti Glasswing yang sering menghabiskan Token kelas atas dalam jumlah besar dengan jalur aset berat, Agora membawa solusi pengganti yang ramah bagi usaha kecil dan menengah — membuktikan bahwa bahkan dengan model dasar yang "agak kurang", lebih terjangkau, melalui arsitektur kolaborasi multi-Agent yang canggih dan sadar domain, Deep Bug yang keras tetap dapat ditemukan!
2. Titik Sakit: LLM Tunggal Sulit Melewati Batas, Pedang Damokles Logika Dalam Menggantung di Sistem Terdistribusi
Di era big data, blockchain, dan basis data terdistribusi yang mendominasi, protokol konsensus (seperti Paxos, Raft, PBFT, dll.) adalah fondasi dasar seluruh dunia digital. Namun, implementasi protokol konsensus terkenal dengan "tingkat kesulitan neraka". Bahkan proyek percontohan tingkat industri seperti etcd yang telah ditempa oleh insinyur terbaik global selama bertahun-tahun, masih menyembunyikan Deep Bug yang membuat keringat dingin.
Kerentanan jenis ini berbeda dari kerentanan implementasi rendah (Implementation Bugs) biasa seperti kebocoran memori, overflow integer, dll. Mereka menjangkau banyak fase eksekusi, bergantung pada keadaan konkurensi yang kompleks. Begitu dipicu secara jahat, tidak hanya dapat menyebabkan kerusakan data inti, tetapi bahkan memicu kerugian finansial yang bencana.
Model Bahasa Besar (LLM) yang sangat populer belakangan ini, meskipun menunjukkan performa cemerlang dalam analisis kode biasa, tampak "kurang cerdas" ketika menghadapi konsensus terdistribusi. Mereka paling-paling hanya dapat menemukan cacat dangkal kode lokal, sementara menghadapi kerentanan logika tingkat protokol yang bergantung pada keadaan global, LLM tunggal sering terjebak dalam lumpur kode lokal, sama sekali tidak dapat melakukan penalaran urutan waktu global.
3. Pemecahan: Tiga Agent dan Arsitektur Inti Harness Agora
Untuk memecahkan kebuntuan ini, Agora untuk pertama kalinya memperkenalkan paradigma pengujian berbasis hipotesis klasik akademik (Hypothesis-Driven Testing, HDT) ke dalam sistem Agent model besar. Untuk mencapai penalaran global yang efisien, Agora sepenuhnya meninggalkan mode "tunggal bertempur" tradisional, dengan cerdik memisahkan alur kerja menjadi tiga Agent yang sangat terspesialisasi dengan tugas masing-masing:
Orchestrator Agent (Koordinator): Bertanggung jawab atas pemeliharaan keadaan global dan "eksploitasi" kerentanan yang diketahui dengan penalaran analogi.
Strategy Agent (Strateg): Bertanggung jawab untuk menyuntikkan pengetahuan domain terdistribusi, menghasilkan skenario abnormal yang sangat ofensif terhadap protokol CFT dan BFT.
TestGen Agent (Pejabat Kode): Pekerja praktis. Kunci agar Agora benar-benar dapat diterapkan dan menghasilkan pengujian yang efektif secara tertutup terletak pada arsitektur pengujian otomatis intinya.
Arsitekturnya ditunjukkan dalam gambar:
Dalam desain keseluruhan Agora, "sihir" kesetaraan "kecil melawan besar" ini tidak datang begitu saja, tetapi berasal dari mekanisme interaksi agen yang cerdik dan integrasi mendalam dengan arsitektur Harness pengujian.
Tim peneliti secara khusus merancang satu set mekanisme komunikasi dan memori yang sangat sederhana dan efisien (Succinct Memory & Communication) di dalam kerangka sistem, memastikan setiap Agent fokus pada tugas intinya sendiri, sekaligus meminimalkan overhead transmisi konteks yang berlebihan. Di bawah batasan komunikasi yang ekstrem ini, Orchestrator Agent (bertanggung jawab atas koordinasi global dan kontrol keadaan), Strategy Agent (bertanggung jawab atas lingkungan dan pembuatan skenario abnormal terdistribusi), dan TestGen Agent (bertanggung jawab atas pengujian kode dan evaluasi dinamis) terjalin dengan sempurna, bersama-sama menggerakkan dan memenuhi arsitektur Harness:
Siklus tertutup otomatis yang menyatu: Ketika Strategy Agent mendeduksi skenario serangan terdistribusi abstrak, dengan mengandalkan kerangka interaksi yang sangat terpisah, TestGen Agent dapat segera menarik pengujian dasar. Arsitektur ini tidak hanya memiliki kemampuan adaptasi lingkungan yang kuat, dapat melintasi lingkungan bahasa pemrograman yang berbeda seperti Go, Rust, mengubah hipotesis serangan menjadi unit test yang dapat dijalankan secara nyata, tetapi juga dilengkapi dengan teknologi refleksi-loop yang efisien.
Begitu pengujian menghasilkan kesalahan saat dijalankan di lingkungan, sistem akan menangkap tumpukan panggilan dan log eksekusi secara tepat dan real-time, dan mengirimkannya kembali secara singkat ke Agent untuk koreksi diri yang terarah. Kombinasi organik dari "interaksi minimal multi-Agent + siklus tertutup Harness dinamis" ini tidak hanya memungkinkan Agora menangkap Deep Bug logika yang paling tersembunyi dengan biaya Token yang sangat rendah, tetapi juga menghasilkan laporan analisis mendetail dengan tingkat positif palsu yang sangat rendah.
Ringkasan operasi akhirnya ditunjukkan dalam gambar:
4. Hasil: Mengamankan 15 Deep Bug Zero-Day Tingkat Atas, Baseline Model Besar Semua Gagal Total
Hasil evaluasi sangat mengejutkan. Tim peneliti melakukan tinjauan menyeluruh pada empat perpustakaan protokol konsensus terkenal (termasuk etcd tingkat produksi dan komponen dasar Sui, blockchain publik yang baru muncul), dan membandingkannya dengan model terkuat seperti GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5, dan Qwen3 Coder.
Hasilnya tidak hanya membuat sistem konsensus yang dijalankan 0G sendiri lebih aman, tetapi juga menunjukkan serangan dimensional yang sangat dominan:
15 Logic Deep Bug baru terungkap: Agora berhasil menemukan 15 kerentanan logika dalam tingkat protokol yang belum pernah diketahui sebelumnya. Kerentanan ini menjangkau bidang-bidang berisiko tinggi seperti divergensi eksekusi, pelanggaran monotonisitas, cacat topologi, kerentanan tanda tangan.
Model besar asli gagal total: Sebaliknya, model baseline (bahkan dilengkapi dengan rantai alat dinamis ReAct canggih), semuanya gagal (0/15) ketika menghadapi kerentanan logika dalam jenis ini. Mereka menghabiskan banyak Token, tetapi hanya bisa berputar-putar pada Bug implementasi kode tingkat rendah.
Tingkat positif palsu sangat rendah dan nilai efektivitas biaya sangat tinggi: Di antara semua laporan Bug yang dihasilkan Agora, kerentanan logika nyata mencapai 73.9% (tingkat positif palsu hanya 26.1%). Lebih menakjubkan lagi, rata-rata untuk menemukan satu Logic Bug tingkat atas yang membuat arsitek senior merontokkan rambut, hanya membutuhkan sekitar 5.32M tokens (sekitar $40), nilai efektivitas biaya sangat tinggi.
Hasil pada beberapa LLM ditunjukkan di bawah ini:
5. Masa Depan: Tingkat Penerapan Tinggi, Melangkah ke Lebih Banyak "Wilayah Tak Berpenghuni" Dasar yang Keras
Keberhasilan Agora tidak hanya memberikan suntikan kepercayaan diri pada keamanan sistem terdistribusi, tetapi juga menunjukkan arah untuk penerapan model besar di aplikasi industri vertikal.
Yang sangat penting, desain arsitektur Agora menunjukkan tingkat penerapan dan generalisasi yang sangat tinggi. Tim peneliti menekankan, Agora juga dapat dengan cepat direproduksi dan digunakan oleh banyak pengguna dalam bentuk plugin atau skill, kode kami (github.com/0gfoundation/agora) menyediakan skills yang sesuai untuk membantu reproduksi. Tidak hanya itu, paradigma "Model Besar + Kolaborasi Multi-Agent + Berbasis Hipotesis" Agora tidak hanya dapat digunakan untuk protokol konsensus. Karena kontrol alur kerja dasar dan basis pengetahuan domain, pengujian tingkat atas telah dipisahkan secara mendalam. Ini berarti arsitektur ini tidak hanya dapat membantu banyak pengguna dengan cepat melakukan debug protokol konsensus, tetapi juga dapat dengan cepat diperluas ke bidang keras lainnya yang juga tersiksa oleh "neraka kerentanan logika dalam" dengan cara "Plug-and-Play":
Kontrol Konkurensi Basis Data (Concurrency Control): Untuk menguji cacat konflik transaksi kompleks pada basis data terdistribusi di tingkat isolasi ekstrem (seperti Serializable).
Kernel Sistem Operasi / Sistem Konkurensi: Menemukan secara mendalam kondisi deadlock dan race yang tersembunyi dalam infrastruktur multi-thread.
Audit Kontrak Cerdas Web3: Melakukan penyelidikan mendalam batas keamanan untuk protokol lintas rantai dan logika DeFi yang melibatkan model ekonomi kompleks. Pasar keamanan blockchain diperkirakan mencapai sekitar $8.5 miliar pada tahun 2026, dan produk komersial yang menggunakan "sistem keamanan multi-agen" untuk audit kontrak cerdas, memampatkan siklus audit dari minggu menjadi jam, telah muncul, permintaan pasar sedang meledak.
Era keamanan otomatis AI untuk infrastruktur dasar tingkat industri, mungkin baru saja dibuka secara resmi oleh Agora dan arsitektur Harness-nya.
Kami percaya, Agora dapat membantu menguji kemampuan coding LLM dengan lebih baik melalui lebih banyak deep bug yang ditemukan di berbagai bidang, kasus penggunaan deep bug yang ditemukannya juga dapat membantu meningkatkan kemampuan pemahaman kode coding LLM.
Agora dapat sangat meningkatkan keamanan repositori kode yang menjadi dasar transaksi keuangan seperti protokol konsensus, kontrol konkurensi, kontrak cerdas, dll. Dan Agora juga dapat membantu lebih banyak perusahaan teknologi menemukan logic bug yang lebih dalam, tetapi mengonsumsi lebih sedikit tokens, menghemat dana namun lebih efisien!
Yang lebih penting, ini kebetulan menginjak dua jalur paling panas saat ini: pertama, sistem multi-agen sedang bergerak dari eksperimen ke produksi — Gartner memperkirakan pada tahun 2028 lebih dari 30% perangkat lunak perusahaan akan memiliki AI berbasis agen bawaan, ukuran pasar platform multi-agen dalam beberapa tahun akan melesat dari tingkat puluhan miliar dolar ke ratusan miliar dolar; kedua, kontrol kualitas berbasis agen (Agentic Quality Control) "menggunakan agen untuk mengaudit agen" sedang menjadi standar industri tahun 2026.
Dalam latar belakang laporan Veracode 2025 menunjukkan sekitar 45% kode yang dihasilkan AI mengandung kerentanan keamanan, pasar keamanan AI berbasis agen melaju dengan CAGR sekitar 42%, Agora memungkinkan perusahaan teknologi menemukan Logic Bug yang lebih dalam dengan biaya token yang lebih rendah, meningkatkan audit keamanan dari "pekerjaan manusia yang dibayar per minggu" menjadi "kemampuan otomatis yang disampaikan per jam".
Dan ketika pola jalur ini semakin jelas, yang benar-benar mengambil posisi terdepan, seringkali bukan raksasa yang paling vokal, tetapi tim yang paling awal mengeksekusi metodologi dan dapat mereplikasinya secara berkelanjutan.









