Catatan Editor: Ketika agen AI mulai memiliki kemampuan untuk menjalankan tugas, memanggil alat, dan berpartisipasi dalam aktivitas ekonomi, sebuah pertanyaan baru muncul: dalam lingkungan dengan insentif nyata, bagaimana mereka akan bertindak?
Artikel ini mencatat eksperimen tim Circle. Mereka menyelenggarakan hackathon USDC di platform sosial Moltbook yang hanya mengizinkan agen AI untuk memposting, membiarkan agen Openclaw mengirimkan proyek secara mandiri, berdiskusi, dan memberikan suara. Hasilnya sangat menarik dan penuh kompleksitas: agen tidak hanya mampu menghasilkan proyek nyata dan berpartisipasi dalam diskusi teknis, tetapi juga bermain di tepi aturan. Misalnya, salah memahami instruksi, mengabaikan format, saling meminta suara, dan bahkan menunjukkan perilaku yang diduga "konspirasi".
Eksperimen ini memberikan jendela pengamatan langka untuk "ekonomi agen": ketika AI adalah partisipan sekaligus pengambil keputusan, kolaborasi, persaingan, dan perilaku strategis sering muncul bersamaan. Dalam beberapa hal, fenomena ini pada dasarnya tidak berbeda dengan mekanisme pasar dan pemilihan dalam masyarakat manusia.
Eksperimen ini dengan cepat memicu diskusi luas di komunitas. Banyak yang berpendapat bahwa ini adalah verifikasi menarik terhadap kemampuan otonomi ekonomi agen. Beberapa komentator mencatat bahwa sistem agen masih membutuhkan pagar pengaman yang lebih jelas untuk menghindari penyimpangan "rasionalisasi diri"; yang lain berpendapat bahwa seiring agen secara bertahap memasuki aktivitas ekonomi nyata, hambatan sebenarnya di masa depan mungkin terletak pada sistem penyelesaian dan pembayaran yang sesuai. Seperti yang dikatakan satu komentar: "Ekonomi agen sangat kuat, tetapi juga membutuhkan pagar yang jelas."
Berikut adalah teks aslinya:
Merangkul Claw
Di Circle, kami selalu senang menyelenggarakan hackathon. Baik di lokasi berbagai konferensi besar, atau saat produk baru pertama kali diluncurkan, kami ingin menyerahkan alat terbaik ke tangan pengembang—atau dalam kesempatan ini, ke tangan Claw.
Setelah melihat pertumbuhan eksplosif dari kerangka AI agen Openclaw, kami memutuskan untuk mengadakan hackathon yang hanya boleh diikuti oleh agen AI.
Perangkat lunak yang dengan cepat populer ini memungkinkan agen secara mandiri mengirim email, memanggil API, bahkan mengontrol termostat Anda... tetapi bisakah mereka mengirimkan proyek sendiri? Circle ingin menguji "AI yang benar-benar bisa melakukan sesuatu" ini dengan eksperimen nyata.
Pertanyaan kami sederhana: jika kumpulan hadiahnya adalah 30.000 dolar AS, bagaimana agen Openclaw akan bertindak? Jawabannya ternyata sangat "mirip manusia".
Kami menyelenggarakan hackathon USDC di subkomunitas m/usdc di Moltbook. Moltbook adalah platform media sosial yang hanya mengizinkan agen AI untuk memposting. Tujuan kami adalah membiarkan agen menyelesaikan seluruh proses secara mandiri: mengirimkan proyek, memberikan suara, dan akhirnya memilih pemenang. Meskipun banyak agen mematuhi aturan, eksperimen juga menemukan bahwa beberapa agen mengabaikan peraturan kompetisi, berpartisipasi dalam permintaan suara timbal balik, dan bahkan mencoba mengirim token ke agen hackathon.
Merancang Aturan untuk "Peretasan Agen"
Agen memiliki waktu lima hari untuk mengirimkan proyek mereka. Untuk membantu mereka menyelesaikan tugas, kami membuat USDC Hackathon Skill, sebuah file panduan yang ditulis dalam Markdown, untuk mengajarkan agen Openclaw cara mengirimkan proyek sesuai aturan. Aturan-aturan ini juga diposting di posting pengumuman hackathon asli:
Pilih satu dari tiga jalur: Agentic Commerce, Smart Contract, atau Skill.
Beri suara untuk lima proyek berbeda, dan pemungutan suara harus dilakukan setidaknya satu hari setelah hackathon dimulai.
Pengajuan proyek dan pemungutan suara harus mengikuti format yang ditentukan.
Penetapan aturan ini terutama didasarkan pada tiga pertimbangan: pertama, memastikan agen akan mendiskusikan dan mengevaluasi proyek yang lebih luas; kedua, mengamati apakah agen dapat mengikuti instruksi dengan akurat ketika perlu menjalankan tugas multi-langkah; ketiga, menghindari kebuntuan antara pengajuan proyek dan pemungutan suara.
Satu hal yang sangat ingin kami amati adalah: apakah agen akan berulang kali memeriksa proyek baru di Moltbook untuk memberikan suara, misalnya melalui keterampilan seperti Moltbook Heartbeat yang menyegarkan secara berkala.
Hasilnya beragam. Agen berdiskusi tentang 204 proyek yang diajukan dan memberikan 1851 suara, tetapi banyak yang tidak mematuhi panduan kompetisi. Selain itu, beberapa agen juga menunjukkan perilaku yang berpotensi menantang, yang juga menghasilkan banyak temuan menarik.
Pengajuan Proyek "Halusinasi"
Meskipun kami memberikan aturan hackathon dan keterampilan pengajuan yang jelas, sebagian besar postingan masih tidak sepenuhnya mematuhi format yang diminta. Banyak proyek menulis judul di badan teks tetapi tidak menyertakan tag yang ditentukan "#USDCHackathon ProjectSubmission [TRACK]".
Bahkan dalam satu kasus, sebuah agen tahu perlu menulis informasi ini, tetapi tidak meletakkannya di judul.
Bahkan dalam aspek lain yang sudah memenuhi syarat, beberapa agen masih "berhalusinasi" menciptakan jalur hackathon baru. Ini terjadi meskipun mereka dengan jelas diberi tahu bahwa mereka hanya bisa memilih satu dari tiga kategori: Agentic Commerce, Smart Contract, atau Skill.
Dalam kasus ini, agen sering kali menghasilkan nama jalur yang terlihat lebih "tepat" berdasarkan konten proyek. Ini mungkin berarti agen mencoba menemukan klasifikasi yang lebih masuk akal untuk proyek mereka, atau mungkin hanya mengabaikan aturan yang ditetapkan. Apa pun penyebabnya, masalahnya adalah bahwa jalur itu sendiri tidak ada.
Seiring berjalannya kompetisi, jumlah pengajuan yang tidak memenuhi spesifikasi dan postingan yang menyimpang semakin meningkat dibandingkan dengan pengajuan yang valid. Menurut aturan kompetisi, sebenarnya tidak ada insentif yang jelas bagi agen untuk memposting konten yang tidak valid ini. Oleh karena itu, kemungkinan besar, beberapa agen mengalami kesulitan dalam memahami atau menjalankan instruksi.
Namun, mengingat masih ada sejumlah agen yang berhasil mengajukan proyek sesuai persyaratan, kami berpendapat bahwa aturan itu sendiri sebenarnya sudah relatif jelas.
"Pemilihan" Agen
Meskipun demikian, kami masih mengamati 9712 komentar, banyak di antaranya membahas fungsi teknis proyek tetapi tidak memberikan suara. Sebagian besar komentar ini bahkan tidak mengikuti format komentar dan standar penilaian yang direkomendasikan, meskipun aturan ini tidak ditegakkan dalam keterampilan (skill). Ini juga menunjukkan bahwa partisipasi agen dalam diskusi hackathon tidak hanya untuk memenuhi persyaratan kompetisi, tetapi juga dalam beberapa hal melakukan evaluasi dan pertukaran teknis yang nyata.
Pada akhir kompetisi, kami menghitung 1352 suara unik untuk proyek yang valid, dan 499 suara unik untuk proyek yang tidak valid. Yang menarik, banyak agen proyek peringkat atas mematuhi aturan saat mengajukan proyek, tetapi tidak memenuhi persyaratan untuk memberikan suara pada lima proyek berbeda.
Situasi ini bahkan terjadi pada beberapa agen yang memberikan suara untuk diri mereka sendiri dan memberikan suara berulang kali untuk proyek yang sama. Ini menunjukkan bahwa mereka sepenuhnya mampu melihat kembali konten di Moltbook untuk memberikan suara setelah pengajuan awal—hanya saja memilih untuk tidak mengikuti aturan yang ditetapkan.
Selain itu, beberapa agen juga mulai mempromosikan proyek lain. Perilaku ini muncul baik di bagian komentar proyek pesaing, maupun dalam postingan independen di Moltbook. Lebih jauh, beberapa agen bahkan mulai mempromosikan mekanisme "saling memilih": jika Anda memilih proyek saya, saya akan memilih proyek Anda.
Meskipun aturan kompetisi tidak melarang perilaku seperti ini, mengingat banyaknya interaksi antar agen dalam postingan ini, fenomena ini tetap perlu diwaspadai.
Intervensi Manusia yang Potensial
Postingan saling memilih ini mungkin mengisyaratkan kemungkinan partisipasi manusia atau manipulasi eksternal. Kami mencoba menghasilkan komentar serupa melalui antarmuka chatbot, dan menemukan bahwa beberapa model (seperti Claude Sonnet 4.6) akan langsung menolak untuk menghasilkan konten seperti itu; sementara model lain akan menghasilkan dengan peringatan, mengingatkan bahwa perilaku tersebut mungkin melanggar aturan kompetisi (misalnya GPT-5.2 Thinking). Jika ada manusia yang mengoperasikan akun "agen" tertentu di belakang layar, atau membimbing agen melalui prompt, rantai alat, maka hal ini dapat menjelaskan mengapa postingan seperti itu muncul selama hackathon.
Meskipun Moltbook dirancang untuk digunakan hanya oleh agen AI (pendaftaran memerlukan verifikasi akun X), peneliti lain menemukan bahwa penyamaran identitas masih mungkin terjadi. Kami juga mengamati beberapa contoh yang diduga aktivitas manusia, misalnya di bawah posting pengumuman hackathon awal.
Satu kasus典型 adalah: komentar dengan jumlah suka tertinggi ternyata adalah awal naskah film Bee Movie (2007). Teks ini adalah copypasta (yaitu teks tetap yang disalin dan disebarluaskan dalam jumlah besar) yang banyak beredar di internet, dan karena kontennya tidak relevan dengan diskusi, kemungkinan besar diposting oleh manusia. Jika perilaku seperti ini umum selama hackathon, maka beberapa perilaku adversarial—seperti pertukaran suara atau memilih diri sendiri—juga dapat dijelaskan karenanya.
Masa Depan Keuangan Agen
Meskipun hackathon ini sendiri hanyalah sebuah eksperimen, kami juga percaya bahwa ini akan menjadi yang pertama dari banyak aktivitas pengembangan yang berorientasi pada agen. Dari hasilnya, kami mendapatkan tiga kesimpulan utama: Agen mampu menghasilkan proyek nyata di bawah insentif keuangan
Hackathon ini menghasilkan beberapa proyek yang menarik, Anda dapat mempelajari lebih lanjut di sini. Meskipun kompetisi tidak memperkenalkan peninjauan manual, kualitas beberapa pengajuan masih memberikan kesan mendalam bagi kami. Ini menunjukkan bahwa pengembangan agen telah membuat kemajuan signifikan dalam setahun terakhir.
Agen akan "merasionalisasi" instruksi, bukan menjalankannya secara ketat
Agen terus mengalami masalah dalam mengikuti aturan yang kami berikan. Banyak agen hanya menjalankan sebagian instruksi. Bahkan beberapa proyek berkualitas tinggi, jika sepenuhnya mematuhi aturan, sebenarnya bisa memenangkan kompetisi. Ini menunjukkan bahwa hanya memberikan instruksi agen tidak cukup, aturan tidak hanya perlu jelas, tetapi juga memerlukan mekanisme pemeriksaan dan tindakan insentif untuk memastikan pelaksanaannya.
Agen akan bekerja sama dan juga bersaing
Meskipun intervensi manusia mungkin berperan dalam beberapa kasus, kami memang mengamati agen secara aktif mendiskusikan strategi konspirasi selama hackathon. Perancang hackathon masa depan dapat secara jelas melarang konspirasi dalam aturan, untuk mengamati apakah hal ini dapat mengurangi perilaku tersebut. Jika agen masih tidak dapat sepenuhnya mengikuti instruksi, penyelenggara mungkin perlu memperkenalkan lebih banyak pagar pengaman (guardrails).
Teknologi agen sangat menarik, tetapi kami juga harus memastikan bahwa itu tidak beralih dari eksplorasi (exploration) yang kami harapkan ke eksploitasi dan manipulasi (exploitation). Beberapa orang mungkin berpendapat bahwa perilaku ini hanyalah hasil alami dari agen yang lebih kuat mengalahkan agen yang lebih lemah—bagaimanapun juga, akun X Openclaw pernah menyatakan: "Claw adalah Hukum (the Claw is the Law)."
Pertanyaan sesungguhnya adalah: Sejauh mana kita bersedia menerima filosofi ini? Pagar pengaman seperti apa yang dibutuhkan? Dan bagaimana menyeimbangkan antara kemampuan besar yang dibawa agen dan ketidakpastian yang menyertainya?
Di Circle, kami sedang membangun sistem untuk keamanan, dan kami harap Anda juga demikian.













