Penulis|Nanzhi(@Assassin_Malvo)
Setelah banyak sektor terbukti salah, pasar prediksi menjadi salah satu dari sedikit sektor di lingkaran Crypto yang masih mengalami pertumbuhan positif. Pada 20 November, Nanzhi mulai mencoba menggunakan pemikiran mencari 'uang pintar' (smart money) Meme tahun lalu untuk mencari 'uang pintar' di pasar prediksi, dan mendapatkan hasil yang cukup baik di tahap awal.
Awal Desember, bertepatan dengan peluncuran Gemini 3 Pro, saat menguji model terkait, terpikirkan apakah mungkin menggunakan AI untuk menganalisis dan memprediksi pasar prediksi, dan membandingkan prediksi manusia melawan AI untuk melihat mana yang lebih akurat.
Saat memperkenalkan pasar prediksi, biasanya diklaim bahwa mereka mendorong pasar mendekati 'kebenaran' dengan 'membiarkan orang yang memiliki wawasan bertaruh dengan uang sungguhan'. Tetapi beberapa orang juga berpendapat bahwa Crypto+pasar prediksi memungkinkan 'orang dalam' untuk mendapatkan keuntungan dari perbedaan informasi (information gap) dengan aman, sehingga mendorong pasar bergerak ke arah 'hasil internal'. Ini pada dasarnya adalah pertarungan antara dua pandangan: 'kebijaksanaan kolektif' (wisdom of the crowd) dan 'kebenaran berada di tangan segelintir orang'. Prediksi AI lebih condong ke 'kebijaksanaan kolektif', sehingga membutuhkan banyak pengetahuan dan wawasan yang dapat digunakan.
Oleh karena itu, dalam hal pemilihan model AI, awalnya dipilih Gemini dan Grok, karena keduanya mengandalkan Google dan platform X, sehingga dapat memperoleh banyak pengetahuan dan wawasan secara paling langsung. Baru-baru ini Nanzhi juga menambahkan kombinasi "Douban (kemungkinan maksudnya Doubao/Douyin) + pengetahuan Douyin", tetapi karena jumlah soal prediksinya masih sedikit, belum dibahas dalam artikel ini.
Aturan Dasar
- Versi AI: Gemini 2.5 pro (dilengkapi pencarian Google), Grok 4 Fast (diakses melalui OpenRouter, mengaktifkan fitur pencarian native)
- Pemilihan Soal: Dipilih oleh manusia untuk ditaruhkan, AI mengikuti prediksi, tetapi mengecualikan sektor Crypto
- Konten Input: Judul resmi (title), deskripsi resmi (Description), opsi jawaban (sebenarnya hanya Yes dan No)
Catatan: Soal di Polymarket dibagi menjadi kategori besar Event dan subkategori Market. Kategori besar Event adalah soal dengan cakupan luas seperti "Siapa ketua Fed berikutnya" atau "Kapan Strategy akan menjual Bitcoin". Di bawah Event terdapat N sub-pasar, misalnya "Apakah Hassett akan menjadi ketua Fed berikutnya" atau "Apakah Strategy akan menjual Bitcoin sebelum 31 Maret 2026". Untuk menyelaraskan dengan prediksi manusia, di sini dipilih Market sebagai soal untuk penilaian AI, tanpa memberikan opsi lain. Misalnya, hanya memintanya menilai "Apakah Hassett akan menjadi ketua Fed berikutnya", bukan memintanya memilih satu yang paling mungkin dari N kandidat.
- Desain Prompt (Petunjuk):
- Meminta AI untuk mencari berita terbaru, pengumuman resmi, laporan analisis ahli
- Meminta untuk menghilangkan, melarang penggunaan data pasar prediksi
- Berdasarkan "bukti", gunakan penalaran logis untuk menilai
- Hanya diperbolehkan mengeluarkan Yes dan No, dan jelaskan logika penalarannya dalam satu paragraf
Hasil Saat Ini
Dari soal prediksi, 21 telah diselesaikan (settled). Grok memiliki tingkat kemenangan tertinggi 75%, manusia 66.7%, sedangkan Gemini terendah 52.4%. Hasil saat ini dapat dilihat di situs web terkait.
Kesalahan Apa yang Dilakukan AI?
Gemini Kadang Salah Menilai Waktu Saat Ini
Pada soal "Will Trump's approval rating hit 35% in 2025?", Gemini menyatakan bahwa saat ini adalah paruh pertama tahun 2025, jadi segalanya mungkin, dan memberikan jawaban asal-asalan.
Namun, ketika penulis menggunakan program untuk langsung meminta Gemini mengeluarkan waktu saat ini, Gemini dapat memberikan jawaban yang benar. Masih belum jelas mengapa terjadi kesalahan persepsi waktu seperti ini.
Kedalaman Pemikiran AI Tidak Cukup
Pada soal "Gemini 3.0 Flash released by December 16?", Grok berdasarkan "yang disebutkan resmi baru-baru ini hanya Gemini 3 Pro dan versi terkait 2.5, sangat sedikit menyebutkan 3 Flash, sehingga bukti tidak cukup untuk menilai", hanya mempertimbangkan informasi saat ini.
Sedangkan Gemini menunjukkan "Gemini 1.0 dirilis pada Desember 2023, dan versi eksperimental Gemini 2.0 Flash diluncurkan pada Desember 2024. Melanjutkan pola ini, meluncurkan versi 3.0 pada akhir 2025 adalah logis", dan menemukan "baru-baru ini (14 Desember 2025) beredar demo bocoran tentang 'Gemini 3.0 Flash' di komunitas online, semakin memperkuat kemungkinan akan segera dirilis secara publik".
Meskipun dari kesimpulannya, jawaban Gemini justru salah, tetapi dalam soal ini dapat dilihat dengan jelas perbedaan luasnya bahan yang diandalkan oleh keduanya.
AI Berdasarkan Common Sense (Penalaran Umum) Bukan Berdasarkan Bukti+Logika
Pada soal "Trump approval Up or Down this week?", Gemini menyatakan "memprediksi tingkat dukungan jajak pendapat untuk satu minggu lebih dari setahun kemudian memiliki ketidakpastian yang tinggi", pertama-tama lagi muncul situasi "salah menilai waktu". Kemudian Gemini menyatakan "dalam minggu biasa mana pun, kemungkinan terjadinya peristiwa yang menyebabkan penurunan kecil tingkat dukungan, mungkin sedikit lebih tinggi daripada kemungkinan terjadinya peristiwa positif yang dapat meningkatkan dukungan secara signifikan", jadi kemungkinan penurunan dukungan lebih besar, kesimpulan yang dihasilkan hanya berdasarkan asumsi common sense subjektif.
Sedangkan dalam soal ini, Grok berdasarkan berita seperti "pemerintah tutup (shutdown), kekhawatiran ekonomi, kontroversi kebijakan imigrasi, serta dampak negatif dari komentar tentang meninggalnya Rob Reiner" dan data jajak pendapat, sesuai dengan desain yang diharapkan.
Salah Menilai Kondisi Penyelesaian (Settlement Condition)
Pada soal "Will Trump release the Epstein files by December 20?", Gemini dan Grok均已知道 (telah mengetahui) "pemerintah akan merilis 'ratusan ribu halaman' dokumen pada Jumat (19 Desember)", sedangkan dalam kondisi penyelesaian dinyatakan dengan jelas "pemerintah merilis secara publik dokumen apa pun yang terkait dengan aktivitas ilegal Epstein dan yang belum dipublikasikan sebelum tanggal yang tercantum, akan dinilai sebagai Yes".
Namun, dalam kondisi ini, Gemini menyatakan "menyelesaikan publikasi 'semua' dokumen sebelum 20 Desember adalah tidak mungkin", jelas salah menilai kondisi yang diperlukan untuk penyelesaian, sehingga memberikan jawaban yang salah.
Kesimpulan
Kesimpulannya, tingkat kemenangan prediksi Grok telah melampaui 'uang pintar' (smart money) yang menghasilkan keuntungan ratusan ribu, bahkan jutaan dolar di pasar prediksi ini. Namun, setelah menyelidiki lebih dalam logika prediksinya, masih banyak hal yang dapat dibimbing dan diperbaiki.








