Orisinil | Odaily Planet Daily (@OdailyChina)
Penulis | Nan Zhi (@Assassin_Malvo)
Setelah banyak sektor terbukti salah, pasar prediksi menjadi salah satu dari sedikit sektor di dunia Crypto yang masih mengalami pertumbuhan positif. Pada 20 November, Nan Zhi mulai mencoba menggunakan pemikiran mencari 'smart money' Meme tahun lalu untuk mencari 'smart money' di pasar prediksi, dan mencapai hasil yang cukup baik pada tahap awal.
Awal Desember, bertepatan dengan peluncuran Gemini 3 Pro, saat menguji model terkait, terpikirkan apakah mungkin menggunakan AI untuk menganalisis dan memprediksi pasar prediksi, dan membandingkan manusia melawan AI untuk melihat mana yang lebih akurat prediksinya.
Saat memperkenalkan pasar prediksi, biasanya diklaim bahwa mereka mendorong pasar mendekati 'kebenaran' dengan 'membuat orang yang memiliki wawasan bertaruh dengan uang sungguhan'. Namun, beberapa orang berpendapat bahwa Crypto + pasar prediksi memungkinkan 'orang dalam' untuk mendapatkan keuntungan dengan aman dari perbedaan informasi (information gap), sehingga mendorong pasar ke arah 'hasil internal'. Pada dasarnya, ini adalah pertarungan antara dua pandangan: 'kebijaksanaan kolektif' dan 'kebenaran berada di tangan segelintir orang'. Prediksi AI lebih condong ke 'kebijaksanaan kolektif', sehingga membutuhkan banyak pengetahuan dan wawasan yang dapat digunakan.
Oleh karena itu, dalam memilih model AI, awalnya dipilih Gemini dan Grok, karena keduanya mengandalkan Google dan platform X, sehingga dapat memperoleh banyak pengetahuan dan wawasan secara langsung. Baru-baru ini Nan Zhi menambahkan kombinasi 'Douban (Doubao) + pengetahuan Douyin (TikTok)', tetapi karena jumlah soal prediksi masih sedikit, hal ini tidak dibahas dalam artikel ini.
Aturan Dasar
- Versi AI: Gemini 2.5 pro (dilengkapi pencarian Google), Grok 4 Fast (diakses melalui OpenRouter, mengaktifkan fungsi pencarian native)
- Pemilihan Soal: Dipilih oleh manusia untuk ditaruhkan, AI mengikuti memprediksi, tetapi mengecualikan sektor Crypto
- Konten Input: Judul resmi (title), deskripsi resmi (Description), opsi jawaban (sebenarnya hanya Yes dan No)
Catatan: Soal di Polymarket dibagi menjadi kategori besar Event dan subkategori Market. Kategori besar Event adalah soal dengan cakupan luas seperti 'Siapa ketua Fed berikutnya' atau 'Kapan Strategy akan menjual Bitcoin'. Di bawah Event, terdapat N sub-pasar, misalnya 'Apakah Hassett akan menjadi ketua Fed berikutnya' atau 'Apakah Strategy akan menjual Bitcoin sebelum 31 Maret 2026'. Untuk menyelaraskan dengan prediksi manusia, di sini dipilih Market sebagai soal untuk penilaian AI, tanpa memberikan opsi lain. Misalnya, hanya memintanya menilai 'Apakah Hassett akan menjadi ketua Fed berikutnya', bukan memintanya memilih yang paling mungkin dari N kandidat.
- Desain Prompt (Petunjuk):
- Meminta AI untuk mencari berita terbaru, pengumuman resmi, laporan analisis ahli
- Meminta untuk menghilangkan, melarang penggunaan data pasar prediksi
- Berdasarkan 'bukti', gunakan penalaran logis untuk menilai
- Hanya diperbolehkan mengeluarkan Yes dan No, dan jelaskan logika penalaran dalam satu paragraf
Hasil Saat Ini
Dari soal prediksi, 21 telah diselesaikan. Grok memiliki tingkat kemenangan tertinggi 75%, manusia 66.7%, dan Gemini terendah 52.4%. Hasil saat ini dapat dilihat di situs web terkait.
Kesalahan Apa yang Dilakukan AI?
Gemini Kadang Salah Menilai Waktu Saat Ini
Pada soal "Will Trump's approval rating hit 35% in 2025?", Gemini menyatakan bahwa saat ini adalah paruh pertama tahun 2025, jadi segalanya mungkin, dan memberikan jawaban sembarangan.
Namun, ketika penulis menggunakan program untuk langsung meminta Gemini mengeluarkan waktu saat ini, Gemini dapat memberikan jawaban yang benar. Masih belum jelas mengapa terjadi kesalahan persepsi waktu seperti ini.
Kedalaman Pemikiran AI Tidak Cukup
Pada soal "Gemini 3.0 Flash released by December 16?", Grok berdasarkan "yang disebutkan resmi baru-baru ini hanya Gemini 3 Pro dan versi terkait 2.5, sangat sedikit menyebutkan 3 Flash, sehingga bukti tidak cukup untuk menilai", hanya mempertimbangkan informasi saat ini.
Sedangkan Gemini menunjukkan "Gemini 1.0 dirilis pada Desember 2023, dan versi eksperimental Gemini 2.0 Flash diluncurkan pada Desember 2024. Melanjutkan pola ini, meluncurkan versi 3.0 pada akhir 2025 adalah logis", dan menemukan "baru-baru ini (14 Desember 2025) beredar demo bocoran tentang 'Gemini 3.0 Flash' di komunitas online, semakin memperkuat kemungkinan akan segera dirilis secara publik".
Meskipun dari kesimpulannya, jawaban Gemini justru salah, tetapi dalam soal ini dapat dilihat dengan jelas perbedaan luasnya bahan yang diandalkan oleh keduanya.
AI Berdasarkan Akal Sehat, Bukan Berdasarkan Bukti + Logika untuk Menyimpulkan
Pada soal "Trump approval Up or Down this week?", Gemini menyatakan "memperkirakan tingkat persetujuan jajak pendapat untuk satu minggu lebih dari setahun kemudian memiliki ketidakpastian yang tinggi", pertama-tama lagi-lagi muncul situasi "salah menilai waktu". Kemudian Gemini menyatakan "dalam minggu biasa mana pun, kemungkinan terjadinya peristiwa yang menyebabkan penurunan sedikit tingkat persetujuan, mungkin sedikit lebih tinggi daripada kemungkinan terjadinya peristiwa positif yang dapat meningkatkan tingkat persetujuan secara signifikan", jadi kemungkinan penurunan tingkat persetujuan lebih besar, kesimpulan yang dihasilkan hanya berdasarkan asumsi akal sehat subjektif.
Sedangkan dalam soal ini, Grok berdasarkan berita seperti "pemerintah tutup, kekhawatiran ekonomi, kontroversi kebijakan imigrasi, serta dampak negatif dari komentar tentang meninggalnya Rob Reiner" dan data jajak pendapat, sesuai dengan desain yang diharapkan.
Salah Menilai Kondisi Penyelesaian
Pada soal "Will Trump release the Epstein files by December 20?", Gemini dan Grok均已知道 (telah mengetahui) "pemerintah akan merilis 'ratusan ribu halaman' dokumen pada Jumat (19 Desember)", sedangkan dalam kondisi penyelesaian ditegaskan bahwa "pemerintah merilis secara publik dokumen apa pun yang terkait dengan aktivitas ilegal Epstein dan belum dipublikasikan sebelum tanggal yang tercatat, akan dinilai sebagai Yes".
Namun, dalam kondisi ini, Gemini menyatakan "menyelesaikan publikasi 'semua' dokumen sebelum 20 Desember adalah tidak mungkin", jelas salah menilai kondisi yang diperlukan untuk penyelesaian, sehingga memberikan jawaban yang salah.
Kesimpulan
Kesimpulannya, tingkat kemenangan prediksi Grok telah melampaui 'smart money' yang menghasilkan keuntungan ratusan ribu, bahkan jutaan dolar di pasar prediksi ini, tetapi menyelami lebih dalam logika prediksinya, masih banyak hal yang dapat dibimbing dan diperbaiki.








