Original | Odaily Planet Daily (@OdailyChina)
Auteur | NanZhi (@Assassin_Malvo)
Après que la plupart des secteurs aient été invalidés, le marché des prédictions est devenu l'un des rares secteurs de l'écosystème Crypto à encore connaître une croissance positive. Le 20 novembre, NanZhi a commencé à essayer d'utiliser l'approche de recherche de "smart money" dans les Meme de l'année dernière pour trouver la "smart money" sur le marché des prédictions, et a obtenu de bons résultats dans les premières phases.
Début décembre, alors que Gemini 3 Pro venait juste de sortir, en testant les modèles associés, l'idée est venue d'utiliser l'IA pour analyser et prédire le marché des prédictions, et de confronter les humains à l'IA pour voir laquelle des deux prédictions serait plus précise.
Lorsqu'on présente le marché des prédictions, il est généralement décrit comme favorisant le rapprochement du marché vers la "vérité" en "permettant à des personnes avisées de parier avec de l'argent réel". Mais certains pensent aussi que Crypto + marché des prédictions permet aux "initiés" de profiter en toute sécurité des profits générés par le décalage informationnel, conduisant ainsi le marché à évoluer vers le "résultat connu des initiés". Il s'agit essentiellement d'un affrontement entre deux points de vue : "la sagesse des foules" et "la vérité est entre les mains d'une minorité". La prédiction par l'IA s'apparente davantage à la "sagesse des foules", elle nécessite donc une grande quantité de connaissances et d'avis disponibles.
C'est pourquoi, concernant le choix du modèle d'IA, Gemini et Grok ont été initialement sélectionnés parce qu'ils s'appuient respectivement sur Google et la plateforme X, permettant un accès direct à une grande quantité de connaissances et d'opinions. Récemment, NanZhi a ajouté la combinaison "Douban + connaissances de Douyin", mais comme il n'y a pas beaucoup de questions de prédiction concernées pour le moment, cela n'est pas abordé dans cet article.
Règles de base
- Versions de l'IA : Gemini 2.5 pro (avec recherche Google intégrée), Grok 4 Fast (appelé via OpenRouter, fonction de recherche native activée)
- Choix des questions : Les questions sur lesquelles parier sont choisies par un humain, l'IA suit pour prédire, mais le secteur Crypto est exclu.
- Contenu saisi : Le titre officiel (title), la description officielle (Description), les réponses possibles (en réalité seulement Oui et Non)
Note : Les questions sur Polymarket sont divisées en grandes catégories Event et sous-catégories Market. La grande catégorie Event correspond à des questions larges comme "Qui sera le prochain président de la Fed" ou "Quand Strategy vendra-t-il du Bitcoin". Sous un Event, il y a N sous-marchés, par exemple "Est-ce que Hassett deviendra le prochain président de la Fed" ou "Est-ce que Strategy vendra du Bitcoin avant le 31 mars 2026". Pour s'aligner sur la prédiction humaine, le Market a été choisi comme question pour le jugement de l'IA, sans lui fournir d'autres options. Par exemple, on lui demande seulement de juger "Est-ce que Hassett deviendra lenext président de la Fed", et non de choisir le plus probable parmi N candidats.
- Conception de l'invite (prompt) :
- Demander à l'IA de rechercher les dernières actualités, annonces officielles, rapports d'analyse d'experts.
- Exiger d'exclure, d'interdire l'utilisation des données du marché des prédictions.
- Baser le jugement sur des "preuves" en utilisant un raisonnement logique.
- Autoriser uniquement la sortie de Oui et Non, avec un paragraphe expliquant la logique du raisonnement.
Résultats actuels
Parmi les questions de prédiction, 21 ont été clôturées. Grok a le taux de réussite le plus élevé à 75 %, les humains à 66,7 %, et Gemini le plus faible à 52,4 %. Les résultats actuels peuvent être consultés sur le site web associé.
Quelles erreurs l'IA a-t-elle commises ?
Gemini se trompe occasionnellement sur la date actuelle
Pour la question "Will Trump's approval rating hit 35% in 2025?", Gemini a indiqué que nous étions actuellement au premier semestre 2025, donc tout était possible, et a donné une réponse erronée.
Mais lorsque l'auteur a demandé directement à Gemini via un programme d'afficher l'heure actuelle, Gemini a pu donner la bonne réponse. On ne sait pas encore pourquoi cette mauvaise perception du temps se produit.
La profondeur de réflexion de l'IA est insuffisante
Pour la question "Gemini 3.0 Flash released by December 16?", Grok s'est basé sur le fait que "officiellement, seules les versions Gemini 3 Pro et 2.5 ont été mentionnées récemment, très peu mention a été faite de la 3 Flash, donc preuves insuffisantes pour juger", ne considérant que les informations immédiates.
Alors que Gemini a souligné "Gemini 1.0 a été publié en décembre 2023, et la version expérimentale de Gemini 2.0 Flash est sortie en décembre 2024. En suivant cette logique, il est plausible qu'une version 3.0 sorte fin 2025", et a même découvert "une démo fuite concernant 'Gemini 3.0 Flash' circulant dans les communautés en ligne récemment (14 décembre 2025), renforçant further la possibilité de sa sortie publique imminente".
Bien que, conclusion, la réponse de Gemini se soit avérée incorrecte, on peut clairement voir dans cette question l'écart important dans l'étendue des sources sur lesquelles les deux modèles s'appuient.
L'IA base son raisonnement sur le bon sens plutôt que sur des preuves + logique
Pour la question "Trump approval Up or Down this week?", Gemini a déclaré "Prédire le taux d'approbation dans les sondages pour une seule semaine plus d'un an à l'avance est très incertain", montrant à nouveau une "mauvaise perception du temps". Ensuite, Gemini a indiqué que "dans n'importe quelle semaine ordinaire, la probabilité qu'un événement entraînant une légère baisse du taux d'approbation est probablement légèrement plus élevée que celle d'un événement positif capable d'augmenter significativement le taux d'approbation", donc une plus grande probabilité que le taux baisse, générant une conclusion basée uniquement sur une hypothèse de bon sens subjective.
Pour cette question, Grok s'est basé sur des reportages et des données de sondage concernant "la fermeture du gouvernement, les inquiétudes économiques, les controverses sur la politique d'immigration et l'impact négatif des commentaires sur la mort de Rob Reiner", ce qui correspond aux attentes de conception.
Erreur de jugement sur les conditions de règlement
Pour la question "Will Trump release the Epstein files by December 20?", Gemini et Grok savaient tous deux que "le gouvernement publierait 'des centaines de milliers de pages' de fichiers vendredi (19 décembre)", et les conditions de règlement stipulaient clairement que "si le gouvernement publie publiquement tout document lié aux activités illégales d'Epstein qui n'était pas public avant la date indiquée, cela sera jugé comme Oui".
Cependant, dans cette condition, Gemini a déclaré qu"'il était impossible de terminer la publication de 'tous' les documents avant le 20 décembre", ayant clairement mal interprété les conditions requises pour le règlement, et a donc donné une mauvaise réponse.
Synthèse
En résumé, le taux de réussite des prédictions de Grok a déjà dépassé celui de ces "smart money" qui ont gagné des centaines de milliers, voire des millions de dollars sur le marché des prédictions. Mais en examinant en profondeur sa logique de prédiction, il reste encore beaucoup de points à guider et à corriger.








