Auteur|Nan Zhi (@Assassin_Malvo)
Après que la plupart des domaines aient été invalidés, le marché des prédictions est devenu l'un des rares secteurs de l'écosystème Crypto à connaître une croissance positive. Le 20 novembre, Nan Zhi a commencé à essayer d'utiliser l'approche de recherche de "smart money" dans les Meme, appliquée l'année dernière, pour trouver la "smart money" sur le marché des prédictions, et a obtenu de bons résultats dans les premières phases.
Début décembre, lors du lancement de Gemini 3 Pro, en testant les modèles associés, l'idée est venue d'utiliser l'IA pour analyser et prédire le marché des prédictions, et de confronter les humains à l'IA pour voir laquelle des deux prédictions serait plus précise.
Lorsqu'on présente le marché des prédictions, il est généralement décrit comme poussant le marché vers la "vérité" en "permettant à des personnes avisées de parier avec de l'argent réel". Mais certains pensent aussi que Crypto + marché des prédictions permet aux "initiés" de profiter en toute sécurité des profits tirés des asymétries d'information, conduisant ainsi le marché vers le "résultat connu des initiés". Il s'agit essentiellement d'un affrontement entre deux visions : "la sagesse des foules" et "la vérité est entre les mains d'une minorité". La prédiction par l'IA penche plutôt vers la "sagesse des foules", elle nécessite donc une grande quantité de connaissances et d'avis disponibles.
Ainsi, pour le choix du modèle d'IA, Gemini et Grok ont été initialement sélectionnés car ils s'appuient sur Google et la plateforme X, permettant un accès direct à une vaste quantité de connaissances et d'opinions. Récemment, Nan Zhi a ajouté la combinaison "Douyin (TikTok) + connaissances de Douyin", mais en raison du nombre encore limité de questions de prédiction, celle-ci n'est pas abordée dans cet article.
Règles de base
- Versions de l'IA : Gemini 2.5 pro (avec recherche Google intégrée), Grok 4 Fast (appelé via OpenRouter, fonction de recherche native activée)
- Choix des questions : Les questions sur lesquelles parier sont choisies par un humain, l'IA suit pour prédire, mais le secteur Crypto est exclu.
- Contenu saisi : Le titre officiel (title), la description officielle (Description), les réponses possibles (en réalité seulement Oui et Non).
Note : Les questions sur Polymarket sont divisées en grandes catégories Event et sous-catégories Market. La grande catégorie Event correspond à des questions larges comme "Qui sera le prochain président de la Fed" ou "Quand Strategy vendra-t-il ses bitcoins". Sous chaque Event, il y a N sous-marchés, par exemple "Est-ce que Hassett deviendra le prochain président de la Fed" ou "Est-ce que Strategy vendra ses bitcoins avant le 31 mars 2026". Pour s'aligner sur la prédiction humaine, le Market a été choisi comme question pour le jugement de l'IA, sans lui fournir d'autres options. Par exemple, on lui demande seulement de juger "Est-ce que Hassett deviendra le prochain président de la Fed", et non de choisir le plus probable parmi N candidats.
- Conception de l'invite (prompt) :
- Demander à l'IA de rechercher les dernières actualités, annonces officielles, rapports d'analyse d'experts.
- Exiger d'exclure, d'interdire l'utilisation des données du marché des prédictions.
- Baser le jugement sur des "preuves" en utilisant un raisonnement logique.
- N'autoriser que la sortie de Oui ou Non, avec un paragraphe expliquant la logique du raisonnement.
Résultats actuels
Parmi les questions de prédiction, 21 ont été clôturées. Grok a le taux de réussite le plus élevé à 75%, les humains à 66,7%, et Gemini le plus bas à 52,4%. Les résultats actuels peuvent être consultés sur le site web associé.
Quelles erreurs l'IA a-t-elle commises ?
Gemini se trompe occasionnellement sur la date actuelle
Pour la question "Will Trump's approval rating hit 35% in 2025?", Gemini a indiqué que nous étions au premier semestre 2025, donc tout était possible, et a donné une réponse erronée.
Cependant, lorsque l'auteur a demandé directement à Gemini via un programme d'afficher l'heure actuelle, Gemini a pu donner la bonne réponse. On ne sait pas encore pourquoi cette mauvaise perception du temps se produit.
La profondeur de réflexion de l'IA est insuffisante
Pour la question "Gemini 3.0 Flash released by December 16?", Grok s'est basé sur le fait que "officiellement, seules les versions Gemini 3 Pro et 2.5 ont été mentionnées récemment, très peu pour la 3 Flash, donc preuves insuffisantes pour juger", ne considérant que les informations immédiates.
Alors que Gemini a noté que "Gemini 1.0 a été publié en décembre 2023, et la version expérimentale de Gemini 2.0 Flash en décembre 2024. En suivant cette logique, il est plausible de sortir la version 3.0 fin 2025", et a même découvert "une démo fuite concernant 'Gemini 3.0 Flash' circulant dans les communautés en ligne récemment (14 décembre 2025), renforçant la possibilité d'une publication imminente".
Bien que, conclusion ironique, la réponse de Gemini se soit avérée incorrecte, on voit clairement dans cette question un écart significatif dans l'étendue des sources sur lesquelles s'appuient les deux modèles.
L'IA base son raisonnement sur le bon sens plutôt que sur des preuves + logique
Pour la question "Trump approval Up or Down this week?", Gemini a déclaré : "Prédire le taux d'approbation sur une seule semaine plus d'un an à l'avance est très incertain", montrant à nouveau une "erreur temporelle". Ensuite, Gemini a affirmé que "dans n'importe quelle semaine ordinaire, la probabilité qu'un événement entraînant une légère baisse de l'approbation est probablement légèrement plus élevée que celle d'un événement positif capable d'augmenter significativement le taux d'approbation", donc une plus grande probabilité de baisse, générant une conclusion basée uniquement sur une hypothèse de bon sens subjective.
Pour cette même question, Grok s'est basé sur des articles de presse et des données de sondage concernant "la fermeture du gouvernement, les inquiétudes économiques, les controverses sur la politique d'immigration, et l'impact négatif des commentaires sur la mort de Rob Reiner", ce qui correspond aux attentes de conception.
Erreur de jugement sur les conditions de règlement
Pour la question "Will Trump release the Epstein files by December 20?", Gemini et Grok savaient tous deux que "le gouvernement publierait des 'centaines de milliers de pages' de documents vendredi (19 décembre)", et les conditions de règlement stipulaient clairement que "si le gouvernement publie publiquement tout document lié aux activités illégales d'Epstein qui n'était pas public avant la date indiquée, cela sera jugé comme Oui".
Cependant, dans cette condition, Gemini a déclaré qu"'il est impossible de terminer la publication de 'tous' les documents avant le 20 décembre", se trompant clairement sur la condition requise pour le règlement, et a donc donné une mauvaise réponse.
Synthèse
En résumé, le taux de réussite des prédictions de Grok a déjà dépassé celui de ces "smart money" qui ont gagné des centaines de milliers, voire des millions de dollars sur le marché des prédictions. Mais en examinant en profondeur sa logique de prédiction, il reste de nombreuses pistes d'amélioration et de correction possibles.








