世界杯才踢几天，AI预测已经有模型封神，有模型翻车

Odaily星球日报Publié le 2026-06-15Dernière mise à jour le 2026-06-15

Résumé

世界杯期间，AI预测模型成为预测市场的新兴参考工具。首日比赛，阿里千问成功预测墨西哥2:0胜南非，并提示南非红牌风险，随后又命中韩国2:1逆转捷克，引发关注。微软Copilot对完整赛程进行了预测，成功押中墨西哥、韩国及巴西被摩洛哥逼平的具体比分，但也出现多次误判，尤其在冷门比赛如澳大利亚胜土耳其、日本平荷兰等场次中表现不佳。 ChatGPT在单场比赛分析中展现出完整逻辑，如准确预测揭幕战比分并给出合理理由，但其完整赛程预测更偏向纸面强队，对爆冷赛事敏感度不足。其他模型如Gemini、Grok和Claude在测试中表现各异，预测结果存在差异。总体而言，目前AI模型在世界杯预测中已有亮眼表现，可作为辅助参考，但远非绝对准确。其稳定性、对冷门的识别能力仍有待更多比赛检验。后续将持续追踪各模型预测与实际赛果的对比。

原创 | Odaily 星球日报(@OdailyChina)

作者 | Asher(@Asher_ 0210)

本届世界杯,最热闹的地方不只在球场上。

随着世界杯相关预测事件热度升温,越来越多用户开始用真金白银参与交易。谁能赢、几比几、会不会爆冷、有没有红牌、哪名球员能进球,这些原本属于球迷赛前闲聊的话题,如今被拆成了一个个可以交易的预测事件。

而当预测变成交易,用户需要的就不只是情绪和直觉:赔率变化、球队状态、伤病信息、历史交锋、市场情绪,都会成为交易前的参考。在这一过程中,AI 模型开始被频繁拉进世界杯预测场景里。

千问、ChatGPT、Gemini、Claude、DeepSeek、Qwen 以及 Copilot 等大模型,不仅能回答“哪支球队更可能赢”,还能给出比分判断、爆冷可能、红牌风险、关键球员表现和比赛走势分析。对于预测市场参与者来说,AI 的赛前推演,正在成为赔率、新闻、球队数据和市场情绪之外的另一层参考。

不过,预测最终仍要回到比赛本身。

随着世界杯正式开赛,前几场比赛结果已经陆续出炉。那些赛前被用户拿来辅助判断的 AI 分析,也终于有了可以对照的答案:比分有没有押中,爆冷有没有提前看到,红牌、绝杀、比赛走势这些细节,又有多少真正被模型捕捉到了。

最先出圈的,竟是千问

世界杯首日最有节目效果的,无疑是千问。

揭幕战墨西哥对南非,千问赛前给出的预测是墨西哥 2:0 南非。比赛结束后,比分真的定格在 2:0。更有看点的是,全场一共出现三张红牌,也和千问赛前提到的“南非防守动作过大、可能早早陷入少打一人”的风险判断基本吻合。

如果只是判断墨西哥取胜,这并不算太意外。作为东道主之一,墨西哥本身就更被看好。但千问这次踩中的是更具体的比赛细节:2:0 的比分、南非的红牌风险,以及比赛中后段被逐渐拉开的节奏。

紧接着,韩国对捷克这场,千问又给出了韩国 2:1 的判断。

这场比赛赛前并不算好猜。捷克有身体对抗,有定位球威胁,也有欧洲球队一贯的大赛经验。比赛过程也确实没有一边倒,捷克先取得领先,韩国随后扳平,比赛一度长时间僵在 1:1。直到最后阶段,韩国打进制胜球,比分最终变成 2:1。

这一下,千问的预测就有了更强的“剧本感”。胜负判断可以靠纸面实力,比分预测可以有运气成分,但红牌、逆转、最后阶段制胜这些过程细节,才真正让人觉得“有点东西”。首日两场之后,千问先把 AI 预测世界杯的关注度拉了起来。

Copilot:有神来一笔,也有明显翻车

赛前,USA Today 曾让 Copilot 预测了本届世界杯全部 104 场比赛。从目前已经结束的比赛来看,这份预测既有高光,也有明显失手。

其中,有三场比赛的预测最亮眼。

揭幕战墨西哥对南非,Copilot 给出的预测是墨西哥 2:0,最终比分正好命中。韩国对捷克,它预测韩国 2:1,同样与赛果一致。到了巴西对摩洛哥,Copilot 又给出 1:1 的判断,结果巴西真的被摩洛哥逼平。

尤其是巴西 1:1 摩洛哥这场,含金量不低。巴西毕竟是传统豪门,阵容和关注度都在第一梯队。摩洛哥虽然上届世界杯打进四强,但面对巴西,赛前直接预测双方打平,并不是一个特别安全的选择。结果比赛踢完,巴西没有拿下开门红,摩洛哥也延续了自己在大赛中的韧性,Copilot 这场预测确实是“神来一笔”。

但 Copilot 的问题也很快暴露出来。

它预测加拿大 2:1 战胜波黑,结果双方踢成 1:1;预测瑞士 1:0 小胜卡塔尔,结果瑞士同样被逼平;预测美国 2:0 巴拉圭,方向虽然对了,但实际比分是 4:1,进攻强度被明显低估。

更明显的翻车,出现在几场爆冷和强队受阻的比赛里。

土耳其对澳大利亚,Copilot 预测土耳其 2:1 取胜,结果澳大利亚 2:0 爆冷赢球。厄瓜多尔对科特迪瓦,它预测厄瓜多尔 2:1,结果科特迪瓦 1:0 拿下。荷兰对日本,它预测荷兰 2:1,结果日本两度追平,最终双方 2:2 战平。瑞典对突尼斯,它预测 1:1,结果瑞典直接踢出 5:1。

Copilot 能押中墨西哥、韩国、巴西这几场具体比分,说明并不是只会顺着热门队给答案。但澳大利亚击败土耳其、卡塔尔逼平瑞士、日本逼平荷兰这些比赛,也暴露出它对冷门和平局的判断仍然偏保守。

ChatGPT:分析很完整,但冷门抓得不够准

相比 Copilot 的完整赛程预测,ChatGPT 更像是一个“赛前分析型选手”。

在揭幕战预测中,ChatGPT 预测墨西哥 2:0 南非,最终比分命中。它给出的理由也比较完整,包括墨西哥的主场优势、近期状态、南非进攻乏力,以及墨西哥城高海拔和主场氛围等因素。这次预测中,ChatGPT 不只是给了结果,背后的判断逻辑也和比赛结果对上了。

但到了对世界杯完整赛程预测里,ChatGPT 的稳定性就没那么强。虽然它命中了墨西哥 2:0 南非和巴西 1:1 摩洛哥,也看对了苏格兰、德国、瑞典等几场比赛的胜负方向。但在韩国 2:1 捷克、卡塔尔 1:1 瑞士、澳大利亚 2:0 土耳其、日本 2:2 荷兰这些比赛上,ChatGPT 的判断都预测了纸面实力更强的队伍。比如瑞士应该赢卡塔尔,土耳其应该赢澳大利亚,荷兰应该小胜日本。

ChatGPT 不是没有预测能力,它能把球队实力、主场环境、近期状态拆得很清楚,也能在部分比赛里命中比分。但从目前结果看,它更擅长解释“为什么热门队更合理”,而不是提前识别哪些比赛可能偏离热门剧本。

Gemini、Grok、Claude:同一场比赛,不同模型写出不同剧本

除了千问、Copilot 和 ChatGPT,还有一些社媒用户把同一场比赛喂给多个模型做赛前预测。

以揭幕战墨西哥对南非为例,有博主同时测试了 ChatGPT、Gemini、Grok 和 Claude 四款 AI 模型进行赛前预测。结果显示,ChatGPT 和 Gemini 都给出了墨西哥 2:0 南非的预测,最终比分正好命中;Grok 预测墨西哥 2:1,Claude 预测墨西哥 3:1,虽然都看对了墨西哥取胜,但没有押中具体比分。

这次揭幕战的预测,不同模型给出了三种不同的“剧本”。ChatGPT Go 和 Gemini Pro 更接近实际比赛:墨西哥占优,南非进攻乏力,最终被零封。Grok 更像是给了一个相对开放的比分,认为南非会有反击收获。Claude Sonnet 则把墨西哥的进攻预期拉得更高,给出了 3:1 这种更大开大合的结果。

小结

由于目前可回溯的 AI 预测样本仍然有限,现阶段还不能直接判断哪个模型最“懂球”。

但只看已经结束的几场比赛,差异已经开始显现。千问目前最有记忆点,首日连续命中墨西哥 2:0 南非、韩国 2:1 捷克,还踩中了红牌风险和比赛走势,属于小样本里的高光表现。不过,后续能否持续命中,还需要更多比赛验证。

Copilot 和 ChatGPT,两者都有命中具体比分的高光,但也都暴露出一个共同问题——面对澳大利亚击败土耳其、卡塔尔逼平瑞士、日本战平荷兰这类偏离纸面实力的比赛,判断仍然不够敏感。

至于 Gemini、Grok、Claude 等模型,目前公开样本更多集中在单场或社媒对照,参考价值有,但还不适合直接下排名。

AI 已经可以成为世界杯预测市场用户的一层参考,但还远不是标准答案。接下来,Odaily星球日报也会继续收集各模型赛前预测,并随着比赛推进持续回看:哪些模型只是开局运气好,哪些模型真的能在更多场次里经得起赛果检验。

Questions liées

Q在文章提到的AI模型中，哪个模型在世界杯首日的预测中表现最为突出，并具体说明了哪些细节？

A在世界杯首日的预测中，千问的表现最为突出。它成功预测了墨西哥2:0战胜南非的比分，并提到了南非可能因防守动作过大而吃到红牌的风险，这都与实际比赛情况吻合。此外，它还准确预测了韩国2:1战胜捷克的比分和比赛过程。

QCopilot在哪些比赛的预测中表现亮眼，又在哪些比赛中出现了明显的翻车？

ACopilot在墨西哥2:0南非、韩国2:1捷克和巴西1:1摩洛哥这几场比赛的预测中表现亮眼，准确命中了比分。然而，它在加拿大对波黑（预测2:1，实际1:1）、瑞士对卡塔尔（预测1:0，实际1:1）以及土耳其对澳大利亚（预测土耳其2:1胜，实际澳大利亚2:0胜）等比赛中出现了明显的预测失误。

Q根据文章描述，ChatGPT在世界杯预测中表现出了什么特点？

AChatGPT在世界杯预测中表现出了“赛前分析型选手”的特点。它不仅能给出预测结果，还能提供相对完整的分析逻辑，例如在预测墨西哥2:0南非时，提到了主场优势、近期状态和高海拔等因素。但文章指出，它在判断可能偏离纸面实力的比赛（如冷门或平局）时，表现不够敏感，更倾向于支持热门队伍。

Q文章中提到有博主测试了多个AI模型对同一场比赛（墨西哥对南非）的预测，结果如何？

A有博主同时测试了ChatGPT、Gemini、Grok和Claude四款AI模型对墨西哥对南非揭幕战的预测。结果是：ChatGPT和Gemini都准确预测了墨西哥2:0获胜；Grok预测墨西哥2:1获胜；Claude预测墨西哥3:1获胜。后两个模型虽然判断对了胜负，但没有命中具体比分。

Q文章作者对目前AI模型在世界杯预测中的总体表现做出了怎样的评价和展望？

A文章作者认为，由于目前可回溯的预测样本仍然有限，尚不能直接判断哪个模型最“懂球”。AI可以作为预测市场用户的一层参考，但远非标准答案。作者指出，不同的模型在部分场次有高光表现，但也暴露出对冷门比赛判断不够敏感等问题。文章最后表示，将继续收集各模型的赛前预测，并随着比赛推进检验其长期表现。

Lectures associées

Guide d'investissement en période de creux par Grayscale : Évaluer la valeur des cryptomonnaies grâce aux flux de trésorerie

**Guide Grayscale pour investir au plus bas : Évaluer la cryptomonnaie via les flux de trésorerie** Le marché cryptographique actuel nécessite des méthodes de valorisation plus sophistiquées, au-delà de la simple spéculation. Si les actifs de type "marchandise" comme le Bitcoin restent difficiles à évaluer, de nombreux autres actifs, notamment les tokens DeFi, s'apparentent à des droits financiers générateurs de flux de trésorerie et peuvent donc être valorisés à l'aide de cadres d'analyse traditionnels comme l'actualisation des flux de trésorerie (DCF). Ce rapport prend pour exemple Aave, un protocole de prêt décentralisé leader. Il démontre comment sa valeur peut être calculée en analysant les revenus du protocole, les mécanismes de capture de valeur pour les détenteurs de tokens (comme les rachats de tokens) et en utilisant des multiples comme le ratio cours/bénéfice (P/E). Aave présente des revenus nets solides, une trésorerie diversifiée et une trajectoire de croissance liée à l'adoption des stablecoins et des actifs tokenisés (RWA). Le point clé est que la réussite d'un protocole (ses revenus) ne garantit pas automatiquement la hausse de son token. Les mécanismes de "capture de valeur" (redistribution, brûlage, rachats) sont essentiels pour lier la performance économique au prix du token. De plus, l'incertitude réglementaire autour des DAOs, qui pourraient être clarifiée par des lois comme le "CLARITY Act", reste un facteur à considérer. En conclusion, le marché se mature et récompense désormais les projets aux fondamentaux solides et aux modèles économiques durables. Pour les investisseurs, cela signifie adopter une approche axée sur la valeur, en analysant les flux de trésorerie, la profitabilité et les mécanismes de gouvernance des protocoles comme Aave, Uniswap ou MakerDAO (Sky) pour identifier des opportunités d'investissement rationnelles.

marsbitIl y a 50 mins

Guide d'investissement en période de creux par Grayscale : Évaluer la valeur des cryptomonnaies grâce aux flux de trésorerie

marsbitIl y a 50 mins

Après la hausse des semi-conducteurs, les fonds achètent-ils des commandes d'IA ou tablent-ils sur un rebond macroéconomique ?

**TL;DR** Une détente géopolitique au Moyen-Orient (accord-cadre sur un cessez-le-feu et la circulation dans le détroit d'Hormuz) a entraîné une baisse du prix du pétrole et des attentes d'inflation, soulageant ainsi la pression sur les actions de croissance à haute valorisation. Cela a déclenché une hausse des marchés américains le 18 juin, particulièrement marquée dans les semi-conducteurs et la chaîne d'approvisionnement matérielle de l'IA. La question centrale est de savoir si cette hausse représente un retour aux fondamentaux de l'IA ou une simple correction de valorisation sélective. L'analyse suggère que les flux se sont orientés de manière préférentielle vers les maillons matériels de l'IA (puces, interconnexion optique, mémoire, fabrication locale) où les revenus et les commandes sont plus tangibles et vérifiables par les dépenses d'investissement des entreprises. L'exemple d'Intel (+10-11%), boosté par des déclarations politiques de Trump sur une potentielle collaboration avec Apple pour une fabrication locale, illustre la combinaison de catalyseurs politiques et de révisions à la hausse du sentiment. Cependant, sans détails contractuels concrets, ce mouvement relève pour l'instant davantage du récit que de la validation financière. En résumé, cette hausse est interprétée comme une réparation sélective de l'aversion au risque : la fenêtre a été ouverte par un choc macroéconomique atténué, et les capitaux ont prioritairement réintégré les segments matériels de l'IA offrant une visibilité à court terme. La pérennité de ce mouvement dépendra des prochains résultats trimestriels, notamment des dépenses d'investissement des géants du cloud et des perspectives des entreprises de la chaîne matérielle.

marsbitIl y a 1 h

Après la hausse des semi-conducteurs, les fonds achètent-ils des commandes d'IA ou tablent-ils sur un rebond macroéconomique ?

marsbitIl y a 1 h

Kraken Ajoute le Trading de Tokens On-Chain de Solana Directement dans Son Application

Kraken a ajouté le trading de jetons sur la blockchain Solana directement dans son application principale, permettant aux utilisateurs éligibles aux États-Unis et dans plus de 100 pays d'accéder à environ 2 500 jetons basés sur Solana. Cette fonctionnalité vise à intégrer l'activité DeFi dans une interface grand public plus simple, sans nécessiter de portefeuille externe ou de phrase de récupération. L'échange utilise la technologie de portefeuille intégré de Privy et les protocoles DEX de Solana pour gérer les mécanismes de transaction en arrière-plan. Ainsi, les avoirs on-chain apparaissent aux côtés des actifs Kraken classiques, réduisant la complexité perçue. Cependant, Kraken précise que ces jetons décentralisés n'ont pas nécessairement été examinés comme les inscriptions centralisées, impliquant des risques de marché réels. Cette initiative s'inscrit dans une tendance plus large où les grandes plateformes cherchent à capturer l'activité on-chain pour retenir les utilisateurs. Bien que ne remplaçant pas les portefeuilles DeFi pour les utilisateurs avancés, elle pourrait élargir l'accès au trading décentralisé pour le grand public. Le défi futur sera d'étendre ce modèle à d'autres blockchains tout en préservant la simplicité et la sécurité.

bitcoinistIl y a 1 h

Kraken Ajoute le Trading de Tokens On-Chain de Solana Directement dans Son Application

bitcoinistIl y a 1 h

Le lent démarrage du Litecoin ETF montre que les fonds sur altcoins font encore face à un test de demande

Le fonds ETF Litecoin (LTCC) de Canary Capital connaît un début lent, avec des entrées nettes d'environ 9,3 millions de dollars depuis son lancement et des actifs sous gestion d'environ 5,43 millions. Ceci contraste fortement avec l'énorme demande pour les ETF Bitcoin et Ethereum. Ce démarrage prudent illustre la difficulté pour les ETF sur altcoins de séduire les investisseurs institutionnels, pour qui l'approbation réglementaire seule ne suffit pas. Des facteurs comme la liquidité, la narration d'investissement et l'intégration dans les portefeuilles sont déterminants. La longévité et le profil réglementaire de Litecoin semblent pour l'instant insuffisants pour en faire un produit incontournable. Cette situation suggère que le marché des ETF cryptos restera dominé par le Bitcoin et l'Ethereum, les autres fonds devant se contenter de capitaux plus spécialisés.

bitcoinistIl y a 2 h

Le lent démarrage du Litecoin ETF montre que les fonds sur altcoins font encore face à un test de demande

bitcoinistIl y a 2 h

Tout le monde vante l'arrivée de Noam, mais la facture des pertes d'OpenAI s'est encore alourdie

Sam Altman annonce avec enthousiasme l'arrivée de Noam Shazeer, co-auteur du Transformer, en tant que responsable de la recherche sur l'architecture chez OpenAI, saluée comme une garantie pour l'IA de pointe. Cependant, cette nomination intervient dans un contexte financier alarmant. Les résultats audités de 2025 révèlent des pertes opérationnelles de 20,92 milliards de dollars, malgré un chiffre d'affaires de 13,07 milliards. Les coûts sont faramineux : location de puissance de calcul auprès de Microsoft (10,59 milliards), R&D, inférence et marketing. Avec 9 milliards d'utilisateurs hebdomadaires mais seulement 50 millions d'utilisateurs payants, l'énorme trafic gratuit aggrave la facture de calcul. Parallèlement, OpenAI subit un exode de ses talents fondateurs (Karpathy, Sutskever, etc.) et une forte réorientation des ressources de la recherche exploratoire vers l'itération produit. L'article souligne que le recrutement coûteux de Noam Shazeer ressemble moins à une solution technique qu'à un élément narratif pour une éventuelle introduction en bourse (visant une valorisation à 1 000 milliards de dollars), visant à masquer les défis fondamentaux de rentabilité. En contraste, des concurrents comme Anthropic, axés sur les clients entreprises et une gestion stricte des coûts, approchent ou dépassent parfois OpenAI en termes d'adoption et rapportent avoir atteint leur premier trimestre rentable. Cela suggère que la profitabilité dépend davantage d'un solide modèle commercial que de génies individuels. En conclusion, bien que l'expertise de Shazeer puisse porter ses fruits dans 1 à 2 ans, OpenAI brûle actuellement des liquidités à un rythme insoutenable (37 milliards au premier trimestre 2026). Le véritable défi n'est pas l'architecture du modèle, mais l'urgence de trouver un chemin vers la viabilité financière avant que le temps ne s'épuise.

marsbitIl y a 2 h

Tout le monde vante l'arrivée de Noam, mais la facture des pertes d'OpenAI s'est encore alourdie