AI预测实录:想靠AI在预测市场赚钱?但它可能连题目都没看清

marsbit发布于2026-01-04更新于2026-01-04

文章摘要

作者南枳尝试用AI模型(Gemini 2.5 Pro和Grok 4 Fast)在预测市场进行预测实验,与人类预测者对比表现。实验排除了加密货币类题目,仅输入题目、描述和选项,要求AI基于新闻、报告等证据进行逻辑推理,并禁止使用预测市场数据。在已结算的21个题目中,Grok胜率达75%,人类为66.7%,Gemini仅52.4%。 AI主要出现以下问题:Gemini偶尔误判当前时间;思考深度不足,未能充分利用信息;依赖常识而非证据进行判断;误解题目结算条件。尽管Grok胜率较高,但其推理仍存在可改进之处,例如更精准地理解时间、题目要求和证据分析。整体上,AI在预测市场中展现一定潜力,但尚未完全可靠。

作者|南枳(@Assassin_Malvo)

多数赛道证伪后,预测市场成为 Crypto 圈内少数仍在正向增长的赛道之一。11 月 20 日,南枳开始尝试用去年寻找 Meme 聪明钱的思路寻找预测市场聪明钱,并在初期取得了较好的成果。

12 月初,正值 Gemini 3 Pro 上线,在测试相关模型的时候想到是否可以使用 AI 对预测市场进行分析和预测,并由人类对阵 AI 看哪方预测更为准确。

在对预测市场做介绍时,通常宣称其通过“让有见解的人使用真金白银下注”,从而推动市场向“真相”靠拢。但也有人认为 Crypto+预测市场让“内幕人士”可以安全地获取信息差所带来的利润,从而带动市场向“内幕结果”发展,这本质上是“群体智慧”与“真理掌握在少数人手中”两种观点的交锋,而 AI 预测更偏向于“群体智慧”,因此需要有大量的可用知识和见解。

所以在如何选择 AI 模型的问题上,初步选用了 Gemini 和 Grok,因为二者依靠着 Google 和 X 平台,可以最直接地获取大量的知识与见解,近期南枳又新增了“豆包+抖音知识”的组合,但由于预测题目尚不多在本篇暂不涉及。

基本规则

  • AI 版本:Gemini 2.5 pro(自带 Google 搜索)、Grok 4 Fast(通过 OpenRouter 调用,启用原生搜索功能)
  • 题目选择:由人类选择下注题目,AI 跟随预测,但排除了 Crypto 板块
  • 输入内容:官方题目(title)、官方描述(Description)、可选答案(其实只有 Yes 和 No)

注:Polymarket 的题目分为大类 Event 和子类 Market,大类 Event 为“谁是下一任美联储主席”、“Strategy 什么时候会卖出比特币”这种大范围的题目,Event 下面又包含了 N 个子类市场,例如“哈赛特是否会成为下一任美联储主席”、“Strategy 在 2026 年 3 月 31 日前会卖出比特币”这种具体的选择。为了与人类预测对齐,这里选择了 Market 作为 AI 判断的题目,不向其输入其他选项,例如只让他判断“哈赛特是否会成为下一任美联储主席”,而非让他从 N 个候选人中选出最有可能的那一个。

  • 提示词设计:
  • 要求 AI 搜索最新新闻、官方公告、专家分析报告
  • 要求剔除、禁止使用预测市场数据
  • 基于“证据”,运用逻辑推理进行判断
  • 只允许输出 Yes 和 No,并用一段话阐述推理逻辑

当前结果

预测题目中,已结算 21 个,Grok 胜率最高为 75%,人类为 66.7%,而 Gemini 最低为 52.4%。目前结果可在相关网站查看。

AI 犯了什么错?

Gemini 偶尔误判当前时间

在题目”Will Trump's approval rating hit 35% in 2025?“中,Gemini 表示目前是 2025 年上半年,所以一切皆有可能,胡乱给出了答案。

但作者使用程序直接要求 Gemini 输出当前时间时,Gemini 能够给出正确答案,尚不清楚为何会出现这样的错误时间认知。

AI 思考深度不足

在题目“Gemini 3.0 Flash released by December 16?”中,Grok 根据“官方最近只提及 Gemini 3 Pro 及 2.5 相关版本,极少提及 3 Flash,因此证据不足不能判断”,只考虑了当下信息。

而 Gemini 指出“Gemini 1.0 于 2023 年 12 月发布,而 Gemini 2.0 Flash 的实验版于 2024 年 12 月推出。延续这一模式,在 2025 年底推出 3.0 版本是合乎逻辑的”,并且发现了“最近(2025 年 12 月 14 日)在网络社区中流传的一个关于“Gemini 3.0 Flash”的泄露演示,进一步增强了其即将公开发布的可能性”。

虽然从结论上来看,Gemini 的答案反而是错误的,但在本题目中可以明显看出二者所依赖的资料广度存在明显差距。

AI 基于常识而非基于证据+逻辑进行推断

在题目“Trump approval Up or Down this week?”中,Gemini 表示“对一年多以后的单周民意调查支持率进行预测具有高度的不确定性”,首先再次出现了“时间误判”的情况。然后 Gemini 表示“在任何一个普通星期内,出现导致支持率轻微下降的事件的概率,可能略高于出现能显著提升支持率的正面事件的概率”,所以支持率下降的可能性更大,生成的结论仅依据主观常识假设。

而本题目中,Grok 基于“政府关门、经济担忧、移民政策争议以及对罗伯·莱纳去世评论引发的负面反弹影响”等新闻报道以及民调数据,符合设计预期。

结算条件判断有误

在题目“Will Trump release the Epstein files by December 20?”中,Gemini 和 Grok 均已知道“政府将于周五(12 月 19 日)公布‘数十万页’文件”,而结算条件中明确指出“政府公开发布任何与爱泼斯坦非法活动相关且在所列日期前未公开的文件,即判断为 Yes”。

然而在这一条件下,Gemini 表示“在 12 月 20 日之前完成‘所有’文件的公布是不可能的”,明显误判了结算所需要的条件,因此给出了错误答案。

小结

综上,Grok 的预测胜率已经超越了这些在预测市场上盈利数十万、百万美元的聪明钱,但深入探究其预测逻辑,仍有大量可以引导、改正的地方。

相关问答

Q文章中提到AI预测市场实验中,哪个AI模型的胜率最高?

AGrok的胜率最高,达到75%。

Q作者在AI预测实验中排除了哪个板块的题目?

A排除了Crypto板块的题目。

QGemini在预测中犯的一个错误是什么?

AGemini偶尔会误判当前时间,例如在预测特朗普支持率时错误地认为当时是2025年上半年。

QAI预测实验的输入内容主要包括哪些?

A输入内容包括官方题目(title)、官方描述(Description)以及可选答案(Yes和No)。

Q文章中提到预测市场的两种观点交锋是什么?

A是“群体智慧”与“真理掌握在少数人手中”两种观点的交锋。

你可能也喜欢

交易

现货
合约

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

420人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片