每小时数千万条错误,调查揭露 Google AI 搜索的「准确率幻觉」

marsbit發佈於 2026-04-10更新於 2026-04-10

文章摘要

《纽约时报》联合AI公司Oumi测试发现,Google搜索的AI Overviews功能准确率约为91%。但考虑到Google每年处理约5万亿次搜索,这意味着每小时产生超过5700万条错误答案。更严重的是,在正确答案中,超过半数所附的引用链接无法支撑结论,这一比例在Gemini 3版本中升至56%。测试还显示,AI Overviews大量引用Facebook、Reddit等低质量来源,且易被虚假信息操纵——一篇伪造文章在24小时内就被系统采纳为答案来源。Google反驳称该测试存在漏洞,包括基准数据本身有误、使用AI评估AI可能带来偏差,且未反映真实用户查询行为。

作者:克洛德,深潮 TechFlow

深潮导读:《纽约时报》联合 AI 初创公司 Oumi 的最新测试显示,Google 搜索的 AI 摘要功能(AI Overviews)准确率约为 91%,但以 Google 年处理 5 万亿次搜索的体量换算,这意味着每小时产生数千万条错误答案。更棘手的是,即便答案正确,超过半数的引用链接也无法支撑其结论。

Google 正在以前所未有的规模向用户输送错误信息,而大多数人毫不知情。

据《纽约时报》报道,AI 初创公司 Oumi 受其委托,使用 OpenAI 开发的行业标准测试 SimpleQA 对 Google 的 AI Overviews 功能进行了准确性评估。测试覆盖 4326 次搜索查询,分别在去年 10 月(Gemini 2 驱动)和今年 2 月(升级至 Gemini 3 后)各进行一轮。结果显示,Gemini 2 的准确率约为 85%,Gemini 3 提升至 91%。

91%听起来不错,但放到 Google 的体量上就是另一回事。Google 每年处理约 5 万亿次搜索查询,按 9%的错误率计算,AI Overviews 每小时产生超过 5700 万条不准确的答案,每分钟接近 100 万条。

答案对了,来源却是错的

比准确率更令人不安的是引用来源的「脱锚」问题。

Oumi 的数据显示,Gemini 2 时代,37%的正确回答存在「无根据引用」问题,即 AI 摘要所附链接并不支持其给出的信息。升级到 Gemini 3 后,这一比例不降反升,跳增至 56%。换言之,模型在给出正确答案的同时,越来越不会「交作业」。

Oumi CEO Manos Koukoumidis 的质疑直指要害:「即便答案是对的,你怎么知道它是对的?你怎么去验证?」

AI Overviews 大量引用低质量来源加剧了这一问题。Oumi 发现,Facebook 和 Reddit 分别是 AI Overviews 第二和第四大引用来源。在不准确的回答中,Facebook 被引用的频率达到 7%,高于准确回答中的 5%。

BBC 记者一篇假文章,24 小时内「投毒」成功

AI Overviews 的另一个严重缺陷是极易被操纵。

一名 BBC 记者用一篇刻意编造的虚假文章进行测试,不到 24 小时,Google 的 AI 摘要便将其中的虚假信息作为事实呈现给用户。

这意味着任何了解系统运作机制的人,都可能通过发布虚假内容并推高其流量来「投毒」AI 搜索结果。Google 发言人 Ned Adriance 对此的回应是,搜索 AI 功能建立在与屏蔽垃圾信息相同的排名和安全机制上,并称测试中的「大多数例子都是人们实际不会搜索的不切实际的查询」。

Google 反驳:测试本身就有问题

Google 对 Oumi 的研究提出了多项质疑。Google 发言人称该研究「存在严重漏洞」,理由包括:SimpleQA 基准测试本身包含不准确信息;Oumi 使用自家 AI 模型 HallOumi 来评判另一个 AI 的表现,可能引入额外误差;测试内容不反映用户的真实搜索行为。

Google 内部测试也显示,Gemini 3 在脱离 Google 搜索框架独立运行时,产生虚假输出的比例高达 28%。但 Google 强调,AI Overviews 借助搜索排名系统来提升准确性,表现优于模型本身。

不过,正如 PCMag 评论所指出的逻辑悖论:如果你的辩护理由是「指出我们 AI 不准确的报告本身也用了可能不准确的 AI」,这恐怕并不能增强用户对你产品准确性的信心。

相關問答

Q根据测试,Google AI搜索摘要功能(AI Overviews)的准确率是多少?

A根据AI初创公司Oumi的测试,Google AI搜索摘要功能(AI Overviews)的准确率约为91%。

QGoogle AI搜索每小时大约产生多少条错误答案?

A以Google年处理5万亿次搜索的体量计算,按9%的错误率换算,AI Overviews每小时产生超过5700万条不准确的答案。

QAI Overviews在引用来源方面存在什么问题?

AAI Overviews存在严重的“无根据引用”问题,即所附链接并不支持其给出的信息。升级到Gemini 3后,这一比例从37%增至56%,超过半数的正确回答引用链接无法支撑结论。

QGoogle AI搜索的摘要功能容易被如何操纵?

AAI Overviews极易被操纵,测试显示,一篇刻意编造的虚假文章在发布后不到24小时,其虚假信息就被AI摘要作为事实呈现给用户,这意味着有人可以通过发布虚假内容并推高流量来“投毒”搜索结果。

QGoogle对Oumi的研究提出了哪些质疑?

AGoogle对Oumi的研究提出了多项质疑,称其“存在严重漏洞”,理由包括:使用的SimpleQA基准测试本身包含不准确信息;Oumi使用自家AI模型HallOumi来评判另一个AI,可能引入额外误差;测试内容不反映用户的真实搜索行为。

你可能也喜歡

Zcash上涨1500%,其最大支持者解释原因

据Zcash主要支持者乔希·斯威哈特分析,ZEC价格约1500%的飙升并非偶然,而是2023至2024年间在治理、产品、叙事和组织结构上进行多年重置的成果。 他指出,三年前ZEC价格约30美元,仅不到11%的供应量被屏蔽(shielded),且社区陷于治理争议。如今ZEC价格约600美元,约31%的供应量被屏蔽,用户控制的屏蔽钱包持有价值超30亿美元,且屏蔽交易占比在三月中旬达到86.5%。 **治理重置成为核心**:2024年,Electric Coin Co.宣布不再接受直接资助,打破了原有核心机构长期获得固定区块奖励的格局。网络升级6取消了直接资助,将8%奖励导向社区赠款,12%放入协议控制的锁箱,供ZEC持有者追溯奖励为生态创造价值的贡献者。同时,商标协议的终止消除了ECC和Zcash基金会对协议的潜在否决权,使治理更加去中心化。 **产品重心回归用户与屏蔽使用**:ECC于2024年1月将重点转向用户增长。默认屏蔽的钱包Zodl(原Zashi)于2024年3月推出,带动屏蔽供应量从约11%升至2025年底的约30%。钱包自10月起处理了超6亿美元的ZEC互换,反映了真实用户对隐私和自托管的选择。 **叙事从“隐私币”转向“不可阻挡的私人货币”**:这一新定位使Zcash更易被机构理解,吸引了如Robinhood上线、Multicoin披露持仓、Grayscale提交ETF申请及Foundry推出矿池等进展。 **组织重组与融资**:2026年1月,ECC团队脱离后成立了Zcash开放开发实验室(ZODL),并获得了Paradigm、a16z crypto等机构2500万美元融资,旨在以初创公司的速度和资本推动大规模消费者产品开发。 近期重点包括提升用户体验、可扩展性(目标将区块时间从75秒降至25秒)及后量子安全准备。斯威哈特总结,Zcash将变得更快、更易用、功能更丰富、可扩展性更强并具备后量子安全性。 截至发稿时,ZEC交易价格为570.36美元。

bitcoinist9 分鐘前

Zcash上涨1500%,其最大支持者解释原因

bitcoinist9 分鐘前

比特币已实现市值回升至正值区域,市场重获力量

比特币价格在周日小幅反弹后重回8万美元关键点位上方,多个指标开始重新显现强势。其中,比特币已实现市值(Realized Cap)随着市场状况缓慢改善,近期已转为看涨信号。 比特币重新燃起的看涨势头正逐渐体现在多个关键链上指标中,反映出市场动态的转变。比特币已实现市值目前显示出强势,随着市场情绪改善,已回升至正值区域。该指标通过计算已实现利润与已实现亏损的差值得出,反映了比特币市场创造或摧毁的价值。 CryptoQuant平台分析师Darkfost指出,该指标目前正显示复苏信号,这意味着资金正流入比特币。截至周日,比特币已实现市值已转正,增长率约为+0.25%。虽然增幅尚不显著,但这是在今年2月经历超过-2.6%的急剧下跌之后发生的。Darkfost认为,当前阶段代表了资产从“弱手”向“强手”的转移。 与此同时,另一个关键指标比特币净已实现利润/亏损也已转为正值。这一变化表明,以盈利状态转移的代币数量超过了以亏损状态转移的数量,显示出市场信心和投资者情绪正在稳步改善。链上分析账户On-Chain Mind指出,该指标是五个多月以来首次转正。 总体而言,这些链上指标的改善标志着市场正在经历一个修复过程,投资者情绪好转,资金开始回流。然而,这并不等同于直接进入牛市,趋势能否持续仍有待观察。

bitcoinist4 小時前

比特币已实现市值回升至正值区域,市场重获力量

bitcoinist4 小時前

BTC市场脉搏:第20周

比特币在过去一周从77,000美元高位震荡上行至82,000美元低位,买盘持续吸纳回调,尽管价格在局部高点附近动能有所减弱。现货CVD(累计成交量Delta)大幅上升,反映了强烈的看涨情绪和对价格上涨的高度信心。同时,现货交易量增加,表明近期的价格走势得到了更强投资者参与的推动。然而,价格动能的放缓指向更均衡的买卖压力,暗示市场可能进入一个稳定阶段。 期货市场方面,风险偏好同样上升。期货未平仓合约增加,表明投机活动加剧和风险承担意愿增强;永续合约CVD飙升,显示持续的看涨动能。但多头资金费率下降,意味着空头兴趣抬头,看涨情绪可能正在减弱。 期权市场对下行保护的需求下降,未平仓合约上升,表明市场预期转向中性偏多。然而,波动率利差大幅扩大,显示期权定价蕴含的风险显著高于已实现波动,反映出参与者中存在较高的不确定性。 链上活动显著增强,每日活跃地址、实体调整后的转账量和总手续费收入均有所上升,指向用户参与度提高和网络活动增加。与此同时,流动性状况持续稳定,短期投机资本的减少降低了即时卖压,而已实现市值变化则显示适度的净资本流入。 盈利能力指标也有所改善,市场从未实现亏损重回盈利状态。然而,处于盈利状态的供应百分比仍低于通常与大规模获利了结相关的水平,表明市场乐观情绪依然克制而非狂热。 总结来说,比特币的市场结构继续改善,得到更强的链上活动、更健康的盈利能力和更稳定的持有者仓位的支持。虽然看涨基调正在形成,但较温和的资本流入和谨慎的市场情绪表明,市场对风险偏好的变化依然敏感。

insights.glassnode6 小時前

BTC市场脉搏:第20周

insights.glassnode6 小時前

交易

現貨
合約
活动图片