每小时数千万条错误,调查揭露 Google AI 搜索的「准确率幻觉」

marsbit发布于2026-04-10更新于2026-04-10

文章摘要

《纽约时报》联合AI公司Oumi测试发现,Google搜索的AI Overviews功能准确率约为91%。但考虑到Google每年处理约5万亿次搜索,这意味着每小时产生超过5700万条错误答案。更严重的是,在正确答案中,超过半数所附的引用链接无法支撑结论,这一比例在Gemini 3版本中升至56%。测试还显示,AI Overviews大量引用Facebook、Reddit等低质量来源,且易被虚假信息操纵——一篇伪造文章在24小时内就被系统采纳为答案来源。Google反驳称该测试存在漏洞,包括基准数据本身有误、使用AI评估AI可能带来偏差,且未反映真实用户查询行为。

作者:克洛德,深潮 TechFlow

深潮导读:《纽约时报》联合 AI 初创公司 Oumi 的最新测试显示,Google 搜索的 AI 摘要功能(AI Overviews)准确率约为 91%,但以 Google 年处理 5 万亿次搜索的体量换算,这意味着每小时产生数千万条错误答案。更棘手的是,即便答案正确,超过半数的引用链接也无法支撑其结论。

Google 正在以前所未有的规模向用户输送错误信息,而大多数人毫不知情。

据《纽约时报》报道,AI 初创公司 Oumi 受其委托,使用 OpenAI 开发的行业标准测试 SimpleQA 对 Google 的 AI Overviews 功能进行了准确性评估。测试覆盖 4326 次搜索查询,分别在去年 10 月(Gemini 2 驱动)和今年 2 月(升级至 Gemini 3 后)各进行一轮。结果显示,Gemini 2 的准确率约为 85%,Gemini 3 提升至 91%。

91%听起来不错,但放到 Google 的体量上就是另一回事。Google 每年处理约 5 万亿次搜索查询,按 9%的错误率计算,AI Overviews 每小时产生超过 5700 万条不准确的答案,每分钟接近 100 万条。

答案对了,来源却是错的

比准确率更令人不安的是引用来源的「脱锚」问题。

Oumi 的数据显示,Gemini 2 时代,37%的正确回答存在「无根据引用」问题,即 AI 摘要所附链接并不支持其给出的信息。升级到 Gemini 3 后,这一比例不降反升,跳增至 56%。换言之,模型在给出正确答案的同时,越来越不会「交作业」。

Oumi CEO Manos Koukoumidis 的质疑直指要害:「即便答案是对的,你怎么知道它是对的?你怎么去验证?」

AI Overviews 大量引用低质量来源加剧了这一问题。Oumi 发现,Facebook 和 Reddit 分别是 AI Overviews 第二和第四大引用来源。在不准确的回答中,Facebook 被引用的频率达到 7%,高于准确回答中的 5%。

BBC 记者一篇假文章,24 小时内「投毒」成功

AI Overviews 的另一个严重缺陷是极易被操纵。

一名 BBC 记者用一篇刻意编造的虚假文章进行测试,不到 24 小时,Google 的 AI 摘要便将其中的虚假信息作为事实呈现给用户。

这意味着任何了解系统运作机制的人,都可能通过发布虚假内容并推高其流量来「投毒」AI 搜索结果。Google 发言人 Ned Adriance 对此的回应是,搜索 AI 功能建立在与屏蔽垃圾信息相同的排名和安全机制上,并称测试中的「大多数例子都是人们实际不会搜索的不切实际的查询」。

Google 反驳:测试本身就有问题

Google 对 Oumi 的研究提出了多项质疑。Google 发言人称该研究「存在严重漏洞」,理由包括:SimpleQA 基准测试本身包含不准确信息;Oumi 使用自家 AI 模型 HallOumi 来评判另一个 AI 的表现,可能引入额外误差;测试内容不反映用户的真实搜索行为。

Google 内部测试也显示,Gemini 3 在脱离 Google 搜索框架独立运行时,产生虚假输出的比例高达 28%。但 Google 强调,AI Overviews 借助搜索排名系统来提升准确性,表现优于模型本身。

不过,正如 PCMag 评论所指出的逻辑悖论:如果你的辩护理由是「指出我们 AI 不准确的报告本身也用了可能不准确的 AI」,这恐怕并不能增强用户对你产品准确性的信心。

相关问答

Q根据测试,Google AI搜索摘要功能(AI Overviews)的准确率是多少?

A根据AI初创公司Oumi的测试,Google AI搜索摘要功能(AI Overviews)的准确率约为91%。

QGoogle AI搜索每小时大约产生多少条错误答案?

A以Google年处理5万亿次搜索的体量计算,按9%的错误率换算,AI Overviews每小时产生超过5700万条不准确的答案。

QAI Overviews在引用来源方面存在什么问题?

AAI Overviews存在严重的“无根据引用”问题,即所附链接并不支持其给出的信息。升级到Gemini 3后,这一比例从37%增至56%,超过半数的正确回答引用链接无法支撑结论。

QGoogle AI搜索的摘要功能容易被如何操纵?

AAI Overviews极易被操纵,测试显示,一篇刻意编造的虚假文章在发布后不到24小时,其虚假信息就被AI摘要作为事实呈现给用户,这意味着有人可以通过发布虚假内容并推高流量来“投毒”搜索结果。

QGoogle对Oumi的研究提出了哪些质疑?

AGoogle对Oumi的研究提出了多项质疑,称其“存在严重漏洞”,理由包括:使用的SimpleQA基准测试本身包含不准确信息;Oumi使用自家AI模型HallOumi来评判另一个AI,可能引入额外误差;测试内容不反映用户的真实搜索行为。

你可能也喜欢

以太坊基金会主席打破沉默,阐述新使命及内部紧张关系

以太坊基金会主席Aya Miyaguchi阐述了该组织的新使命,称这一转变是内部争论日益紧张、基金会同时面临过多压力后的必要调整。她表示,新使命由董事会提出,但由她于去年年底建议。触发因素并非单一争议,而是结构性问题:EF已成为各种竞争期望的焦点,技术讨论变得政治化、个人化,同时基金会规模扩张导致其核心被多方不同愿景拉扯。 Miyaguchi强调,以太坊基金会只是以太坊众多节点之一,其中心性的减弱并非责任退缩,而是以太坊成熟超越其最初机构的证明。她回顾了自己自2012年以来的行业经历,指出自2018年担任执行董事以来,目标就是帮助以太坊超越基金会发展。基金会通过孵化Uniswap、ENS等项目,支持ETHGlobal黑客松,以及通过Gitcoin等“资助资助者”来刻意分散权力而非保留控制权。 目前,EF持有的ETH已不足总量的0.2%,其角色也按设计变得更集中。新使命的核心是维护和加速使以太坊“具有独特价值、竞争力且值得构建”的特性与目标,聚焦于CROPS及“不可剥夺的用户自我主权和自我主权协调”。Miyaguchi否认更专注的EF意味着减少对应用推广的关心,认为恰恰相反,日常用户和机构都依赖于以太坊的根本价值主张。 此番表态之际,EF在2026年经历了多位高级贡献者的离职潮。Miyaguchi承认,随着基金会变得更加专注和有主见,团队规模自然会变小、更集中,这是选择的一部分。Vitalik Buterin此前也发文描述了基金会向更精简、更专注结构的过渡,减少作为以太坊中心的作用,更注重维护网络的长期特性。

bitcoinist52分钟前

以太坊基金会主席打破沉默,阐述新使命及内部紧张关系

bitcoinist52分钟前

稳定币战局迎来新竞争者——这一次拥有50万个零售网点

全球跨境支付巨头速汇金于6月2日推出自有品牌美元稳定币MGUSD,旨在为其全球汇款网络提供金融服务基础层。此举标志着其稳定币战略从依赖第三方基础设施(如USDC)转向自主发行与管理,直接掌控发行、储备管理和收益。 作为拥有85年历史、覆盖200多个国家、约50万零售网点和超5000万客户的传统支付机构,速汇金发行稳定币具有重大意义。它将使稳定币更易被拉丁美洲、非洲和东南亚等依赖汇款的广大人群接受,推动加密货币在传统金融中的普及。 此次推出的时机紧随美国2026年《GENIUS法案》生效,该法案为稳定币建立了首个正式监管框架,速汇金CEO表示这正是公司拓展数字美元服务所需的监管护栏。MGUSD是此新监管窗口期内首个面向消费者的主要稳定币。 速汇金近年逐步构建数字支付体系,包括2021年与Stellar合作、2025年整合Fireblocks、2026年成为Tempo区块链验证节点,直至推出自有稳定币。这一系列动作减少了对外部伙伴的依赖,增强了对支付栈的控制。 这一进展表明,稳定币经济已不再是加密货币行业的专属叙事,而是正在融入全球主流支付体系。一家拥有数十年合规经验和庞大现金网络的汇款巨头发行自有稳定币,标志着该领域与全球金融融合的关键一步。

bitcoinist1小时前

稳定币战局迎来新竞争者——这一次拥有50万个零售网点

bitcoinist1小时前

交易

现货
合约
活动图片