每小时数千万条错误，调查揭露 Google AI 搜索的「准确率幻觉」

marsbit发布于2026-04-10更新于2026-04-10

文章摘要

《纽约时报》联合AI公司Oumi测试发现，Google搜索的AI Overviews功能准确率约为91%。但考虑到Google每年处理约5万亿次搜索，这意味着每小时产生超过5700万条错误答案。更严重的是，在正确答案中，超过半数所附的引用链接无法支撑结论，这一比例在Gemini 3版本中升至56%。测试还显示，AI Overviews大量引用Facebook、Reddit等低质量来源，且易被虚假信息操纵——一篇伪造文章在24小时内就被系统采纳为答案来源。Google反驳称该测试存在漏洞，包括基准数据本身有误、使用AI评估AI可能带来偏差，且未反映真实用户查询行为。

作者:克洛德,深潮 TechFlow

深潮导读:《纽约时报》联合 AI 初创公司 Oumi 的最新测试显示,Google 搜索的 AI 摘要功能(AI Overviews)准确率约为 91%,但以 Google 年处理 5 万亿次搜索的体量换算,这意味着每小时产生数千万条错误答案。更棘手的是,即便答案正确,超过半数的引用链接也无法支撑其结论。

Google 正在以前所未有的规模向用户输送错误信息,而大多数人毫不知情。

据《纽约时报》报道,AI 初创公司 Oumi 受其委托,使用 OpenAI 开发的行业标准测试 SimpleQA 对 Google 的 AI Overviews 功能进行了准确性评估。测试覆盖 4326 次搜索查询,分别在去年 10 月(Gemini 2 驱动)和今年 2 月(升级至 Gemini 3 后)各进行一轮。结果显示,Gemini 2 的准确率约为 85%,Gemini 3 提升至 91%。

91%听起来不错,但放到 Google 的体量上就是另一回事。Google 每年处理约 5 万亿次搜索查询,按 9%的错误率计算,AI Overviews 每小时产生超过 5700 万条不准确的答案,每分钟接近 100 万条。

答案对了,来源却是错的

比准确率更令人不安的是引用来源的「脱锚」问题。

Oumi 的数据显示,Gemini 2 时代,37%的正确回答存在「无根据引用」问题,即 AI 摘要所附链接并不支持其给出的信息。升级到 Gemini 3 后,这一比例不降反升,跳增至 56%。换言之,模型在给出正确答案的同时,越来越不会「交作业」。

Oumi CEO Manos Koukoumidis 的质疑直指要害:「即便答案是对的,你怎么知道它是对的?你怎么去验证?」

AI Overviews 大量引用低质量来源加剧了这一问题。Oumi 发现,Facebook 和 Reddit 分别是 AI Overviews 第二和第四大引用来源。在不准确的回答中,Facebook 被引用的频率达到 7%,高于准确回答中的 5%。

BBC 记者一篇假文章,24 小时内「投毒」成功

AI Overviews 的另一个严重缺陷是极易被操纵。

一名 BBC 记者用一篇刻意编造的虚假文章进行测试,不到 24 小时,Google 的 AI 摘要便将其中的虚假信息作为事实呈现给用户。

这意味着任何了解系统运作机制的人,都可能通过发布虚假内容并推高其流量来「投毒」AI 搜索结果。Google 发言人 Ned Adriance 对此的回应是,搜索 AI 功能建立在与屏蔽垃圾信息相同的排名和安全机制上,并称测试中的「大多数例子都是人们实际不会搜索的不切实际的查询」。

Google 反驳:测试本身就有问题

Google 对 Oumi 的研究提出了多项质疑。Google 发言人称该研究「存在严重漏洞」,理由包括:SimpleQA 基准测试本身包含不准确信息;Oumi 使用自家 AI 模型 HallOumi 来评判另一个 AI 的表现,可能引入额外误差;测试内容不反映用户的真实搜索行为。

Google 内部测试也显示,Gemini 3 在脱离 Google 搜索框架独立运行时,产生虚假输出的比例高达 28%。但 Google 强调,AI Overviews 借助搜索排名系统来提升准确性,表现优于模型本身。

不过,正如 PCMag 评论所指出的逻辑悖论:如果你的辩护理由是「指出我们 AI 不准确的报告本身也用了可能不准确的 AI」,这恐怕并不能增强用户对你产品准确性的信心。

你可能也喜欢

注意：本周将有10种山寨币迎来大规模代币解锁！以下是按天和小时的列表

加密货币市场上周因黑客事件和地缘政治影响而下跌。本周将迎来多个山寨币的大规模代币解锁，具体时间表如下（均为UTC+3时区）： - **Lagrange (LAG)**：8月4日3:00，解锁138万美元，占市值15.04% - **Proof (PROOF)**：8月5日3:00，解锁3911万美元，占市值119.59% - **Power Protocol (POWER)**：8月5日3:00，解锁162万美元，占市值8.93% - **Verona (VERONA)**：8月5日3:00，解锁137万美元，占市值12.61% - **Ethena (ENA)**：8月5日11:00，解锁1528万美元，占市值1.80% - **Goldfinger (GF)**：8月6日3:00，解锁1152万美元，占市值5.05% - **Infinity (INF)**：8月7日3:00，解锁231万美元，占市值20.30% - **Stable (STBL)**：8月8日3:00，解锁2875万美元，占市值3.55% - **Name (NAME)**：8月9日3:00，解锁4847万美元，占市值74.54% - **Move (MOVE)**：8月9日3:00，解锁122万美元，占市值3.90% 其中Proof代币解锁规模显著超过其当前市值，Name解锁比例也较高。本文不构成投资建议。

cryptonews.ru30分钟前

cryptonews.ru30分钟前

发布了过去几小时查询最热门的替代币名单！

加密货币数据平台CoinGecko公布了最近三小时内用户查询量最高的加密货币趋势榜单。榜首是Pudgy Penguins（$PENGU），Catecoin（CATE）和Bless（$BLESS）分列第二、三位。价格方面，过去24小时内$PENGU上涨3.9%，排名第二的CATE大幅上涨126.2%，$BLESS上涨86.1%。What IF（IF）同期也上涨41.9%。榜单同时还列出了各加密货币的总市值，其中Hyperliquid（HYPE）市值最高，达114.3亿美元，比特币（BTC）市值为1.27万亿美元，以太坊（ETH）市值为2241.7亿美元。平台强调，此榜单不构成投资建议。

cryptonews.ru2小时前

cryptonews.ru2小时前

每月10万美元：Truth Social向投资公司出售特朗普帖文访问权

特朗普媒体与技术集团于2026年8月1日正式推出付费数据服务Truth API。该服务以每月高达10万美元的费用，向机构投资者和高频交易公司提供实时访问Truth Social上最具影响力账户（包括特朗普总统拥有约1300万粉丝的账号）帖文的权限，延迟仅毫秒级。公司称此举是将其核心资产货币化、创造稳定高利润收入来源的战略一部分。此项服务引发了政治争议。民主党参议员沃伦和希夫要求美国证券交易委员会调查其是否违法。共和党参议员卡西迪批评这是以金钱售卖获取总统言论的特权通道。TMTG回应称批评是协调一致的抹黑行动，旨在损害这家上市公司。分析指出，此类高速数据流可能重现类似2013年美联社账号被黑导致市场闪崩的风险，因为交易算法会快于人工验证而做出反应。这引发了对于帖子真实性验证机制缺失及潜在市场操纵或黑客攻击风险的担忧。特朗普目前仍持有TMTG约41%的股份。

cryptonews.ru3小时前

cryptonews.ru3小时前

STRC优先股价格仍低于面值，策略集团股息维持在12%

Strategy公司的优先股STRC在7月份价格持续低于其100美元的面值，但公司宣布8月股息将维持12%不变，不会上调。董事长Michael Saylor通过社交媒体确认了这一消息，并继续将STRC宣传为增加收入的工具。8月将是股息改为半月支付后的第二个月。 STRC股价在7月有所回升，月底收于89.46美元，全月上涨5.42%，但交易量低于日均水平。公司CEO重申，管理层的目标是让STRC股价最终达到99-100美元区间，但未给出具体时间表。尽管公司第二季度因比特币持仓未实现亏损而录得巨额净亏损，但已建立37.5亿美元的现金储备，以支持其BTC货币化计划下的优先股派息。该储备足以支付超过两年的优先股股息和利息义务。公司近期已折价回购了部分STRC优先股，并计划在股价低于面值时继续回购。

cointelegraph4小时前

cointelegraph4小时前

比特币提现仍在继续：Coldcard冷钱包8年存储终成空

硬件钱包Coldcard遭黑客攻击，导致大量资金从易受攻击设备中被持续转出。据Galaxy Research数据，截至2026年8月2日，已有4585个地址被盗，损失总额达1367.05 BTC（约合8860万美元），远超7月30日最初报告的594.5 BTC。大部分被盗资金仍停留在攻击者地址。问题根源并非固件，而是设备生成的种子短语存在漏洞。2021年3月起，因程序员错误集成libNgU库，设备从使用STM32硬件随机数生成器转为使用软件生成器Yasmarang，该生成器由公开可获取的芯片序列号和计时器状态初始化，导致生成的种子短语可在离线状态下被暴力破解。即使固件后续已更新，只要用户未将资金转移至基于新种子短语生成的新地址，旧钱包就始终处于风险中。受影响的设备包括特定固件版本的Mk2/Mk3、Mk4/Mk5及Q系列。仅当种子短语是通过至少50次独立掷骰子或强唯一性BIP-39密码短语创建时方可幸免。官方建议受影响用户立即在已修复的固件上生成新种子短语并转移资产。报道提及一位39岁投资者的案例，他因该漏洞损失了2 BTC（约13万美元）。他多年来通过体力劳动积攒比特币，将其视为在制裁和高通胀国家中的财务保障与提前退休的途径。此次事件使他的长期持有策略和“冷存储”信心遭受重击，他因此决定彻底退出加密货币领域。从历史数据看，随机数生成器缺陷并非首例，类似问题曾导致巨额损失。此次事件警示，即使离线存储也未必绝对安全，其安全性高度依赖于底层硬件和算法的可靠性。

cryptonews.ru4小时前

cryptonews.ru4小时前

交易

现货

每小时数千万条错误，调查揭露 Google AI 搜索的「准确率幻觉」

文章摘要

答案对了,来源却是错的

BBC 记者一篇假文章,24 小时内「投毒」成功

Google 反驳:测试本身就有问题

相关问答

你可能也喜欢

注意：本周将有10种山寨币迎来大规模代币解锁！以下是按天和小时的列表

发布了过去几小时查询最热门的替代币名单！

每月10万美元：Truth Social向投资公司出售特朗普帖文访问权

STRC优先股价格仍低于面值，策略集团股息维持在12%

比特币提现仍在继续：Coldcard冷钱包8年存储终成空

交易

热门分类

热门标签