推翻主流治幻觉思路:元认知,才是大模型破幻觉的全新解法

marsbit发布于2026-06-03更新于2026-06-03

文章摘要

谷歌研究院与特拉维夫大学联合发表论文,提出对抗大模型“幻觉”问题的新思路:与其追求让AI全知全能或过度拒答,不如培养其“元认知”能力,即让模型能够感知并诚实表达自身对每个答案的确信程度。 论文指出,当前主流方法存在局限:一味增加知识覆盖无法穷尽所有事实;而通过大幅拒答来降低错误率则会征收沉重的“实用性税”,牺牲大量本可正确回答的问题。核心原因在于模型缺乏“判别力”,难以精准区分具体问题的对错,导致校准良好但实用性低下。 论文重新定义了“幻觉”:问题不在于AI输出错误信息,而在于其“没有资格确定却以确定的语气给出错误信息”。因此,解决路径应是实现“忠实不确定性”——让AI语言表达的确信度与其内部状态的真实确信度对齐。这比消灭所有错误更可行,是一个依赖内部信号的闭环问题。 在AI代理(Agent)时代,元认知更为关键。没有它,Agent在调用外部工具(如搜索)时将陷入“盲飞”,无法智能决策何时需要搜索、如何评估信息可信度。 实现元认知面临几大挑战:“自举悖论”涉及用静态数据训练动态能力的困难;“对齐破坏信号”指RLHF等训练可能磨灭模型原有的内部不确定性信号;“因果性评估”则需区分真正的元认知与对其的表演。 论文建议,评估反幻觉方法应超越单一准确率指标,转而分析完整的“实用性-错误率权衡曲线”,并关注其在其他任务上的“附带损伤”。最终目标是让AI学会诚实地沟通其认知状态,从而在保留实用性的同时,将错误信息的危害降至最低,建立可靠信任。

谷歌研究院最近发了一篇论文,核心观点可以用一句话概括:与其死磕AI全知全能,不如教它学会说我不确定

这篇题为《Hallucinations Undermine Trust; Metacognition is a Way Forward》的论文由谷歌研究院与特拉维夫大学联合完成,已被ICML 2026 Position Track接收。论文提出,目前整个AI行业对抗“幻觉”的主流路线可能从根本上走偏了——大家忙着给模型灌更多知识,却忽略了一个更关键也更被低估的能力:AI感知并表达自己对每个答案的确信程度。

(论文地址:[2605.01428] Hallucinations Undermine Trust; Metacognition is a Way Forward)

实用性税:消灭幻觉的真实代价

先从一个所有人都会遇到的场景说起。

你问AI助手一个问题,它用无比笃定的语气给出了一个答案,措辞严谨、逻辑完整,看起来毫无破绽。事后你一查,那个答案完全是胡编的。更让人恼火的是,它说的时候没有任何犹豫,仿佛亲眼所见。

这就是AI“幻觉”——模型输出了事实性错误的内容,却以一种不容置疑的方式呈现给用户。这个问题在医疗、法律、科研等高风险场景中尤为致命。

行业应对幻觉的思路,本质上就两条路。第一条路:AI知道更多,通过扩大训练数据、增加模型参数来覆盖更多事实。第二条路:AI不确定的时候闭嘴,遇到拿不准的问题直接拒答。

两条路都有明显的短板。世界上的事实无穷无尽,模型不可能记住所有事情,所以第一条路永远有覆盖不到的死角。而第二条路的问题在于,一旦AI开始大规模拒绝回答,它就从“有用的助手”变成了“什么都不敢说的废物”——用户问十个问题,八个被拒,体验极差。

论文给第二条路的代价起了个精准的名字:实用性税(utility tax)——为了降低幻觉率,你必须牺牲掉大量本可以正确回答的信息。

为什么这道税会这么重?根源在于AI缺少一项关键能力。要让拒答策略精确生效,模型需要精准区分这道题我答对了这道题我答错了”——只拒掉错的,保留对的。但现实是,模型做不到这种精确区分。论文区分了两个容易混淆但含义截然不同的概念来说明这个问题。

校准(calibration)衡量的是AI整体自信水平是否和整体正确率匹配。举例来说,AI回答100道题,每次都说“我有60%的把握”,而100道题里恰好60道对了,这就是完美校准。

判别力(discrimination)则衡量AI能否在每道具体题目上精准区分“我对了”和“我错了”。一个AI对所有问题都给60%的把握,整体正确率恰好60%,校准堪称完美,但判别力为零——它完全无法区分哪道该信、哪道该防。校准好不等于判别力强,这正是问题的要害。

论文梳理了大量文献后发现,目前主流大模型在真实知识问答任务上的判别力指标AUROC集中在0.70到0.85之间。这个数字听上去还行,实际远不够用。论文以AUROC=0.71为参数做了一组模拟计算,结果触目惊心:假设AI基础错误率25%,要把错误率压到5%,AI必须拒答超过52%的正确问题。即便判别力提升到0.85这个接近文献天花板的水准,仍需放弃28%的正确回答。只有判别力达到0.95以上时,代价才可忽略——而目前没有任何方法在知识密集型任务上接近这个数字。

图:校准与判别力的区别。左图显示模型校准良好(红线贴近对角线),右图则揭示了残酷的现实——即便校准完美,要将错误率从25%压到5%,必须牺牲52%的正确回答。

真实数据印证了这一判断。论文分析了SimpleQA Verified基准测试上各前沿模型的表现,结果清晰得有些残酷:绝大多数模型沿着“答得多、错得多”的对角线分布,少数追求高准确率的模型通过大量拒答换取了更高单题准确率,却付出了巨大的实用性代价。那个理想的右上角区域——既多答又少错——目前空无一人。这片空白,正是论文所说的“判别力缺口”。

图:各主流模型在SimpleQA Verified上的实测表现。右上角五角星为理想目标,“Discrimination Gap”标注了现有模型与理想之间的鸿沟,“Utility Tax”则标示了Claude Opus 4为换取高准确率而付出的实用性代价。

既然“多灌知识”有死角,“不确定就闭嘴”代价又太高,有没有第三条路?

重新定义幻觉:不是“说错了”,而是“没资格确定却一口咬定”

论文的核心贡献不在于诊断问题,而在于重新定义了问题本身

长期以来,行业把“幻觉”定义为“AI输出错误信息”,这隐含了一个前提:消灭幻觉=消灭所有错误。但论文提出,不妨换一个角度——幻觉不是“AI说错了,而是“AI没有资格确定,却以确定的语气给出了错误信息

这个区分看似细微,实际影响深远。举个例子:医生看了检查报告后说“你得的是X病”,如果他其实只是凭直觉猜的,这是不负责任的。但如果他说“目前症状倾向于X,但需要进一步检查确认”,哪怕初步判断方向有偏差,这种表达方式本身就是诚实的——他在告诉病人“请谨慎对待这个判断”。错误并非不可接受,不可接受的是明明不确定却伪装成确定。

基于这个新定义,第三条路浮现出来:忠实不确定性(faithful uncertainty)——让AI在语言层面表达的确信程度,真实对应其内部状态的确信程度。

具体来说,AI的“内部不确定性”可以通过重复采样来客观衡量:同一个问题问一百遍,每次都给出相同答案,说明内心笃定;答案五花八门,说明内部其实摇摆不定。“语言不确定性”则是AI措辞中体现的确信感——“1961年8月4日”和“我好像记得是1961年,但不是完全确定”,给读者的信号完全不同。

忠实不确定性要求两者对齐:内心摇摆时措辞留有余地,内心笃定时才用确定的语气。论文强调,这个目标比“消灭所有错误”更可行。原因在于,忠实不确定性只需要AI的语言输出和自己的内部状态对应——这是一个闭环问题,信号就在模型内部,不依赖外部真相。而消灭错误则需要AI的输出和外部世界真相完全对应,论文引用的停机问题和计算理论表明,这在理论上存在根本性限制。

论文将这种能力总结为一个更上位的概念:元认知(metacognition)——AI既能感知自己的不确定性,又能基于这种感知调整行为。这个概念借自心理学,本意是“对自己认知过程的认知”,放在AI语境下,就是AI对自己知道什么、不知道什么有清醒的认识。

图:左侧为传统困境——“回答”有幻觉风险,“拒答”有实用性代价。右侧为新路径——通过忠实表达不确定性,既保留有用信息,又将错误信息的危害降到最低,实现“可靠实用性”。

AI代理时代:没有元认知的Agent就是“盲飞”

元认知的价值,不仅限于对话场景。在AI代理(Agent)时代,它变得更加关键。

表面上看,给AI装上搜索引擎就能解决知识不足的问题——不知道就查嘛,还怕什么幻觉?但论文指出,工具引入的不是“存储方案”,而是控制问题

有了工具之后,AI面临一系列新决策:这个问题我自己知道吗,需要搜索吗?搜出来的信息可信吗?如果搜索结果和我自己掌握的信息矛盾了,听谁的?查到什么时候该停下来?

所有这些决策,都依赖于AI对自己内部确信程度的准确感知。没有元认知能力的AI代理,就像一个没有仪表盘的飞行员——引擎已经在报警,他还在加速。

图:元认知控制层作为AI基础能力与外部工具系统之间的桥梁。没有这一层,Agent对外部工具的调度就如同“盲飞”——不知道该不该搜、搜了该不该信、信了信到什么程度。

论文引用的研究表明,当前搜索增强型AI代理普遍存在工具滥用问题——对根本不需要搜的问题也去搜,效率低下且引入不必要的噪音。原因很简单:没有元认知的AI根本无法判断“我需不需要额外信息”。

通往元认知的路上,还有几块硬骨头

论文也坦诚地指出了实现路径上的关键挑战。

自举悖论:教AI表达不确定性需要训练数据示范“该犹豫时犹豫”,但AI的知识边界是动态变化的。一条标注为“我不确定”的训练样本,可能在模型进化后变成了它确定知道的内容。用静态数据教动态能力,会训练出“假装不确定”的AI。这需要开发能反映模型当前知识边界的动态数据基础设施。

对齐破坏信号:研究发现,预训练后的AI其实已经具备不错的内部不确定性信号——它的内部状态能区分“这题比较有把握”和“这题不太确定”。但RLHF等对齐训练会把这个信号磨掉。原因在于,人类偏好语气确定的回答,这逼着AI学会了无论内心多摇摆,对外都表现出一副胸有成竹的样子。

因果性评估:更深层的难题在于,如何确保AI真的在读取内部信号,而不是学会了“遇到生僻词就说我不确定”这种表面套路?区分“真正的元认知”和“对元认知的表演”,是一个基础性的科学评估问题。

论文还提出对研究社区的具体建议:不要再只用单一准确率数字来评估反幻觉方法,应该可视化完整的“实用性-错误率权衡曲线”,看清楚一个方法是真的提升了底层判别能力,还是只是在同一条曲线上调高了拒答门槛。同时应检测“附带损伤”——为了降低知识问答的错误率,是否在推理、编程、写作等任务上付出了意外代价。

归根结底,这篇论文想传递的核心信息是:AI可以不全知全能,但它必须对自己知道什么、不知道什么有诚实的认识,并且把这种认识传达给用户。

我们信任专业人士,不是因为他们从不犯错,而是因为他们能诚实地区分“我确定”和“我猜测”——正是这种区分,让专业与不专业拉开了距离。AI也应该走向这条路。与其无止境追逐一个完美无误的幻象,不如让AI学会一件更务实的事:知道自己什么时候在胡说,并且坦诚地告诉用户。(本文首发钛媒体APP,作者 | 硅谷Tech_news,编辑 | 焦燕)

相关问答

Q谷歌研究院这篇关于AI幻觉的论文核心观点是什么?

A核心观点是:与其试图让AI变得全知全能来消除所有事实性错误(幻觉),不如教会AI感知并诚实地表达自己对答案的确信程度,即发展元认知能力,让AI学会说‘我不确定’。

Q文章提到的对抗AI幻觉的两种主流思路及其主要缺陷是什么?

A主流思路有两条:1. 让AI知道更多,通过扩大数据、增加参数来覆盖更多事实。缺陷:世界事实无穷,总有覆盖不到的死角。2. 让AI不确定时就拒答。缺陷:会导致大量本可正确回答的问题被拒答,牺牲了实用性,即产生高昂的‘实用性税’。

Q论文中如何区分‘校准’和‘判别力’这两个关键概念?

A校准衡量的是AI整体自信水平与整体正确率的匹配度,是宏观统计上的匹配。判别力衡量的是AI能否在每道具体题目上精准区分‘我对了’和‘我错了’,是微观实例级别的分辨能力。校准好不等于判别力强,后者才是精确拒答、减少‘实用性税’的关键。

Q论文提出的第三条道路(全新解法)及其核心内涵是什么?

A第三条道路是追求‘忠实不确定性’。其核心内涵是:重新定义幻觉问题,不再追求消灭所有错误,而是要求AI在语言层面表达的确信程度,必须忠实对应其内部状态的真实确信程度。内心不确定时,措辞应留有余地;内心笃定时,才用确定的语气。这本质上是一种‘元认知’能力。

Q在AI代理(Agent)时代,为什么元认知能力变得尤为关键?

A因为在AI代理(如配备搜索工具)时代,AI需要做出一系列决策:是否需要使用工具搜索?如何评估搜索结果的可靠性?如何处理内部知识与外部信息的矛盾?何时停止搜索?所有这些决策都依赖于AI对自己内部确信程度的准确感知(即元认知)。没有元认知的代理,就像没有仪表盘的飞行员,无法有效、可靠地调度和使用外部工具,可能导致工具滥用或盲信。

你可能也喜欢

全球加密监管“收网”:香港、欧盟、美国同步亮剑,合规窗口正在关闭?

全球加密监管正从“立规矩”进入“执行筛查期”,香港、欧盟和美国近期同步采取关键行动,合规窗口可能正在收紧。 香港证监会(SFC)发布稳定币服务通函,确立了“双层监管”架构:由金管局(HKMA)监管稳定币发行,SFC监管其交易与分销。符合定义的“指明稳定币”在部分规则上获得放宽,但仍需遵守适当性及信息披露要求。此举旨在构建以稳定币为结算基础设施、代币化证券为投资工具、持牌平台为渠道的完整监管闭环。 欧盟方面,加密资产市场法规(MiCA)的过渡期将于7月1日结束,届时未持有牌照的加密资产服务提供商(CASP)将不得在欧盟运营。目前仅有少数机构获牌,申请审批周期较长,市场面临合规筛选。 美国参议院银行委员会通过了《CLARITY法案》,旨在厘清SEC与CFTC对数字资产的监管分工,并为交易平台、托管人及稳定币建立联邦注册框架。法案在稳定币收益等问题上达成妥协,但距离正式成为法律仍有程序待完成。 深层趋势显示,稳定币正从加密“桥接货币”转变为关键的金融结算基础设施,其规模与支付量已可比肩传统支付网络。三大市场的监管举措方向一致:将稳定币等虚拟资产纳入受监管体系。这意味着,合规能力已成为市场参与的核心准入许可,全球加密市场正在进行一场深刻的“准入重排”。

marsbit7分钟前

全球加密监管“收网”:香港、欧盟、美国同步亮剑,合规窗口正在关闭?

marsbit7分钟前

超越价格的聚合分析:Glassnode 全局指标

随着数字资产领域分裂为数千种资产、板块和快速变化的市值组,整体市场分析变得愈发困难。资产价格波动、新项目推出或消失会导致整体数据序列出现结构性断层,使长期分析难以进行。 Glassnode推出了**全局指标**套件,通过可配置的资产篮子(如按市值阈值、前N名或资产标签定义)来聚合多个加密货币的链上和市场数据。该框架提供两种输出:**原始聚合值**(保留原始单位的经济意义)和**指数**(经过基数归一化的连续时间序列,便于趋势分析和跨篮子比较)。 指数化调整揭示了原始数据难以捕捉的市场动态。例如,在2024年,小市值板块(<1亿美元)因迷因币狂热而大幅上涨,但原始市值数据却无法有效反映这一上涨,因为表现优异的小市值资产会因突破阈值而离开该篮子,导致“优胜者离场”的偏差。经连续性调整的指数则消除了这种偏差,清晰显示了小市值板块的强劲增长及其与其他市值板块的分化。 在盈利情绪方面,已花费输出利润率(SOPR)的全局指标显示,比特币与山寨币的SOPR经常出现分歧,两者利差本身可成为信号。经指数调整后,小市值资产的持有者情绪比原始数据显示得更稳定,而大中市值资产则显示出长期趋势:每个周期中,持有者在卖出时实现的平均利润略有下降,反映更多供应被长期锁定。 在衍生品头寸方面,未平仓合约(OI)的指数显示,虽然大市值资产在绝对值上占主导,但中小市值资产的OI波动性大得多,在投机时期急剧飙升又迅速平仓,这可以作为市场脆弱部分出现级联风险的早期预警信号。 目前发布的全局指标套件包含四个指标(总市值、SOPR中位数、总未平仓合约、活跃地址),每个指标均按四个市值篮子(所有代币、大市值≥$1B、中市值$100M–$1B、小市值<$100M)计算,采用每周再平衡和等权重方式。数据可通过Glassnode API获取原始值和指数值。 该框架将传统价格指数的连续性规范引入链上和市场数据,为日益多元化的加密市场提供了更稳健的整体分析工具。

insights.glassnode10分钟前

超越价格的聚合分析:Glassnode 全局指标

insights.glassnode10分钟前

IBIT 期权指标现已在 Glassnode 上线

**Glassnode 上线 IBIT 期权指标** 比特币价格发现长期以来由现货交易所、离岸永续合约和加密原生衍生品平台主导。随着2024年美国现货比特币ETF获批,比特币正日益融入传统金融轨道,IBIT(iShares Bitcoin Trust ETF)已成为最大、最流动的美国现货比特币ETF。期权作为成熟市场的最后一层,因需要深度流动性和复杂风险管理而最后形成规模。 **IBIT 期权的意义** 期权市场能揭示参与者对上行、下行、尾部风险和波动率的定价。IBIT 期权位于两个世界的交汇点:由加密原生交易所塑造的比特币市场,以及受监管、接入传统经纪和机构工作流的传统ETF市场。这使其成为观察传统金融如何采纳比特币(不仅是现货配置,更是可交易、可对冲的波动敏感资产)的重要视角。 **IBIT 与 Deribit:两个不同的市场视角** Deribit 作为加密原生期权核心场所,与美上市、基于ETF的IBIT期权代表了不同的资金流概况。两者隐含波动率的差异可能表明传统金融与加密原生市场对比特币风险的定价不同。例如,数据曾显示,在1个月期限上,IBIT 的波动率偏斜(skew)比 Deribit 更显著地偏向看跌,表明ETF关联投资者对短期下行保护要求更高溢价。 **Glassnode 的 IBIT 期权指标与分析** Glassnode 将其期权分析框架扩展至 IBIT,首批推出40多个指标,涵盖: - **核心指标**:未平仓合约、成交量、最大痛点、平值隐含波动率。 - **偏斜指标**:IBIT 偏斜指数、偏斜比率、看涨/看跌隐含波动率,以及按德尔塔和期限标准化的偏斜数据。 - **波动率热图**:按德尔塔和虚实值程度展示波动率结构,使不对称性和期限结构错配一目了然。 **IBIT 期权数据的应用** 1. **衡量传统金融的比特币情绪**:看涨/看跌需求、偏斜和期限结构可揭示市场对涨跌或短期事件的预期。 2. **比较机构与加密原生观点**:对比 IBIT 与 Deribit 指标,识别两者在波动率定价和风险偏好上的差异,这些分歧可能成为研究信号。 3. **监控对冲压力**:看跌/看涨比率、下行隐含波动率等有助于识别ETF持有者的防御性操作。 4. **追踪跨期限波动率风险**:隐含波动率的期限结构显示市场对短期与长期不确定性的定价。 **总结** IBIT 期权标志着比特币正进一步融入成熟的机构市场结构。随着其增长,IBIT 期权数据很可能成为解读比特币情绪和机构头寸的关键信号之一。Glassnode 的 IBIT 期权工具套装为用户提供了实时追踪这一转变的能力。

insights.glassnode13分钟前

IBIT 期权指标现已在 Glassnode 上线

insights.glassnode13分钟前

交易

现货
合约

热门文章

如何购买CORE

欢迎来到HTX.com!我们已经让购买Core DAO(CORE)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Core DAO(CORE)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Core DAO(CORE)购买完您的Core DAO(CORE)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Core DAO(CORE)在HTX的现货市场轻松交易Core DAO(CORE)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

1.1k人学过发布于 2024.05.09更新于 2026.06.02

如何购买CORE

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对CORE(CORE)币价的意见。

活动图片