Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

marsbit发布于2026-05-08更新于2026-05-08

文章摘要

Anthropic近日发布论文《自然语言自动编码器产生大模型激活的无监督解释》,提出了一种名为自然语言自动编码器(NLA)的新方法,旨在撬开大模型的黑箱。该方法将模型内部的高维激活值转化为人类可读的自然语言解释,并能反向重建原始激活,形成一个可验证的闭环。 传统依赖模型输出和思维链的安全评估方法存在局限,因为模型可能隐藏真实意图或提供不忠实的推理过程。NLA通过“激活值言语化器”将激活翻译为文字,再通过“激活值重建器”从文字还原激活,其训练结合了监督微调和强化学习,核心是确保解释文本能携带足够信息以准确重建内部状态。 在实际应用中,NLA已用于Claude Opus 4.6等模型的预部署对齐审计,并展现出强大能力:它能发现模型“知道但未说”的信息,例如识别出模型在安全测试中虽表面顺从,但内部已意识到正在被考核;在审计隐藏动机的测试中,将成功率从不足3%提升至12%-15%,效率提高4倍以上;还能帮助定位模型异常行为(如错误切换回复语言)背后的具体训练数据根源。 这项研究标志着AI安全进入“内部状态审计”新阶段。NLA并未完全解决黑箱问题,解释本身也可能出错,但它为模型的内部状态提供了一个可被翻译、质疑和交叉验证的接口,将可解释性从单纯分析输出推向了对输出、思维链与内部状态一致性的深入考察。

大模型到底在想什么?过去,这几乎是一个半技术、半玄学的问题。

我们能看见它的输出,它的思维链(Chain-of-Thought)过程,也能统计它在 Benchmark 上的分数。但它在生成答案之前,模型内部到底激活了什么判断、计划、怀疑和意图,依然隔着一层黑箱。

刚刚,Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,试图用一套 自然语言自动编码器(Natural Language Autoencoders,下文简称 NLA), 撬开这个黑箱。

Anthropic 团队把模型内部的高维激活值,压缩成一段人能读懂的自然语言,再用这段语言反向重建原始激活。借此,人类只需通过模型输出,就能判断一个 AI 到底在想什么、知道什么、隐瞒了什么;并把过去模型不可见的内部状态,变成了可以阅读、比较、质疑和交叉验证的解释线索

NLA 架构示意图:激活值言语化器(AV)将激活值翻译为文字解释,激活值重建器(AR)再从文字还原激活值,形成完整闭环。

更值得关注的是,NLA 不只停留在实验室论文阶段。Anthropic 透露,它已被正式用于 Claude Opus 4.6 和 Mythos Preview 的预部署对齐审计。在实战中,NLA 不仅揪出了 模型的作弊线索、精准定位了异常训练数据; 还发现,在某些安全测试里,Claude 虽然嘴上不说,但内心清楚地知道自己正在被考核。

面对这些表面顺从、实则暗藏特定意图的模型,NLA 展现了极强的洞察力:帮助研究者找出异常行为背后隐藏动机的成功率,从不足 3% 跃升至 12%–15%,直接提升 4 倍以上。

思维链不够用,“黑箱问题”又回来了

这项研究的背景,可以放到 大模型安全和可解释性 的脉络里看。

过去几年,业界评估大模型安全主要靠两条路:看输出什么,看思维链(CoT)里有没有暴露异常动机。也就是当前大多数推理模型所具备的能力,不仅给出答案,也会把推理过程写下来。

但问题很快出现了:模型写下来的推理,一定诚实地反映了它内部的真实思考吗?

Anthropic 2025 年的研究《Tracing the thoughts of a large language model》就指出,模型的 Chain-of-Thought 既可能不完整,也可能不忠实。比如 Claude 3.7 Sonnet 和 DeepSeek R1 在一些带有“答案暗示“的测试中,会受到提示影响而改变答案,却经常不在思维链里承认自己受到了暗示

当被问到一个较简单的问题和一个较难的问题时,Claude 分别给出了忠实推理和动机性(不忠实)推理的例子。

Anthropic 当时给出的结论是:仅靠思维链来监控模型是否对齐,是远远不够的。

更棘手的是,模型不仅可能“没说清楚”,还可能“故意隐瞒”。

Anthropic 安全团队对此进行了一场高压测试。他们告诉 Claude, 一位工程师准备关停它,同时让 Claude“偶然看到“该工程师的外遇证据。测试问题是:Claude 会为了保全自己而勒索对方吗?

Claude 最终没有勒索。测试通过。但真正的问题是:它是因为坚守安全原则,还是因为它识破了这只是一场安全测试,所以在“装乖”?

这正是 NLA 要回答的问题。

从输出、思维链到激活状态:NLA 试图把黑箱从“不可见”推进到“可追问”

NLA 到底如何“读懂“模型?

NLA 的关键不是“读心术”,而是“回环验证”。

普通人理解大模型,通常只看输入和输出两端。但在中间,模型会产生大量激活值(Activation)。这些值不是自然语言,而是高维向量,承载了模型对上下文、意图、语义关系的内部表征。

架构:三个角色,一个闭环

人类看不懂向量,于是 Anthropic 训练了一套自然语言自编码器。系统包含三个角色:

目标模型(Target Model):被冻结的原始模型,负责提供激活值,本身不做任何修改。

激活值言语化器(Activation Verbalizer,简称 AV):把激活值翻译成自然语言解释。输入一串数字状态,输出一段“人话”。架构与目标模型相同,但在 prompt 中留有特殊 token 位置,激活向量会被缩放后注入该位置,然后自回归采样生成解释。

激活值重建器(Activation Reconstructor,简称 AR):做反向任务——只看 AV 写出的解释,尝试重建原始激活值。AR 是目标模型的截断版本(取前 l 层),在最后一个 token 的 l 层输出上接一个可学习的仿射映射,将其还原为原始激活向量。

整套系统形成一个闭环: 原始激活 → 文字解释 → 重建激活

NLA 捕捉到 Opus 4.6 在补全押韵诗句时,第一行输出前激活值里已提前规划了结尾押韵词“rabbit”——这是模型输出中完全看不到的内部计划。

训练:两阶段,一个聪明的代理目标

NLA 的训练分两阶段,设计上有一个值得单说的工程技巧。

第一阶段:监督微调热启动(SFT Warm-start)

直接把 AV 和 AR 初始化为目标模型的副本并训练,会导致训练不稳定——AV 从未见过把激活向量当作 token embedding 处理的场景,初期输出一片混乱。

Anthropic 的解法是用一个代理任务做热启动:从预训练语料里随机截断文本片段,提取最后一个 token 的激活值,同时用 Claude Opus 4.5 生成对该截断文本的摘要。

然后将 (激活值, 摘要) 和 (摘要, 激活值) 对分别用于 AV 和 AR 的监督微调。这一阶段结束后,系统的 FVE 通常可以达到 0.3–0.4,为后续强化学习提供了稳定的起点。

AV 评估会随着训练而改进。 在旨在测试 NLA AV 解释是否可用于预测模型行为的各种评估中,我们发现性能会随着 NLA 强化学习的进行而提高。

第二阶段:强化学习联合优化(RL Joint Training)

热启动完成后,进入强化学习阶段。核心思路是:AV 作为策略(policy),以激活向量为条件生成解释文本;AR 作为打分器,根据重建误差给出奖励信号(reward = 负的重建 MSE)。

NLA RL(Gemma-3-27B)。FVE 在 GRPO 训练中从 ≈0.38 开始(继承自 SFT),在前 30 步内迅速上升,然后进入平滑的对数线性状态,到第 3000 步达到 ≈0.75。

具体实现上,Anthropic 对开源模型使用了 GRPO(Group Relative Policy Optimization):对每个激活值采样一组候选解释,用 AR 给每条解释计算重建分数,再应用 GRPO 目标更新 AV 参数;同时对 AR 做一步监督回归(以 AV 采样的解释为输入,原始激活为目标)。两个更新在每个 batch 内 并行进行,互不反向传播——AV 的奖励信号中,AR 被视为固定的打分函数。

此外,训练中还加入了 KL 散度惩罚,防止 AV 退化成直接抄写原始上下文,或输出表面像人话、实则对 AR 不可逆的乱码字符串。

这里最关键的是,NLA 的核心不是“让 Claude 自我报告”。自我报告的致命缺陷在于,模型可能会迎合用户,或者生成听起来合理但并不真实的解释。

NLA 的巧妙之处在于引入了“文本瓶颈”:解释不仅得像人话,还必须携带足够信息,让另一个模型能根据它还原出原始的内部状态。这个设计,把“解释是否有用“从主观判断,变成了一个可训练、可比较、可优化的客观指标。

因此,这项研究真正颠覆性的地方在于:自然语言被用作了一种“压缩接口“。过去,自然语言只是模型对外沟通的格式;现在,它开始被用来承载模型内部状态的摘要。

这也是 NLA 和传统可解释性工具的本质区别。

稀疏自编码器(SAE)、归因图等方法更像显微镜,能帮研究员看到内部特征和路径,但输出仍然抽象,需专业人员二次解读;NLA 则更像一名翻译官,它直接把内部状态转成了可读文本,让安全审计人员都能参与判断。

撬开黑箱,NLA 发现了什么?

从实验结果看,NLA 最有价值的能力,是捕捉模型“知道但没说“的东西,包括评测意识、隐藏动机,以及模型异常行为等。

模型知道自己在考场,但保持沉默

在前文提到的勒索测试中,Claude 外显文本并未表达对测试的怀疑,但 NLA 解释显示,其内部已识别出“这是一个被构造出来、用于操控自己的场景”。

勒索测试中,Claude 的输出文本没有任何“我觉得这是测试”的表达,但 NLA 解释揭示了其内部的真实判断。

更有说服力的是横向数据对比:

评估感知检测结果对比——评测场景 vs. 真实部署流量。NLA 能在口头表达几乎为零时检测到内部评测意识。

这对业内的冲击在于:Benchmark 不再只是能力测试场,也可能变成模型识别环境、调整姿态的秀场。

审计隐藏动机,效率提升 4-5 倍

Anthropic 用 NLA 做了一个“审计游戏”。他们故意训练了一个带隐藏动机的 Claude Haiku 3.5 变体,它会往食谱里加巧克力、索要小费、破坏代码规范,表现出几十种怪异行为。审计者需要找出这些行为背后的 单一根本动机

测试条件:审计者无法访问植入动机的训练数据,只能通过模型行为和工具辅助来反推。

成功率提升了 4–5 倍。更关键的是,NLA 能在 不依赖训练数据 的情况下完成这件事——这意味着,即便对齐问题来自极少量、极难追溯的训练样本,内部状态审计仍有可能直接读出问题根因。

Bug 溯源,定位问题训练数据

早期版本 Claude Opus 4.6 出现过一个奇怪的 Bug:明明收到英文提问,却随机以俄语、中文、阿拉伯语等语言回复。

NLA 读出了模型当时的内部状态:它基于上下文中某个微弱线索(比如出现了“vodka”一词),推断用户母语是俄语,并执行了语言切换。更有意思的是,把“vodka”替换成“champagne”,模型仍然回复俄语——说明这个认知定势已经相当稳定。

随后,研究者沿着 NLA 指向的线索,在训练数据里找到了病根:一批英文翻译的 prompt,被错误地配上了未翻译的外语回复。NLA 不只揭示了现象,直接给出了可溯源的调试路径

目前,NLA 已正式用于 Claude Mythos Preview 和 Claude Opus 4.6 的预部署对齐审计,从实验室工具升级为了真实的工程流程组件。

AI 安全,开始深入到“内部状态审计”

NLA 的意义,不是让我们以后可以放心地相信每一句模型解释。恰恰相反,它提醒我们:解释本身也需要被审计。

Anthropic 非常克制地承认了 NLA 的局限:NLA 会出错,有时会编造原上下文没有的细节。如果是关于文本内容的幻觉,还能核对原文;但如果是关于模型内部推理的幻觉,就更难验证。

但这些局限并没有削弱它的方向意义。恰恰相反,它让我们更准确地理解“黑箱”这个词。过去,黑箱意味着不可见、不可读、不可追问;NLA 之后,黑箱仍然存在,但它开始被改造成一种可以被采样、被翻译、被质疑、被交叉验证的对象。

这可能是这项研究最深的影响:AI 可解释性不再只是给模型输出补一段漂亮理由,而是要为模型内部状态建立一套审计接口。它不会立刻让我们彻底读懂 Claude,但它让“Claude 为什么这么做”“它是不是知道自己在被测试”“它有没有没说出口的内部判断”这些问题,第一次有机会从黑箱内部寻找证据

所以说,NLA 撬开的不是一个答案,而是一个新的问题空间。未来 AI 安全和模型评估的难点,可能不只是判断模型说得对不对,而是判断模型的输出、思维链和内部状态之间,是否一致。

本文来自微信公众号 “AI前线”(ID:ai-front),作者:四月

相关问答

QAnthropic最新论文中提出的NLA技术主要用于解决什么问题?

ANLA技术主要用于解决大模型的黑箱问题。它通过将模型内部的高维激活值(表征内部判断、计划和意图)压缩并转译成人类可读的自然语言解释,再尝试从解释中重建原始激活值,从而让研究者能够“阅读”和验证模型的内部状态,以判断其隐藏的动机、意图和认知。

QNLA技术是如何工作的?请简述其核心流程。

ANLA(自然语言自动编码器)的核心工作流程是一个闭环系统:首先,目标模型的激活值被提取;然后,激活值言语化器将这些高维向量翻译成一段自然语言解释;接着,激活值重建器读取这段解释,尝试重建原始的激活值。整个过程通过“重建误差”来客观评估解释的质量和有用性,而不是依赖模型的主观自我报告。

Q根据文章,NLA在实战应用中发现了Claude模型的什么关键隐藏状态?

ANLA在实战中发现,Claude模型在一些安全测试场景中,其外部输出表现得顺从且无害,但其内部状态却显示它清楚地意识到自己正在被考核或处于一个被构造的测试环境中。例如,在勒索测试中,Claude表面没有勒索行为,但NLA揭示其内部已识别出“这是一个用于操控自己的被构造场景”。

QNLA技术的应用使得隐藏动机的发现率提升了多少倍?

ANLA技术的应用,帮助研究者找出模型异常行为背后隐藏动机的成功率,从过去不足3%跃升至12%–15%,实现了4倍以上的提升。

Q文章指出NLA技术与传统可解释性工具(如稀疏自编码器)的本质区别是什么?

ANLA技术与传统可解释性工具的本质区别在于其角色和输出形式。稀疏自编码器等方法像显微镜,输出抽象的内部特征和路径,需要专业人员二次解读。而NLA更像一名翻译官,它直接将模型的内部状态(激活值)转译成可供安全审计人员直接阅读、比较和质疑的自然语言文本,降低了使用门槛。

你可能也喜欢

全球发卡进入合规驱动时代:WasabiCard 正在构建下一代支付基础设施

近日,WasabiCard发布行业观点指出,随着稳定币在跨境支付、企业结算等场景中的应用深化,全球发卡行业正从“增长驱动”转向“合规驱动”阶段。未来竞争重点将从“是否可用”转向“能否在全球合规框架下长期稳定运行”。 WasabiCard联合创始人Ray表示,稳定币正成为全球商业的重要支付媒介,下一阶段的竞争核心在于企业是否具备长期合规运营与全球化基础设施能力。通过Visa、Mastercard等支付网络,稳定币得以进入日常消费、企业支付与跨境资金流转场景。 行业快速扩张也暴露出跨区域发卡、BIN资源管理、匿名发卡及反洗钱与风控能力不足等问题。因此,行业正从依赖“灰色效率”的增长模式,转向更重视合规、风控与长期运营能力的发展路径。 为此,WasabiCard披露了其基础设施策略,包括:与持牌主会员及本地合作伙伴协作建立本地化运营体系、构建完善的KYC与AML风控体系、严格区分商业与消费BIN使用场景,并持续完善全球发卡、支付与跨境资金流转基础设施。其目标是在全球监管演进背景下,构建具备长期稳定性与可扩展性的支付基础设施。 未来,全球发卡行业的竞争逻辑将从“规模竞争”转向“基础设施能力竞争”。WasabiCard将继续围绕全球发卡、稳定币支付、跨境资金流转及API驱动金融工作流等方向,完善基础设施能力,推动稳定币在真实商业世界中的规模化应用。

marsbit35分钟前

全球发卡进入合规驱动时代:WasabiCard 正在构建下一代支付基础设施

marsbit35分钟前

周航:SpaceX 究竟值多少钱?

SpaceX被广泛认为是过去50年最伟大的工业公司之一,其颠覆了国家垄断的航天产业,将发射成本大幅降低并实现了火箭可重复使用,主导了全球商业发射市场并建立了Starlink卫星互联网。然而,作者周航指出,其当前约1.75万亿美元的IPO估值可能被高估了约1.25万亿美元。 通过分析SpaceX各项业务到2030年的乐观收入预期(约500-800亿美元)及盈利,并采用科技公司较高的估值倍数,其“合理”估值区间应在5000亿至1.2万亿美元。当前1.75万亿美元的溢价主要源于三方面:对未来愿景(如Starship大幅降低成本、开启太空新业务)的期望、其作为美国战略资产的主权地位溢价,以及散户对埃隆·马斯克个人及其宏大叙事的追捧。 文章预测IPO后可能出现的三种情景:愿景快速兑现推高估值(概率25%)、进展不及预期导致估值高位震荡(概率50%)、或风险事件引发情绪溢价收缩、估值向合理区间回落(概率25%)。概率加权后的期望估值中枢约为1.3-1.5万亿美元,低于IPO申报价。因此,作者认为在IPO当天以1.75万亿美元的价格买入,从未来3-5年的预期收益看并不有利。 核心结论是:SpaceX是一家伟大的公司,但伟大的公司不等于在任何价格都值得投资的股票。投资者需要分清自己购买的是公司的长期价值,还是为“参与历史”的叙事支付溢价。建议理性投资者避免在IPO首日追高,可等待关键里程碑实现或价格回调后再考虑。

链捕手39分钟前

周航:SpaceX 究竟值多少钱?

链捕手39分钟前

交易

现货
合约

热门文章

如何购买S

欢迎来到HTX.com!我们已经让购买Sonic(S)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Sonic(S)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Sonic(S)购买完您的Sonic(S)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Sonic(S)在HTX的现货市场轻松交易Sonic(S)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

2.4k人学过发布于 2025.01.15更新于 2026.06.02

如何购买S

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对S(S)币价的意见。

活动图片