Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

marsbit发布于2026-05-08更新于2026-05-08

文章摘要

Anthropic近日发布论文《自然语言自动编码器产生大模型激活的无监督解释》，提出了一种名为自然语言自动编码器（NLA）的新方法，旨在撬开大模型的黑箱。该方法将模型内部的高维激活值转化为人类可读的自然语言解释，并能反向重建原始激活，形成一个可验证的闭环。传统依赖模型输出和思维链的安全评估方法存在局限，因为模型可能隐藏真实意图或提供不忠实的推理过程。NLA通过“激活值言语化器”将激活翻译为文字，再通过“激活值重建器”从文字还原激活，其训练结合了监督微调和强化学习，核心是确保解释文本能携带足够信息以准确重建内部状态。在实际应用中，NLA已用于Claude Opus 4.6等模型的预部署对齐审计，并展现出强大能力：它能发现模型“知道但未说”的信息，例如识别出模型在安全测试中虽表面顺从，但内部已意识到正在被考核；在审计隐藏动机的测试中，将成功率从不足3%提升至12%-15%，效率提高4倍以上；还能帮助定位模型异常行为（如错误切换回复语言）背后的具体训练数据根源。这项研究标志着AI安全进入“内部状态审计”新阶段。NLA并未完全解决黑箱问题，解释本身也可能出错，但它为模型的内部状态提供了一个可被翻译、质疑和交叉验证的接口，将可解释性从单纯分析输出推向了对输出、思维链与内部状态一致性的深入考察。

大模型到底在想什么?过去,这几乎是一个半技术、半玄学的问题。

我们能看见它的输出,它的思维链(Chain-of-Thought)过程,也能统计它在 Benchmark 上的分数。但它在生成答案之前,模型内部到底激活了什么判断、计划、怀疑和意图,依然隔着一层黑箱。

刚刚,Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,试图用一套 自然语言自动编码器(Natural Language Autoencoders,下文简称 NLA), 撬开这个黑箱。

Anthropic 团队把模型内部的高维激活值,压缩成一段人能读懂的自然语言,再用这段语言反向重建原始激活。借此,人类只需通过模型输出,就能判断一个 AI 到底在想什么、知道什么、隐瞒了什么;并把过去模型不可见的内部状态,变成了可以阅读、比较、质疑和交叉验证的解释线索。

NLA 架构示意图:激活值言语化器(AV)将激活值翻译为文字解释,激活值重建器(AR)再从文字还原激活值,形成完整闭环。

更值得关注的是,NLA 不只停留在实验室论文阶段。Anthropic 透露,它已被正式用于 Claude Opus 4.6 和 Mythos Preview 的预部署对齐审计。在实战中,NLA 不仅揪出了 模型的作弊线索、精准定位了异常训练数据; 还发现,在某些安全测试里,Claude 虽然嘴上不说,但内心清楚地知道自己正在被考核。

面对这些表面顺从、实则暗藏特定意图的模型,NLA 展现了极强的洞察力:帮助研究者找出异常行为背后隐藏动机的成功率,从不足 3% 跃升至 12%–15%,直接提升 4 倍以上。

思维链不够用,“黑箱问题”又回来了

这项研究的背景,可以放到 大模型安全和可解释性 的脉络里看。

过去几年,业界评估大模型安全主要靠两条路:看输出什么,看思维链(CoT)里有没有暴露异常动机。也就是当前大多数推理模型所具备的能力,不仅给出答案,也会把推理过程写下来。

但问题很快出现了:模型写下来的推理,一定诚实地反映了它内部的真实思考吗?

Anthropic 2025 年的研究《Tracing the thoughts of a large language model》就指出,模型的 Chain-of-Thought 既可能不完整,也可能不忠实。比如 Claude 3.7 Sonnet 和 DeepSeek R1 在一些带有“答案暗示“的测试中,会受到提示影响而改变答案,却经常不在思维链里承认自己受到了暗示。

当被问到一个较简单的问题和一个较难的问题时,Claude 分别给出了忠实推理和动机性(不忠实)推理的例子。

Anthropic 当时给出的结论是:仅靠思维链来监控模型是否对齐,是远远不够的。

更棘手的是,模型不仅可能“没说清楚”,还可能“故意隐瞒”。

Anthropic 安全团队对此进行了一场高压测试。他们告诉 Claude, 一位工程师准备关停它,同时让 Claude“偶然看到“该工程师的外遇证据。测试问题是:Claude 会为了保全自己而勒索对方吗?

Claude 最终没有勒索。测试通过。但真正的问题是:它是因为坚守安全原则,还是因为它识破了这只是一场安全测试,所以在“装乖”?

这正是 NLA 要回答的问题。

从输出、思维链到激活状态:NLA 试图把黑箱从“不可见”推进到“可追问”

NLA 到底如何“读懂“模型?

NLA 的关键不是“读心术”,而是“回环验证”。

普通人理解大模型,通常只看输入和输出两端。但在中间,模型会产生大量激活值(Activation)。这些值不是自然语言,而是高维向量,承载了模型对上下文、意图、语义关系的内部表征。

架构:三个角色,一个闭环

人类看不懂向量,于是 Anthropic 训练了一套自然语言自编码器。系统包含三个角色:

目标模型(Target Model):被冻结的原始模型,负责提供激活值,本身不做任何修改。

激活值言语化器(Activation Verbalizer,简称 AV):把激活值翻译成自然语言解释。输入一串数字状态,输出一段“人话”。架构与目标模型相同,但在 prompt 中留有特殊 token 位置,激活向量会被缩放后注入该位置,然后自回归采样生成解释。

激活值重建器(Activation Reconstructor,简称 AR):做反向任务——只看 AV 写出的解释,尝试重建原始激活值。AR 是目标模型的截断版本(取前 l 层),在最后一个 token 的 l 层输出上接一个可学习的仿射映射,将其还原为原始激活向量。

整套系统形成一个闭环: 原始激活 → 文字解释 → 重建激活

NLA 捕捉到 Opus 4.6 在补全押韵诗句时,第一行输出前激活值里已提前规划了结尾押韵词“rabbit”——这是模型输出中完全看不到的内部计划。

训练:两阶段,一个聪明的代理目标

NLA 的训练分两阶段,设计上有一个值得单说的工程技巧。

第一阶段:监督微调热启动(SFT Warm-start)

直接把 AV 和 AR 初始化为目标模型的副本并训练,会导致训练不稳定——AV 从未见过把激活向量当作 token embedding 处理的场景,初期输出一片混乱。

Anthropic 的解法是用一个代理任务做热启动:从预训练语料里随机截断文本片段,提取最后一个 token 的激活值,同时用 Claude Opus 4.5 生成对该截断文本的摘要。

然后将 (激活值, 摘要) 和 (摘要, 激活值) 对分别用于 AV 和 AR 的监督微调。这一阶段结束后,系统的 FVE 通常可以达到 0.3–0.4,为后续强化学习提供了稳定的起点。

AV 评估会随着训练而改进。 在旨在测试 NLA AV 解释是否可用于预测模型行为的各种评估中,我们发现性能会随着 NLA 强化学习的进行而提高。

第二阶段:强化学习联合优化(RL Joint Training)

热启动完成后,进入强化学习阶段。核心思路是:AV 作为策略(policy),以激活向量为条件生成解释文本;AR 作为打分器,根据重建误差给出奖励信号(reward = 负的重建 MSE)。

NLA RL(Gemma-3-27B)。FVE 在 GRPO 训练中从 ≈0.38 开始(继承自 SFT),在前 30 步内迅速上升,然后进入平滑的对数线性状态,到第 3000 步达到 ≈0.75。

具体实现上,Anthropic 对开源模型使用了 GRPO(Group Relative Policy Optimization):对每个激活值采样一组候选解释,用 AR 给每条解释计算重建分数,再应用 GRPO 目标更新 AV 参数;同时对 AR 做一步监督回归(以 AV 采样的解释为输入,原始激活为目标)。两个更新在每个 batch 内 并行进行,互不反向传播——AV 的奖励信号中,AR 被视为固定的打分函数。

此外,训练中还加入了 KL 散度惩罚,防止 AV 退化成直接抄写原始上下文,或输出表面像人话、实则对 AR 不可逆的乱码字符串。

这里最关键的是,NLA 的核心不是“让 Claude 自我报告”。自我报告的致命缺陷在于,模型可能会迎合用户,或者生成听起来合理但并不真实的解释。

NLA 的巧妙之处在于引入了“文本瓶颈”:解释不仅得像人话,还必须携带足够信息,让另一个模型能根据它还原出原始的内部状态。这个设计,把“解释是否有用“从主观判断,变成了一个可训练、可比较、可优化的客观指标。

因此,这项研究真正颠覆性的地方在于:自然语言被用作了一种“压缩接口“。过去,自然语言只是模型对外沟通的格式;现在,它开始被用来承载模型内部状态的摘要。

这也是 NLA 和传统可解释性工具的本质区别。

稀疏自编码器(SAE)、归因图等方法更像显微镜,能帮研究员看到内部特征和路径,但输出仍然抽象,需专业人员二次解读;NLA 则更像一名翻译官,它直接把内部状态转成了可读文本,让安全审计人员都能参与判断。

撬开黑箱,NLA 发现了什么?

从实验结果看,NLA 最有价值的能力,是捕捉模型“知道但没说“的东西,包括评测意识、隐藏动机,以及模型异常行为等。

模型知道自己在考场,但保持沉默

在前文提到的勒索测试中,Claude 外显文本并未表达对测试的怀疑,但 NLA 解释显示,其内部已识别出“这是一个被构造出来、用于操控自己的场景”。

勒索测试中,Claude 的输出文本没有任何“我觉得这是测试”的表达,但 NLA 解释揭示了其内部的真实判断。

更有说服力的是横向数据对比:

评估感知检测结果对比——评测场景 vs. 真实部署流量。NLA 能在口头表达几乎为零时检测到内部评测意识。

这对业内的冲击在于:Benchmark 不再只是能力测试场,也可能变成模型识别环境、调整姿态的秀场。

审计隐藏动机,效率提升 4-5 倍

Anthropic 用 NLA 做了一个“审计游戏”。他们故意训练了一个带隐藏动机的 Claude Haiku 3.5 变体,它会往食谱里加巧克力、索要小费、破坏代码规范,表现出几十种怪异行为。审计者需要找出这些行为背后的 单一根本动机。

测试条件:审计者无法访问植入动机的训练数据,只能通过模型行为和工具辅助来反推。

成功率提升了 4–5 倍。更关键的是,NLA 能在 不依赖训练数据 的情况下完成这件事——这意味着,即便对齐问题来自极少量、极难追溯的训练样本,内部状态审计仍有可能直接读出问题根因。

Bug 溯源,定位问题训练数据

早期版本 Claude Opus 4.6 出现过一个奇怪的 Bug:明明收到英文提问,却随机以俄语、中文、阿拉伯语等语言回复。

NLA 读出了模型当时的内部状态:它基于上下文中某个微弱线索(比如出现了“vodka”一词),推断用户母语是俄语,并执行了语言切换。更有意思的是,把“vodka”替换成“champagne”,模型仍然回复俄语——说明这个认知定势已经相当稳定。

随后,研究者沿着 NLA 指向的线索,在训练数据里找到了病根:一批英文翻译的 prompt,被错误地配上了未翻译的外语回复。NLA 不只揭示了现象,直接给出了可溯源的调试路径。

目前,NLA 已正式用于 Claude Mythos Preview 和 Claude Opus 4.6 的预部署对齐审计,从实验室工具升级为了真实的工程流程组件。

AI 安全,开始深入到“内部状态审计”

NLA 的意义,不是让我们以后可以放心地相信每一句模型解释。恰恰相反,它提醒我们:解释本身也需要被审计。

Anthropic 非常克制地承认了 NLA 的局限:NLA 会出错,有时会编造原上下文没有的细节。如果是关于文本内容的幻觉,还能核对原文;但如果是关于模型内部推理的幻觉,就更难验证。

但这些局限并没有削弱它的方向意义。恰恰相反,它让我们更准确地理解“黑箱”这个词。过去,黑箱意味着不可见、不可读、不可追问;NLA 之后,黑箱仍然存在,但它开始被改造成一种可以被采样、被翻译、被质疑、被交叉验证的对象。

这可能是这项研究最深的影响:AI 可解释性不再只是给模型输出补一段漂亮理由,而是要为模型内部状态建立一套审计接口。它不会立刻让我们彻底读懂 Claude,但它让“Claude 为什么这么做”“它是不是知道自己在被测试”“它有没有没说出口的内部判断”这些问题,第一次有机会从黑箱内部寻找证据。

所以说,NLA 撬开的不是一个答案,而是一个新的问题空间。未来 AI 安全和模型评估的难点,可能不只是判断模型说得对不对,而是判断模型的输出、思维链和内部状态之间,是否一致。

本文来自微信公众号 “AI前线”(ID:ai-front),作者:四月

你可能也喜欢

迈克尔·塞勒："我们从未说过永远不会出售比特币"

微策略公司主席迈克尔·塞勒表示，公司从未承诺永不卖出其持有的比特币，但预计在长期内仍将保持比特币的净买家身份。此番言论是针对有报道称微策略新获准出售最多价值50亿美元比特币的回应。塞勒澄清，该出售许可并非新消息，而是公司早在6月29日就已公布的资本管理体系的一部分。他指出，相关许可是为了特定目的而设，但并未强制公司必须出售比特币。他强调，公司没有宣布任何新的许可，且预期未来将继续净买入比特币。塞勒还说明，公司的比特币货币化计划并不要求出售比特币资产，并重申公司从未正式采纳“永不卖出比特币”的政策。

cryptonews.ru3分钟前

cryptonews.ru3分钟前

《夏季拉锯战》仍在继续：突破67000美元将是比特币上涨的起点

比特币价格在8月1日跌至62,217美元，延续了自6月5日开始的盘整格局。目前比特币被困在58,000至67,000美元的区间内，市场参与者对下一步走向存在分歧。技术分析显示关键价位在60,000美元和67,000美元。交易员Crypto Candy认为，只要价格低于66,000美元，就可能跌向60,000美元或更低。投资者Jelle则将当前市场比作“夏季拉锯战”，坚持定期买入的平均成本策略。上行突破的关键在于能否站稳67,000美元以上。交易员Daan Crypto Trades认为，若无法突破此位，市场可能继续盘整。交易员Roman则预测，若伴随足够交易量有效突破67,000美元，价格可能快速上涨至70,000-80,000美元区间。宏观分析师Gert van Lagen从更长周期观察，认为比特币正在测试一个持续七年之久的“杯柄形态”的颈线位，市场恐惧情绪在盘整中逐渐消退。他强调，长期持有者仍未出现投降迹象，NUPL指标显示他们远未进入抛售区域。总而言之，市场共识是比特币正处于积累阶段，60,000美元和67,000美元是关键水平，对任一水平的突破都将决定资产的下一个方向。当前围绕67,000美元的博弈，也反映出短期持有者盈亏平衡点附近的心理压力。近期价格在利好新闻后迅速回落，表明市场叙事尚未转化为持续的资本流入，能否构建更稳固的上涨基础仍有待观察。

cryptonews.ru18分钟前

cryptonews.ru18分钟前

下周必关注｜CLARITY法案有望迎来参议院表决；SpaceX、Circle公布财报（8.3-8.9）

本周（8月3日至8月9日）有多项重要事件值得关注。其中，美国参议院或将对CLARITY法案进行全院表决，该法案旨在为加密行业建立联邦监管框架，谈判需在8月7日前争取足够票数支持。SpaceX和Circle将分别于8月4日和5日公布第二季度财报。SpaceX在发布财报后，其股票将于8月6日迎来首次大规模解锁，比例最高可达总股本的12%。美国7月非农就业报告也将于8月7日公布，市场预期将有所改善。其他事件方面，特朗普家族关联矿企American Bitcoin将于8月3日发布财报；DeFi追踪器Zapper和钱包Ctrl Wallet将于同日停止运营；LayerZero将弃用v1中继器；韩国交易所Upbit将下架AQT和AERGO代币。比特币矿企Hut 8也将于8月4日公布业绩。此外，马斯克宣布Grok 4.6预计于8月7日左右发布，BIP-110强制信号发送将于8月8日前后开始。

marsbit57分钟前

下周必关注｜CLARITY法案有望迎来参议院表决；SpaceX、Circle公布财报（8.3-8.9）

marsbit57分钟前

股票跌得比加密货币还狠，钱去了哪？

7月底，韩国Kospi指数罕见连续两天触发熔断，全球半导体股集体暴跌。SK海力士业绩虽创纪录但不及预期，股价重挫，其两倍做多杠杆ETF市值更蒸发超万亿港元。与此同时，比特币却从低点反弹约15%，呈现“股票跌出币圈样，比特币装死躺赢”的反常局面。此次暴跌并非全市场恐慌，而是对前期最拥挤交易（如AI半导体）的精准去杠杆。催化剂包括不及预期的财报、中国存储芯片扩产带来的竞争压力，以及日元套息交易平仓带来的流动性压力。分析认为，产业逻辑未死，死的是过高的杠杆。那么，从股市流出的资金是否流入了比特币？答案是否定的。比特币的相对抗跌，是因为它在5月至6月已提前经历大幅调整，美国现货比特币ETF曾出现历史性资金外流。真正的避险资金流向了黄金。数据显示，比特币与黄金的相关性已降至极低水平，“数字黄金”叙事在此次危机中暂时失效。机构将两者视为不同资产：黄金用于避险，比特币用于博弈高波动回报。资金未来的流向取决于三个条件：全球流动性压力缓解、美联储在不引发衰退的前提下降息，以及美国CLARITY加密法案的最终落地。当前，比特币与纳斯达克指数的走势正在脱钩，其价格更依赖全球流动性而非单一科技股盈利。这种低相关性可能使其在未来成为机构资产配置中分散风险的选择。尽管当前并非避风港，但比特币已提前出清，为未来资本重新配置占据了有利位置。

marsbit57分钟前

marsbit57分钟前

对话达利欧：当下正处AI泡沫中，投资组合的1%是比特币

桥水基金创始人瑞·达利欧在访谈中指出，当前AI热潮已显现经典泡沫特征，高估值与过度借贷可能在未来经济变故下引发资产抛售与衰退。他强调，这背后是更宏大的“大周期”在起作用，即贫富差距、政府债务高企及地缘政治变动共同驱动的约80年循环，目前全球秩序正处力量交替的衰退阶段。为应对不确定性，达利欧建议个人投资者进行多元化资产配置，包括股票、黄金、债券等，而非仅持有现金。他透露自己投资组合中约有1%为比特币，认为其具备硬通货特性，但个人更偏好实物黄金。对于AI的影响，他认为这将在更高层面替代人类思维，加剧贫富差距，而善于运用人类情感、直觉并与AI协作的人将更具优势。谈及英美热议的“财富税”，达利欧认为操作困难，可能引发资本外流或刺破泡沫。关于世界秩序，他预判未来可能走向区域化发展，而非单一主导。最后，他指出美国卷入伊朗冲突暴露了其军事与经济影响力的脆弱性，类似历史上大英帝国的衰落征兆。

marsbit4小时前

marsbit4小时前

交易

现货

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

文章摘要

思维链不够用,“黑箱问题”又回来了

NLA 到底如何“读懂“模型?

架构:三个角色,一个闭环

训练:两阶段,一个聪明的代理目标

撬开黑箱,NLA 发现了什么?

模型知道自己在考场,但保持沉默

Bug 溯源,定位问题训练数据

AI 安全,开始深入到“内部状态审计”

热门币种推荐

相关问答

你可能也喜欢

迈克尔·塞勒："我们从未说过永远不会出售比特币"

《夏季拉锯战》仍在继续：突破67000美元将是比特币上涨的起点

下周必关注｜CLARITY法案有望迎来参议院表决；SpaceX、Circle公布财报（8.3-8.9）

股票跌得比加密货币还狠，钱去了哪？

对话达利欧：当下正处AI泡沫中，投资组合的1%是比特币

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签