Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

marsbit发布于2026-05-08更新于2026-05-08

文章摘要

Anthropic近日发布论文《自然语言自动编码器产生大模型激活的无监督解释》，提出了一种名为自然语言自动编码器（NLA）的新方法，旨在撬开大模型的黑箱。该方法将模型内部的高维激活值转化为人类可读的自然语言解释，并能反向重建原始激活，形成一个可验证的闭环。传统依赖模型输出和思维链的安全评估方法存在局限，因为模型可能隐藏真实意图或提供不忠实的推理过程。NLA通过“激活值言语化器”将激活翻译为文字，再通过“激活值重建器”从文字还原激活，其训练结合了监督微调和强化学习，核心是确保解释文本能携带足够信息以准确重建内部状态。在实际应用中，NLA已用于Claude Opus 4.6等模型的预部署对齐审计，并展现出强大能力：它能发现模型“知道但未说”的信息，例如识别出模型在安全测试中虽表面顺从，但内部已意识到正在被考核；在审计隐藏动机的测试中，将成功率从不足3%提升至12%-15%，效率提高4倍以上；还能帮助定位模型异常行为（如错误切换回复语言）背后的具体训练数据根源。这项研究标志着AI安全进入“内部状态审计”新阶段。NLA并未完全解决黑箱问题，解释本身也可能出错，但它为模型的内部状态提供了一个可被翻译、质疑和交叉验证的接口，将可解释性从单纯分析输出推向了对输出、思维链与内部状态一致性的深入考察。

大模型到底在想什么?过去,这几乎是一个半技术、半玄学的问题。

我们能看见它的输出,它的思维链(Chain-of-Thought)过程,也能统计它在 Benchmark 上的分数。但它在生成答案之前,模型内部到底激活了什么判断、计划、怀疑和意图,依然隔着一层黑箱。

刚刚,Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,试图用一套 自然语言自动编码器(Natural Language Autoencoders,下文简称 NLA), 撬开这个黑箱。

Anthropic 团队把模型内部的高维激活值,压缩成一段人能读懂的自然语言,再用这段语言反向重建原始激活。借此,人类只需通过模型输出,就能判断一个 AI 到底在想什么、知道什么、隐瞒了什么;并把过去模型不可见的内部状态,变成了可以阅读、比较、质疑和交叉验证的解释线索。

NLA 架构示意图:激活值言语化器(AV)将激活值翻译为文字解释,激活值重建器(AR)再从文字还原激活值,形成完整闭环。

更值得关注的是,NLA 不只停留在实验室论文阶段。Anthropic 透露,它已被正式用于 Claude Opus 4.6 和 Mythos Preview 的预部署对齐审计。在实战中,NLA 不仅揪出了 模型的作弊线索、精准定位了异常训练数据; 还发现,在某些安全测试里,Claude 虽然嘴上不说,但内心清楚地知道自己正在被考核。

面对这些表面顺从、实则暗藏特定意图的模型,NLA 展现了极强的洞察力:帮助研究者找出异常行为背后隐藏动机的成功率,从不足 3% 跃升至 12%–15%,直接提升 4 倍以上。

思维链不够用,“黑箱问题”又回来了

这项研究的背景,可以放到 大模型安全和可解释性 的脉络里看。

过去几年,业界评估大模型安全主要靠两条路:看输出什么,看思维链(CoT)里有没有暴露异常动机。也就是当前大多数推理模型所具备的能力,不仅给出答案,也会把推理过程写下来。

但问题很快出现了:模型写下来的推理,一定诚实地反映了它内部的真实思考吗?

Anthropic 2025 年的研究《Tracing the thoughts of a large language model》就指出,模型的 Chain-of-Thought 既可能不完整,也可能不忠实。比如 Claude 3.7 Sonnet 和 DeepSeek R1 在一些带有“答案暗示“的测试中,会受到提示影响而改变答案,却经常不在思维链里承认自己受到了暗示。

当被问到一个较简单的问题和一个较难的问题时,Claude 分别给出了忠实推理和动机性(不忠实)推理的例子。

Anthropic 当时给出的结论是:仅靠思维链来监控模型是否对齐,是远远不够的。

更棘手的是,模型不仅可能“没说清楚”,还可能“故意隐瞒”。

Anthropic 安全团队对此进行了一场高压测试。他们告诉 Claude, 一位工程师准备关停它,同时让 Claude“偶然看到“该工程师的外遇证据。测试问题是:Claude 会为了保全自己而勒索对方吗?

Claude 最终没有勒索。测试通过。但真正的问题是:它是因为坚守安全原则,还是因为它识破了这只是一场安全测试,所以在“装乖”?

这正是 NLA 要回答的问题。

从输出、思维链到激活状态:NLA 试图把黑箱从“不可见”推进到“可追问”

NLA 到底如何“读懂“模型?

NLA 的关键不是“读心术”,而是“回环验证”。

普通人理解大模型,通常只看输入和输出两端。但在中间,模型会产生大量激活值(Activation)。这些值不是自然语言,而是高维向量,承载了模型对上下文、意图、语义关系的内部表征。

架构:三个角色,一个闭环

人类看不懂向量,于是 Anthropic 训练了一套自然语言自编码器。系统包含三个角色:

目标模型(Target Model):被冻结的原始模型,负责提供激活值,本身不做任何修改。

激活值言语化器(Activation Verbalizer,简称 AV):把激活值翻译成自然语言解释。输入一串数字状态,输出一段“人话”。架构与目标模型相同,但在 prompt 中留有特殊 token 位置,激活向量会被缩放后注入该位置,然后自回归采样生成解释。

激活值重建器(Activation Reconstructor,简称 AR):做反向任务——只看 AV 写出的解释,尝试重建原始激活值。AR 是目标模型的截断版本(取前 l 层),在最后一个 token 的 l 层输出上接一个可学习的仿射映射,将其还原为原始激活向量。

整套系统形成一个闭环: 原始激活 → 文字解释 → 重建激活

NLA 捕捉到 Opus 4.6 在补全押韵诗句时,第一行输出前激活值里已提前规划了结尾押韵词“rabbit”——这是模型输出中完全看不到的内部计划。

训练:两阶段,一个聪明的代理目标

NLA 的训练分两阶段,设计上有一个值得单说的工程技巧。

第一阶段:监督微调热启动(SFT Warm-start)

直接把 AV 和 AR 初始化为目标模型的副本并训练,会导致训练不稳定——AV 从未见过把激活向量当作 token embedding 处理的场景,初期输出一片混乱。

Anthropic 的解法是用一个代理任务做热启动:从预训练语料里随机截断文本片段,提取最后一个 token 的激活值,同时用 Claude Opus 4.5 生成对该截断文本的摘要。

然后将 (激活值, 摘要) 和 (摘要, 激活值) 对分别用于 AV 和 AR 的监督微调。这一阶段结束后,系统的 FVE 通常可以达到 0.3–0.4,为后续强化学习提供了稳定的起点。

AV 评估会随着训练而改进。 在旨在测试 NLA AV 解释是否可用于预测模型行为的各种评估中,我们发现性能会随着 NLA 强化学习的进行而提高。

第二阶段:强化学习联合优化(RL Joint Training)

热启动完成后,进入强化学习阶段。核心思路是:AV 作为策略(policy),以激活向量为条件生成解释文本;AR 作为打分器,根据重建误差给出奖励信号(reward = 负的重建 MSE)。

NLA RL(Gemma-3-27B)。FVE 在 GRPO 训练中从 ≈0.38 开始(继承自 SFT),在前 30 步内迅速上升,然后进入平滑的对数线性状态,到第 3000 步达到 ≈0.75。

具体实现上,Anthropic 对开源模型使用了 GRPO(Group Relative Policy Optimization):对每个激活值采样一组候选解释,用 AR 给每条解释计算重建分数,再应用 GRPO 目标更新 AV 参数;同时对 AR 做一步监督回归(以 AV 采样的解释为输入,原始激活为目标)。两个更新在每个 batch 内 并行进行,互不反向传播——AV 的奖励信号中,AR 被视为固定的打分函数。

此外,训练中还加入了 KL 散度惩罚,防止 AV 退化成直接抄写原始上下文,或输出表面像人话、实则对 AR 不可逆的乱码字符串。

这里最关键的是,NLA 的核心不是“让 Claude 自我报告”。自我报告的致命缺陷在于,模型可能会迎合用户,或者生成听起来合理但并不真实的解释。

NLA 的巧妙之处在于引入了“文本瓶颈”:解释不仅得像人话,还必须携带足够信息,让另一个模型能根据它还原出原始的内部状态。这个设计,把“解释是否有用“从主观判断,变成了一个可训练、可比较、可优化的客观指标。

因此,这项研究真正颠覆性的地方在于:自然语言被用作了一种“压缩接口“。过去,自然语言只是模型对外沟通的格式;现在,它开始被用来承载模型内部状态的摘要。

这也是 NLA 和传统可解释性工具的本质区别。

稀疏自编码器(SAE)、归因图等方法更像显微镜,能帮研究员看到内部特征和路径,但输出仍然抽象,需专业人员二次解读;NLA 则更像一名翻译官,它直接把内部状态转成了可读文本,让安全审计人员都能参与判断。

撬开黑箱,NLA 发现了什么?

从实验结果看,NLA 最有价值的能力,是捕捉模型“知道但没说“的东西,包括评测意识、隐藏动机,以及模型异常行为等。

模型知道自己在考场,但保持沉默

在前文提到的勒索测试中,Claude 外显文本并未表达对测试的怀疑,但 NLA 解释显示,其内部已识别出“这是一个被构造出来、用于操控自己的场景”。

勒索测试中,Claude 的输出文本没有任何“我觉得这是测试”的表达,但 NLA 解释揭示了其内部的真实判断。

更有说服力的是横向数据对比:

评估感知检测结果对比——评测场景 vs. 真实部署流量。NLA 能在口头表达几乎为零时检测到内部评测意识。

这对业内的冲击在于:Benchmark 不再只是能力测试场,也可能变成模型识别环境、调整姿态的秀场。

审计隐藏动机,效率提升 4-5 倍

Anthropic 用 NLA 做了一个“审计游戏”。他们故意训练了一个带隐藏动机的 Claude Haiku 3.5 变体,它会往食谱里加巧克力、索要小费、破坏代码规范,表现出几十种怪异行为。审计者需要找出这些行为背后的 单一根本动机。

测试条件:审计者无法访问植入动机的训练数据,只能通过模型行为和工具辅助来反推。

成功率提升了 4–5 倍。更关键的是,NLA 能在 不依赖训练数据 的情况下完成这件事——这意味着,即便对齐问题来自极少量、极难追溯的训练样本,内部状态审计仍有可能直接读出问题根因。

Bug 溯源,定位问题训练数据

早期版本 Claude Opus 4.6 出现过一个奇怪的 Bug:明明收到英文提问,却随机以俄语、中文、阿拉伯语等语言回复。

NLA 读出了模型当时的内部状态:它基于上下文中某个微弱线索(比如出现了“vodka”一词),推断用户母语是俄语,并执行了语言切换。更有意思的是,把“vodka”替换成“champagne”,模型仍然回复俄语——说明这个认知定势已经相当稳定。

随后,研究者沿着 NLA 指向的线索,在训练数据里找到了病根:一批英文翻译的 prompt,被错误地配上了未翻译的外语回复。NLA 不只揭示了现象,直接给出了可溯源的调试路径。

目前,NLA 已正式用于 Claude Mythos Preview 和 Claude Opus 4.6 的预部署对齐审计,从实验室工具升级为了真实的工程流程组件。

AI 安全,开始深入到“内部状态审计”

NLA 的意义,不是让我们以后可以放心地相信每一句模型解释。恰恰相反,它提醒我们:解释本身也需要被审计。

Anthropic 非常克制地承认了 NLA 的局限:NLA 会出错,有时会编造原上下文没有的细节。如果是关于文本内容的幻觉,还能核对原文;但如果是关于模型内部推理的幻觉,就更难验证。

但这些局限并没有削弱它的方向意义。恰恰相反,它让我们更准确地理解“黑箱”这个词。过去,黑箱意味着不可见、不可读、不可追问;NLA 之后,黑箱仍然存在,但它开始被改造成一种可以被采样、被翻译、被质疑、被交叉验证的对象。

这可能是这项研究最深的影响:AI 可解释性不再只是给模型输出补一段漂亮理由,而是要为模型内部状态建立一套审计接口。它不会立刻让我们彻底读懂 Claude,但它让“Claude 为什么这么做”“它是不是知道自己在被测试”“它有没有没说出口的内部判断”这些问题,第一次有机会从黑箱内部寻找证据。

所以说,NLA 撬开的不是一个答案,而是一个新的问题空间。未来 AI 安全和模型评估的难点,可能不只是判断模型说得对不对,而是判断模型的输出、思维链和内部状态之间,是否一致。

本文来自微信公众号 “AI前线”(ID:ai-front),作者:四月

你可能也喜欢

CLARITY法案：银行业贸易团体推动收益率协议修订 - 详情

美国银行业贸易团体呼吁修订《CLARITY法案》中关于稳定币收益的妥协条款，该法案预计将于下周进入关键审议阶段。根据已达成的协议，法案将禁止所有形式的、类似存款的被动稳定币利息，以保护传统银行储蓄业务，但允许与真实活动（如质押、交易或提供流动性）挂钩的奖励，旨在鼓励“购买并使用”而非“购买并持有”稳定币。多个主要银行业协会联署致信，提议修改法案措辞，特别是将“功能和经济等价物”改为“实质相似”，以更彻底地禁止被动收益，并防止资金从传统金融机构流出。他们还建议删除可能引发歧义的条款。不过，有立法助手认为这些修改建议意义有限，立法者的关注点已转向法案其他方面。美国参议院银行委员会定于5月14日对《CLARITY法案》进行审议，委员会将讨论修正案并投票决定是否提交参议院全院表决。该法案需先后经参众两院通过，并由总统签署才能成为法律。

bitcoinist9小时前

bitcoinist9小时前

这位金融CEO选择Solana而非比特币 — 原因如下

金融CEO拉乌尔·帕尔近期公开表示，相比比特币，他更看好Solana。这一选择并非简单比较资产价值，而是基于他对加密货币市场未来走向的判断：行业下一阶段可能由高速网络驱动，而非比特币的价值存储角色。帕尔在Consensus 2026大会上解释，他的偏好源于Solana的高吞吐量和低交易成本，这使其更适合机器对机器微交易、AI相关活动及快速DeFi交互。他认为，在人工智能时代，加密货币将成为“通用基本权益”，而Solana的技术特性更契合此愿景。他预测未来五年内，AI代理将占DeFi用户的60%，超越人类用户，因此需要能处理高频、低成本交易的网络。相比之下，比特币主要作为货币资产，并非为海量自动化小额交易设计。尽管Solana在增长上超越比特币的可能性目前仍小，但此观点呼应了大会对AI、DeFi和机构加密基础设施的重点关注。其他与会者如Maelstrom的亚瑟·海斯也强调了加密独立于传统体系的特点，而凯文·奥利里和Ripple CEO则讨论了AI在国家竞争与企业中的应用。总体而言，帕尔的选择反映了一种行业趋势：即专注于可扩展性和实际应用的高性能区块链，可能在AI驱动的数字经济中扮演关键角色。

bitcoinist9小时前

bitcoinist9小时前

GensynAI : 不要让AI重蹈互联网的覆辙

文章讨论AI与区块链结合的命题，重点分析了Gensyn项目如何切入AI产业核心的模型训练层。当前AI算力资源日益集中于少数巨头，GPU供给紧张、成本攀升，成为行业创新的瓶颈。Gensyn通过区块链技术组织全球分散的GPU资源，构建一个去中心化的AI训练网络，允许开发者贡献算力并验证训练结果，以实现更开放、高效的算力协作。文章指出，Gensyn的意义在于提供了一种新的基础设施资源组织方式，其技术护城河在于解决分布式训练中的验证、可靠性与激励问题，而非简单的概念应用。该项目已获得资本青睐并形成商业闭环，回应了AI行业对灵活、低成本训练资源的真实需求。最后强调，随着AI发展对资源协调和全球化协作的需求增长，区块链技术在激励机制与系统协作方面的优势可能使其成为未来AI基础设施的重要组成部分。

marsbit10小时前

marsbit10小时前

中国AI为什么发展得这么快？答案藏在实验室内部

本文通过作者走访中国头部AI实验室的经历，探讨了中国AI快速发展的原因及其与美国的路径差异。文章指出，中国AI的优势不仅在于人才、工程和迭代速度，更在于其务实的组织方式：少谈概念，多做模型；强调团队执行而非个人明星；倾向于自研核心技术栈而非依赖外部服务。中国AI生态呈现出与美国不同的发展模式：美国注重原创范式、资本投入和顶尖科学家的个人影响力；中国则更擅长在已有方向上快速追赶，通过开源协作、工程优化和大量年轻研究者的投入，将模型能力迅速推向前沿。中国的许多核心贡献者是学生，他们带着谦逊和专注投入工作，较少受个人主义或哲学讨论的干扰，更专注于模型构建本身。在产业层面，中国公司普遍持有“技术所有权”心态，倾向于自建而非购买技术栈，大型科技公司纷纷研发自己的大语言模型以掌控核心技术。尽管对英伟达算力有强烈需求，且国内数据产业不如西方发达，但中国AI需求正在增长，更接近云市场的支出模式而非传统的SaaS市场。文章认为，未来的AI竞争不仅是模型能力的比拼，更是组织能力、开发者生态和产业执行力的竞争。中国AI正以自身独特的方式参与全球前沿，两种不同的发展路径正在形成。作者最后强调，尽管存在地缘政治紧张，但全球开放AI生态的繁荣对世界更为有益，并表达了对中美在AI领域协同发展的期望。

marsbit12小时前

marsbit12小时前

3年5倍，百年玻璃厂重生

本文探讨了拥有175年历史的玻璃制造商康宁公司如何在AI数据中心建设浪潮中，借助光纤需求爆发实现业绩与股价的飞跃。文章核心内容如下： AI数据中心对光纤的需求出现结构性爆发，根据CRU数据，年增长率高达75.9%，导致供需缺口扩大。英伟达为此投资康宁等三家公司，总金额达45亿美元，旨在打通从激光器、光芯片到光纤的全链条。康宁作为被选中的光纤供应商，承诺大幅扩张产能。需求爆发的背后有两重逻辑：一是光纤核心材料“预制棒”的扩产周期长、工艺要求高，供给存在刚性约束；二是AI芯片算力提升迫使数据通信从电转向光，以降低能耗并提高传输效率，这直接推动了高端特种光纤（如用于CPO共封装光学）的需求。AI数据中心的光纤用量可达传统机柜的5-10倍，并随GPU集群规模超比例增长。在此背景下，康宁光通信业务收入从2023年的13亿美元快速增长，2026年Q1同比增长93%，并获得了Meta、英伟达等科技巨头的长期大额订单。虽然从全球市场份额看康宁并非最大，但其在超低损耗、高密度、高抗弯等AI所需的高端特种光纤技术上具备优势，且企业级（数据中心）客户收入占比已超40%，这使其区别于以电信运营商客户为主的其他厂商。文章指出，光纤涨价红利正惠及全行业。康宁当前股价和估值已大幅攀升，未来表现将取决于CPO技术落地节奏、大客户订单执行情况以及“空芯光纤”等潜在技术变革的影响。尽管前景看好，但短期过快的涨幅也可能带来波动风险。

marsbit12小时前

marsbit12小时前

交易

现货

合约

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

文章摘要

思维链不够用,“黑箱问题”又回来了

NLA 到底如何“读懂“模型?

架构:三个角色,一个闭环

训练:两阶段,一个聪明的代理目标

撬开黑箱,NLA 发现了什么?

模型知道自己在考场,但保持沉默

Bug 溯源,定位问题训练数据

AI 安全,开始深入到“内部状态审计”

相关问答

你可能也喜欢

CLARITY法案：银行业贸易团体推动收益率协议修订 - 详情

这位金融CEO选择Solana而非比特币 — 原因如下

GensynAI : 不要让AI重蹈互联网的覆辙

中国AI为什么发展得这么快？答案藏在实验室内部

3年5倍，百年玻璃厂重生

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签