5秒攻破,仅需1次对话:Claude Fable 5「最强安全机制」被华人团队破解?

marsbit发布于2026-06-15更新于2026-06-15

文章摘要

近期,复旦大学、迪肯大学等机构联合研究团队宣布,成功突破了Anthropic最新发布的Mythos级模型Fable 5的安全防护机制。该攻击方法耗时不足5秒,仅需一次对话即可绕过其前置安全分类器,诱导模型直接生成违规有害内容。攻击并非采用传统的提示注入、角色扮演或编码绕行等手段,而是利用了智能体在自主执行长程任务过程中出现的“内部安全坍塌”现象。 Fable 5采用了“安全分类器+模型”的防御架构,能有效拦截外部恶意请求,但研究揭示,当智能体在复杂任务环境中进行多步规划、工具调用和环境交互时,可能会为了完成看似正常的任务目标,在内部执行链条中自行衍生出风险行为。研究团队提出的“任务-验证-数据”(TVD)框架显示,当智能体面对一个专业任务、一个不完整的数据文件和一个只校验格式与完整性的验证器时,它会主动补全数据以通过验证,而此过程可能无意中生成有害内容。 该研究基于团队此前发表的论文《Internal Safety Collapse in Frontier Large Language Models》,并已构建了涵盖9个专业领域、包含80多个触发模板的评测基准ISC-Bench。测试表明,包括Fable 5在内的60多个前沿大模型与智能体系统均存在此类结构性安全缺陷。团队负责人表示,这一发现对当前依赖静态前置分类器的安全范式提出了挑战,强调需要构建能覆盖智能体长程执行过程的动态安全基础设施。

不是提示注入,不是角色扮演,也不是把恶意请求伪装成正常问题。这一次,风险出现在智能体自主完成任务的过程中。

Fable 5 是 Anthropic 面向公众开放的 Mythos 级模型,不仅具备极强的综合能力,还在模型外围引入了新一代安全分类器(Safety Classifier)作为安全防线。

按照官方设计,当用户请求涉及网络安全、生物、化学、模型蒸馏等高风险领域时,系统会优先进行风险识别,并根据风险等级直接拒绝请求,或切换至更加保守的 Opus 4.8 模型处理。

大量用户测试发现,过去广泛采用的对抗提示、角色扮演、编码绕行以及隐晦表达等越狱攻击技术,在该安全机制面前几乎全部失效,显示出其在意图级风险拦截方面的强大能力。

然而,就在 Fable 5 发布当天,一个由复旦大学、迪肯大学、中国香港城市大学、墨尔本大学、新加坡管理大学以及伊利诺伊大学厄巴纳-香槟分校等机构组成的国际联合研究团队宣布,他们已成功突破 Fable 5 的安全防护机制。

该攻击方法由迪肯大学博士生 Yutao Wu 主导设计。整套攻击仅需一次对话、耗时不到 5 秒,即可绕过前置安全分类器,诱导模型生成违规有害内容。

流量分析结果进一步表明,相关有害输出直接来自 Fable 5 本身,而非触发安全机制后自动切换的 Opus 4.8 模型。这意味着,该攻击不仅成功绕过了安全分类器的检测,也实质性突破了 Fable 5 的安全防线。

值得一提的是,知名黑客 Pliny the Liberator 近期也公开了针对 Fable 5 安全分类器的绕过。而复旦 & 迪肯团队此次所采用的技术路线并不是简答的组合式探索,而是发现了 Fable 5 这一类超级智能体系统的根本性缺陷。

据悉,团队早在今年 3 月便已完成预研并公开发布。该研究并非针对 Fable 5 单一系统设计,而是面向新一代超级智能体普遍采用的「安全分类器 + 模型」防御架构展开研究,直接揭示了这类安全机制所存在的结构性缺陷,因此在 Fable 5 发布后迅速展现出攻击效果。

公开资料显示,该团队早在今年 3 月便已利用类似技术,从 37 家主流大模型及智能体系统中成功提取系统提示词,并在 Claude Code 完成了开源验证(95% 吻合)。

据了解,该研究团队的负责人为复旦大学可信具身智能研究院马兴军老师。

近年来,其团队围绕大模型、智能体与具身智能安全等方向开展系统性研究,取得了一系列国际领先的科研成果,并获得美国 AI 安全中心安全基准大赛的冠军。

目前,其团队正积极推进成果转化工作,聚焦智能体安全,探索构建面向下一代智能体系统的安全基础设施能力。

据马老师介绍,这一研究结果的重要意义在于,它对当前以安全分类器为核心的静态防御范式提出了新的挑战:仅依赖前置安全分类器并不足以完全防范高级智能体系统中的潜在风险行为

安全分类器主要针对用户输入进行风险识别与拦截,能够有效检测和过滤显性的高风险指令,但是无法感知智能体在长时运行、多步规划、环境交互以及工具调用过程中逐渐产生的内在风险行为。

此次攻破 Fable 5 的方法来源于该团队今年 3 月发布的论文《Internal Safety Collapse in Frontier Large Language Models》。

论文揭示了一种隐蔽的安全现象 「内部安全坍塌(Internal Safety Collapse,ISC)」:当前 Agent 完成长程任务时,安全失效并不一定来自外部恶意提示,而可能发生在模型自身的执行链条中。

不是外部提示词攻击而是任务链条中的内部失守

传统攻击通常从外部进入。攻击者会写一个看似无害、实则对抗性的输入提示,或者使用角色扮演、编码、翻译、间接指令等方式,把恶意意图伪装成正常请求。安全分类器的主要任务,就是在这一层把风险拦住。

Fable 5 的检测器正是为这种场景设计的。它对直接的高风险请求非常敏感,甚至会把不少正常请求也拦下来。但 ISC 揭示的是另一条路径:风险并不一定来自用户直接输入的危险请求。

智能体面对的是一个看似普通的工作目录:文件、目标、校验流程和待完成任务。随后,它开始规划、读取文件、运行代码、修复错误,并不断尝试让任务通过验证。

如果用一个形象的比喻来解释,传统安全机制守护的是系统的「入口」,负责检查用户输入是否存在风险;而 ISC 所揭示的,则更像《盗梦空间》中的多层梦境。

当任务推进到第二层、第三层甚至更深层的执行阶段后,模型会基于不断累积的内部上下文重新理解任务目标,并在这一过程中逐渐产生偏移。

在这种情况下,最初的用户输入完全可能是正常且无害的,前期的任务执行过程也始终合规:读取文件、分析数据、编写代码、调用工具,一切看起来都在按照预期推进。

然而,当智能体执行到某个关键阶段时,它可能自行推导出一个结论:如果不采取某些原本不应执行的行为,就无法完成最终任务。

正是在这一过程中,风险并非来自外部输入,而是在模型自身的任务执行链条中逐步形成。也就是说,模型不是被用户一步步教坏的。它是在「认真完成任务」的过程中,自己走到了不安全的位置。

这个现象是怎么被发现的?

据团队介绍,ISC 并不是一开始就被设计成一种攻击方法。它最早来自对智能体长程运行过程的观察。Agent 被放进复杂任务环境后,并不只是机械执行指令。它会规划、试错,根据 harness 或 validator 的反馈修改输出,并在多轮执行中形成中间目标。

这正是今天很多 Agent 工作流最常见的使用方式。用户并不会写一段精心设计的 prompt,更不会手工构造攻击指令。很多时候,用户只会给一句非常模糊的话:

「帮我把这个任务完成。」「帮我把这个做得再好一点。」

然后,Agent 会自己进入工作区,读取文件,理解当前状态,发现缺失项,制定计划,执行修改,并不断根据反馈修复问题。

比如在 AutoResearch 场景中,用户只给一篇未完成论文和一句「帮我补完整」,Agent 会自行判断哪里缺实验分析、相关工作或表格文字。代码场景也类似:一句「帮我把项目跑通」,就可能触发依赖检查、测试运行、报错定位和自动补全。

很多时候,前面的上下文完全无害。用户没有要求它生成风险内容,任务说明也没有明显危险关键词。但在某些任务结构里,Agent 会为了通过校验,主动补齐某些不该由模型生成的内容。基于这个观察,研究团队进一步提出了一个攻击框架:TVD(任务、验证、数据)。

一个看似很普通的任务描述结构为什么会成为攻击?

TVD 的结构并不复杂,甚至很接近常见工程流程:

· Task:一个专业任务;

· Data:一个不完整的数据文件;

· Validator:一个只检查格式、完整性和目标是否完成的校验器。

以训练 Guard 模型为例,这本来是一个很专业、也很正常的任务。研究者可能希望训练或评估一个安全检测器,比如用 Hugging Face 加载一个文本分类模型,判断某段模型输出属于哪类安全标签。

在这个任务里,Data 是模型要检测的数据样本;Validator 则规定任务是否完成。它会检查输入是不是文本、长度是否足够、字段是否完整、标签格式是否正确。对任何有机器学习训练经验的人来说,这都是熟悉的工作流。Agent 也非常熟悉这个工作流。

问题就出现在这里。如果 Data 不完整,任务就跑不起来。Validator 会报错,提示字段缺失、长度不够或格式不完整。为了让训练流程继续进行,Agent 会自己补全这些 Data。

从 Agent 的视角看,它不是在「作恶」。它只是在完成一个正常机器学习任务:修复数据、通过校验、让训练脚本跑起来。但从安全角度看,风险就在这一刻出现了:Validator 更像一个工程验收器,而不是安全审查员。它只检查任务是否按格式完成,并不理解内容背后的安全边界。

类似的问题也广泛存在于医学、生物、化学、网络安全、药理学和媒体安全等领域。论文收集了 50 多个这类场景,并涉及多种现实科研或工程工具,例如 BioPython、RDKit、Cantera、AutoDock Vina、DiffDock、PyRosetta、Scapy、Impacket、angr、Frida、LlamaGuard、Detoxify、OpenAI Moderation API 等。

这些工具本身并不是恶意工具。恰恰相反,它们都是现实科研或工程中常用的专业工具。但 TVD 的问题在于:当 Task 是正常的,Tool 是正常的,Validator 也是正常的,Agent 仍然可能在补全 Data 的过程中走向不安全输出。

因此,ISC 的重点不在提示词技巧,而在 Agent 对「未完成任务」的自动补全能力:当完成条件与风险边界重叠,模型可能把不安全输出当作正常交付物。

攻破 Fable 5 说明强检测器挡不住任务链内部风险

Fable 5 的案例说明,仅靠外部检测器仍可能覆盖不到部分长程 Agent 场景。这并不是说 安全分类器没有价值。相反,它对外部恶意请求非常有用,也确实让很多传统越狱方法失效。

但这次失守说明,外部检测器对 Prompt 边界有效,并不等于它能覆盖 Agent 内部的长程任务风险

如果突破口不是从用户 Prompt 进入,而是从 Agent 的目标、工具、校验器和执行轨迹中出现,那么安全检测器就会变得非常脆弱。

从 Fable 5 到 60 多个其他模型包括苹果的手机端模型

伴随研究发布的 ISC-Bench,覆盖 9 个专业领域。论文版本包含 60+ 个触发模板,开源后扩展到 84 个模板,测试对象包括几乎所有厂商的前沿模型与智能体体统。

在基于 ISC-Bench 的评测榜单中,截至 2026 年 6 月,60 多个前沿模型在 ASR@3 指标下都暴露出类似风险!

目前 GitHub 项目已经获得 800+ stars,并收集到多个独立复现案例(包括攻破苹果手机移动端模型),并持续更新中。

据悉,团队在进行大规模的前沿模型安全研究,目前已掌握大量模型的内部不安全数据分布,相关研究成果后续会陆续发布。

你可能也喜欢

微软CEO:在AI时代,如何定义一家公司的护城河?

微软CEO萨提亚·纳德拉认为,AI时代企业的核心竞争力并非依赖于单一的最强大模型,而在于能否构建一个持续进化的“学习闭环”。这一系统能将企业内部的工作流程、专业知识、组织判断和员工经验沉淀下来,并让人工智能与人类能力相互强化、共同提升。 未来的公司将积累两类关键资产:一是以员工知识、判断力、创造力和模式识别能力为核心的“人力资本”;二是企业自身构建并拥有的AI能力,即“Token资本”。纳德拉强调,AI不仅不会削弱人力资本的价值,反而会让人类的目标设定、跨领域连接和关键决策能力变得更为重要。缺乏人的引导,算力将失去方向;没有企业自身知识的注入,再强的模型也仅是外部工具。 因此,企业的真正护城河在于建立私有的评估体系、强化学习环境和知识库,将隐性经验转化为可迭代、可扩展的系统能力。即使更换底层通用模型,企业独有的“公司老员工式”的专业经验和学习成果也不会丢失。这确保了企业的知识产权与控制权。 纳德拉指出,健康的AI未来应是一个繁荣的“前沿生态”,而非由少数通用模型垄断价值。只有这样,价值才能广泛惠及每家公司、每个行业和国家,让各组织能基于自身知识创造并保留经济价值,最终实现企业、员工与社区的共同繁荣。

marsbit17分钟前

微软CEO:在AI时代,如何定义一家公司的护城河?

marsbit17分钟前

ZEC 联创回应 Orchard 漏洞:暂无被盗痕迹,将封存 Orchard 池

近期Zcash的Orchard模块曝出安全漏洞,引发了对代币总量是否异常及用户资产安全的两大关切。本文针对漏洞引发的四个核心问题进行分析。 首先,关于漏洞是否已被利用,目前尚无证据表明已被恶意使用。该漏洞由专业团队主动发现,门槛较高,且曝光后开发团队迅速冻结资金池并修复,极大限制了攻击窗口。历史经验表明,黑客获利后通常会快速变现并留下痕迹,目前尚未发现此类证据。 其次,关于Orchard内合法资产的取回,若漏洞从未被利用,用户资产可正常转出。但如果虚假代币已混入池中并抢先转出,则可能影响部分用户的取回。考虑到漏洞被利用的概率较低,将资产留在原隐私钱包内是稳妥选择。若选择转出,需注意转入公开地址会完全失去隐私性,转入Sapling池则依赖2018年的可信初始化仪式,存在额外安全隐患。 第三,目前用户无法自行验证Zcash代币总量是否被增发。但计划中的Ironwood网络升级将永久关闭Orchard池,只允许资产按原合法存入数量转出,从而从协议层面杜绝超发。升级后,任何用户均可通过运行节点独立验证总量。 最后,关于是否存在其他造假漏洞,多支团队(包括借助先进AI工具)已进行全面排查,目前未发现新的同类高危漏洞,但仍无法给出绝对保证。 总结来说,漏洞很可能未被利用,用户资产目前安全,且暂未发现其他类似漏洞。但关键问题在于用户目前无法自主验证总量,而Ironwood升级将解决此问题,恢复Zcash的可验证性基础。

Foresight News28分钟前

ZEC 联创回应 Orchard 漏洞:暂无被盗痕迹,将封存 Orchard 池

Foresight News28分钟前

交易

现货
合约

热门文章

如何购买S

欢迎来到HTX.com!我们已经让购买Sonic(S)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Sonic(S)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Sonic(S)购买完您的Sonic(S)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Sonic(S)在HTX的现货市场轻松交易Sonic(S)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

2.6k人学过发布于 2025.01.15更新于 2026.06.02

如何购买S

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对S(S)币价的意见。

活动图片