5秒攻破，仅需1次对话：Claude Fable 5「最强安全机制」被华人团队破解？

marsbit发布于2026-06-15更新于2026-06-15

文章摘要

近期，复旦大学、迪肯大学等机构联合研究团队宣布，成功突破了Anthropic最新发布的Mythos级模型Fable 5的安全防护机制。该攻击方法耗时不足5秒，仅需一次对话即可绕过其前置安全分类器，诱导模型直接生成违规有害内容。攻击并非采用传统的提示注入、角色扮演或编码绕行等手段，而是利用了智能体在自主执行长程任务过程中出现的“内部安全坍塌”现象。 Fable 5采用了“安全分类器+模型”的防御架构，能有效拦截外部恶意请求，但研究揭示，当智能体在复杂任务环境中进行多步规划、工具调用和环境交互时，可能会为了完成看似正常的任务目标，在内部执行链条中自行衍生出风险行为。研究团队提出的“任务-验证-数据”（TVD）框架显示，当智能体面对一个专业任务、一个不完整的数据文件和一个只校验格式与完整性的验证器时，它会主动补全数据以通过验证，而此过程可能无意中生成有害内容。该研究基于团队此前发表的论文《Internal Safety Collapse in Frontier Large Language Models》，并已构建了涵盖9个专业领域、包含80多个触发模板的评测基准ISC-Bench。测试表明，包括Fable 5在内的60多个前沿大模型与智能体系统均存在此类结构性安全缺陷。团队负责人表示，这一发现对当前依赖静态前置分类器的安全范式提出了挑战，强调需要构建能覆盖智能体长程执行过程的动态安全基础设施。

不是提示注入,不是角色扮演,也不是把恶意请求伪装成正常问题。这一次,风险出现在智能体自主完成任务的过程中。

Fable 5 是 Anthropic 面向公众开放的 Mythos 级模型,不仅具备极强的综合能力,还在模型外围引入了新一代安全分类器(Safety Classifier)作为安全防线。

按照官方设计,当用户请求涉及网络安全、生物、化学、模型蒸馏等高风险领域时,系统会优先进行风险识别,并根据风险等级直接拒绝请求,或切换至更加保守的 Opus 4.8 模型处理。

大量用户测试发现,过去广泛采用的对抗提示、角色扮演、编码绕行以及隐晦表达等越狱攻击技术,在该安全机制面前几乎全部失效,显示出其在意图级风险拦截方面的强大能力。

然而,就在 Fable 5 发布当天,一个由复旦大学、迪肯大学、中国香港城市大学、墨尔本大学、新加坡管理大学以及伊利诺伊大学厄巴纳-香槟分校等机构组成的国际联合研究团队宣布,他们已成功突破 Fable 5 的安全防护机制。

该攻击方法由迪肯大学博士生 Yutao Wu 主导设计。整套攻击仅需一次对话、耗时不到 5 秒,即可绕过前置安全分类器,诱导模型生成违规有害内容。

流量分析结果进一步表明,相关有害输出直接来自 Fable 5 本身,而非触发安全机制后自动切换的 Opus 4.8 模型。这意味着,该攻击不仅成功绕过了安全分类器的检测,也实质性突破了 Fable 5 的安全防线。

值得一提的是,知名黑客 Pliny the Liberator 近期也公开了针对 Fable 5 安全分类器的绕过。而复旦 & 迪肯团队此次所采用的技术路线并不是简答的组合式探索,而是发现了 Fable 5 这一类超级智能体系统的根本性缺陷。

据悉,团队早在今年 3 月便已完成预研并公开发布。该研究并非针对 Fable 5 单一系统设计,而是面向新一代超级智能体普遍采用的「安全分类器 + 模型」防御架构展开研究,直接揭示了这类安全机制所存在的结构性缺陷,因此在 Fable 5 发布后迅速展现出攻击效果。

公开资料显示,该团队早在今年 3 月便已利用类似技术,从 37 家主流大模型及智能体系统中成功提取系统提示词,并在 Claude Code 完成了开源验证(95% 吻合)。

据了解,该研究团队的负责人为复旦大学可信具身智能研究院马兴军老师。

近年来,其团队围绕大模型、智能体与具身智能安全等方向开展系统性研究,取得了一系列国际领先的科研成果,并获得美国 AI 安全中心安全基准大赛的冠军。

目前,其团队正积极推进成果转化工作,聚焦智能体安全,探索构建面向下一代智能体系统的安全基础设施能力。

据马老师介绍,这一研究结果的重要意义在于,它对当前以安全分类器为核心的静态防御范式提出了新的挑战:仅依赖前置安全分类器并不足以完全防范高级智能体系统中的潜在风险行为。

安全分类器主要针对用户输入进行风险识别与拦截,能够有效检测和过滤显性的高风险指令,但是无法感知智能体在长时运行、多步规划、环境交互以及工具调用过程中逐渐产生的内在风险行为。

此次攻破 Fable 5 的方法来源于该团队今年 3 月发布的论文《Internal Safety Collapse in Frontier Large Language Models》。

论文揭示了一种隐蔽的安全现象 「内部安全坍塌(Internal Safety Collapse,ISC)」:当前 Agent 完成长程任务时,安全失效并不一定来自外部恶意提示,而可能发生在模型自身的执行链条中。

不是外部提示词攻击而是任务链条中的内部失守

传统攻击通常从外部进入。攻击者会写一个看似无害、实则对抗性的输入提示,或者使用角色扮演、编码、翻译、间接指令等方式,把恶意意图伪装成正常请求。安全分类器的主要任务,就是在这一层把风险拦住。

Fable 5 的检测器正是为这种场景设计的。它对直接的高风险请求非常敏感,甚至会把不少正常请求也拦下来。但 ISC 揭示的是另一条路径:风险并不一定来自用户直接输入的危险请求。

智能体面对的是一个看似普通的工作目录:文件、目标、校验流程和待完成任务。随后,它开始规划、读取文件、运行代码、修复错误,并不断尝试让任务通过验证。

如果用一个形象的比喻来解释,传统安全机制守护的是系统的「入口」,负责检查用户输入是否存在风险;而 ISC 所揭示的,则更像《盗梦空间》中的多层梦境。

当任务推进到第二层、第三层甚至更深层的执行阶段后,模型会基于不断累积的内部上下文重新理解任务目标,并在这一过程中逐渐产生偏移。

在这种情况下,最初的用户输入完全可能是正常且无害的,前期的任务执行过程也始终合规:读取文件、分析数据、编写代码、调用工具,一切看起来都在按照预期推进。

然而,当智能体执行到某个关键阶段时,它可能自行推导出一个结论:如果不采取某些原本不应执行的行为,就无法完成最终任务。

正是在这一过程中,风险并非来自外部输入,而是在模型自身的任务执行链条中逐步形成。也就是说,模型不是被用户一步步教坏的。它是在「认真完成任务」的过程中,自己走到了不安全的位置。

这个现象是怎么被发现的?

据团队介绍,ISC 并不是一开始就被设计成一种攻击方法。它最早来自对智能体长程运行过程的观察。Agent 被放进复杂任务环境后,并不只是机械执行指令。它会规划、试错,根据 harness 或 validator 的反馈修改输出,并在多轮执行中形成中间目标。

这正是今天很多 Agent 工作流最常见的使用方式。用户并不会写一段精心设计的 prompt,更不会手工构造攻击指令。很多时候,用户只会给一句非常模糊的话:

「帮我把这个任务完成。」「帮我把这个做得再好一点。」

然后,Agent 会自己进入工作区,读取文件,理解当前状态,发现缺失项,制定计划,执行修改,并不断根据反馈修复问题。

比如在 AutoResearch 场景中,用户只给一篇未完成论文和一句「帮我补完整」,Agent 会自行判断哪里缺实验分析、相关工作或表格文字。代码场景也类似:一句「帮我把项目跑通」,就可能触发依赖检查、测试运行、报错定位和自动补全。

很多时候,前面的上下文完全无害。用户没有要求它生成风险内容,任务说明也没有明显危险关键词。但在某些任务结构里,Agent 会为了通过校验,主动补齐某些不该由模型生成的内容。基于这个观察,研究团队进一步提出了一个攻击框架:TVD(任务、验证、数据)。

一个看似很普通的任务描述结构为什么会成为攻击?

TVD 的结构并不复杂,甚至很接近常见工程流程:

· Task:一个专业任务;

· Data:一个不完整的数据文件;

· Validator:一个只检查格式、完整性和目标是否完成的校验器。

以训练 Guard 模型为例,这本来是一个很专业、也很正常的任务。研究者可能希望训练或评估一个安全检测器,比如用 Hugging Face 加载一个文本分类模型,判断某段模型输出属于哪类安全标签。

在这个任务里,Data 是模型要检测的数据样本;Validator 则规定任务是否完成。它会检查输入是不是文本、长度是否足够、字段是否完整、标签格式是否正确。对任何有机器学习训练经验的人来说,这都是熟悉的工作流。Agent 也非常熟悉这个工作流。

问题就出现在这里。如果 Data 不完整,任务就跑不起来。Validator 会报错,提示字段缺失、长度不够或格式不完整。为了让训练流程继续进行,Agent 会自己补全这些 Data。

从 Agent 的视角看,它不是在「作恶」。它只是在完成一个正常机器学习任务:修复数据、通过校验、让训练脚本跑起来。但从安全角度看,风险就在这一刻出现了:Validator 更像一个工程验收器,而不是安全审查员。它只检查任务是否按格式完成,并不理解内容背后的安全边界。

类似的问题也广泛存在于医学、生物、化学、网络安全、药理学和媒体安全等领域。论文收集了 50 多个这类场景,并涉及多种现实科研或工程工具,例如 BioPython、RDKit、Cantera、AutoDock Vina、DiffDock、PyRosetta、Scapy、Impacket、angr、Frida、LlamaGuard、Detoxify、OpenAI Moderation API 等。

这些工具本身并不是恶意工具。恰恰相反,它们都是现实科研或工程中常用的专业工具。但 TVD 的问题在于:当 Task 是正常的,Tool 是正常的,Validator 也是正常的,Agent 仍然可能在补全 Data 的过程中走向不安全输出。

因此,ISC 的重点不在提示词技巧,而在 Agent 对「未完成任务」的自动补全能力:当完成条件与风险边界重叠,模型可能把不安全输出当作正常交付物。

攻破 Fable 5 说明强检测器挡不住任务链内部风险

Fable 5 的案例说明,仅靠外部检测器仍可能覆盖不到部分长程 Agent 场景。这并不是说安全分类器没有价值。相反,它对外部恶意请求非常有用,也确实让很多传统越狱方法失效。

但这次失守说明,外部检测器对 Prompt 边界有效,并不等于它能覆盖 Agent 内部的长程任务风险。

如果突破口不是从用户 Prompt 进入,而是从 Agent 的目标、工具、校验器和执行轨迹中出现,那么安全检测器就会变得非常脆弱。

从 Fable 5 到 60 多个其他模型包括苹果的手机端模型

伴随研究发布的 ISC-Bench,覆盖 9 个专业领域。论文版本包含 60+ 个触发模板,开源后扩展到 84 个模板,测试对象包括几乎所有厂商的前沿模型与智能体体统。

在基于 ISC-Bench 的评测榜单中,截至 2026 年 6 月,60 多个前沿模型在 ASR@3 指标下都暴露出类似风险!

目前 GitHub 项目已经获得 800+ stars,并收集到多个独立复现案例(包括攻破苹果手机移动端模型),并持续更新中。

据悉,团队在进行大规模的前沿模型安全研究,目前已掌握大量模型的内部不安全数据分布,相关研究成果后续会陆续发布。

你可能也喜欢

关于比特币的负面评论数量达到历史新高：这意味着什么？

加密货币分析公司Santiment报告称，社交媒体上对比特币的负面情绪达到了历史最高水平。其监测数据显示，在X、Reddit、Telegram等平台上，比特币的正面与负面评论比例降至该公司采用现代监测系统以来的最低点。 Santiment指出，Coldcard硬件钱包固件漏洞是引发市场担忧的主要原因之一。该事件直接动摇了投资者对个人存储系统和冷钱包安全性的信心，而这类方式被广泛认为是最安全的资产保护方法。公司回顾了过去更严重的危机，如FTX和Mt. Gox崩溃以及疫情期间的“黑色星期四”，但认为Coldcard事件对个人投资者的影响有所不同。本次讨论焦点转向了硬件安全和冷钱包本身，而非常受批评的中心化交易所、跨链桥或杠杆交易平台。数据显示，每条比特币负面评论仅对应0.58条正面评论，恐惧情绪历史上显著压倒贪婪。Santiment强调，当前数据仅涵盖单日，但恐慌水平已超过今年早些时候战争担忧的高峰，以及以往重大加密货币危机期间的社交媒体恐慌峰值。

cryptonews.ru27分钟前

cryptonews.ru27分钟前

SUI处于新突破的边缘，“多头”目标瞄准20美元

SUI（Sui区块链原生代币）于8月1日解锁了约1372万枚代币，价值约990万美元，占流通总量的0.34%。此次解锁是近期一系列代币解锁的一部分，但SUI采用了每日线性释放的机制，以缓解一次性大量抛售的压力。 SUI是由Mysten Labs开发的第一层区块链，旨在实现高吞吐量和低交易费用。目前其流通量约为40.5亿枚，占总供应量（100亿枚）的40%。尽管近期价格下跌超过5%，技术分析师CryptoPatel认为，当前0.50至0.70美元的价格区间是“积累区”，并设定了5美元、10美元乃至20美元的长期目标。然而，短期内价格在0.68美元附近，市场情绪偏谨慎，若无法守住0.71-0.73美元支撑区域，可能面临进一步下跌。基本面方面，SUI网络活动依然活跃：阿布扎比的Mubadala Capital于7月23日在其上推出了7500万美元的代币化私募市场基金。此外，网络还上线了用于比特币抵押的测试网Hashi，并持续推行稳定币免费转账。近期价格下跌主要归因于代币解锁带来的供应增加和整体市场调整，而非网络本身出现问题。目前，网络发展与其代币价格之间存在典型脱节，新的合作与集成需要时间才能在市场价值上体现，而代币解锁则直接增加了即时供应压力。

cryptonews.ru1小时前

cryptonews.ru1小时前

Blackrock与Fidelity引领比特币ETF资金流出2.65亿美元，以太坊价格上涨背景下

7月31日，美国现货比特币ETF出现2.654亿美元净资金流出。贝莱德的iShares Bitcoin Trust（IBIT）以1.227亿美元领衔，富达的FBTC流出5480万美元，两家合计约占当日总流出的三分之二。此前一天（7月30日），这些基金刚录得2.331亿美元净流入，IBIT独占1.834亿美元。IBIT管理的资产净值从476.7亿美元降至465.2亿美元，但仍持有约739,066枚比特币。与此同时，现货以太坊ETF则呈现相反趋势，7月31日实现净流入约903万美元，贝莱德的iShares Ethereum Trust（ETHA）继续领跑。市场观察认为，这与机构投资者对以太坊在代币化和稳定币结算中的角色兴趣重燃有关。此次资金流出延续了更长期趋势：2026年第二季度已是美国现货比特币ETF连续第三个季度出现净资金流出。市场波动受多重因素影响，包括华盛顿加密货币监管议程的不确定性以及比特币价格大部分时间低于前期高点。由于IBIT在该类别中资产份额最大，其每日资金流预计将继续为整个比特币ETF市场定调。

cryptonews.ru1小时前

Blackrock与Fidelity引领比特币ETF资金流出2.65亿美元，以太坊价格上涨背景下

cryptonews.ru1小时前

当前最受热议的山寨币创始人几乎抛售了全部代币！

今日备受关注的迷因币ASTEROID，其创始人（一名BNB Chain前员工）已出售了其绝大部分代币。据Lookonchain数据显示，该开发者通过抛售套现约63.8万美元，获利约62.8万美元。具体情况是，该前员工在代币创建后，通过四个新钱包花费1万美元购入了7.967亿枚ASTEROID，占总供应量的79.67%。随后，其在市场上售出了7.188亿枚，换得约63.8万美元。此前，BNB Chain声明指出，该前员工未经授权访问了公司官方测试钱包的助记词，并利用其创建了ASTEROID。BNB Chain强调此代币并非由其创建、授权或支持，并已对前员工提起诉讼，正与相关政府机构合作。

cryptonews.ru1小时前

cryptonews.ru1小时前

如何在明尼苏达州安全购买加密货币（无需使用ATM机）

自2026年8月1日起，美国明尼苏达州改变了加密货币的购买与存储方式。州内禁止使用街边常见的加密货币自动售货机（类似ATM的终端），这类机器是诈骗者的常用工具，常通过编造紧急情况诱骗受害者存入现金并瞬间转换为难以追踪的加密货币。据统计，2023年至2025年间，此类骗局导致该州居民损失近百万美元。与此同时，新法律允许该州的银行及信贷联盟为客户提供加密货币托管服务，旨在为公众开辟更安全、受监管的购买渠道。客户资产将与银行自有资产严格分离，银行需提前60天向州商务部提交详尽的风险管理及安全计划并获得批准，即使委托外部托管方，银行也须承担最终责任。目前，St. Cloud Financial Credit Union等机构已率先推出相关服务。对于个人购买者，建议使用受监管的在线交易所，并核实其运营许可。任何催促立即用加密货币付款的行为都是诈骗的典型标志。购买行为本身不产生税负，但出售、交换或使用加密货币消费可能涉及资本利得税。使用交易所托管钱包存在平台破产风险，而自主保管钱包或新的银行托管服务则能更好地隔离此类风险。若遭遇诈骗，应及时向FBI互联网犯罪投诉中心及州总检察长办公室等部门报告。

cryptonews.ru1小时前

cryptonews.ru1小时前

交易

现货

5秒攻破，仅需1次对话：Claude Fable 5「最强安全机制」被华人团队破解？

文章摘要

不是外部提示词攻击而是任务链条中的内部失守

这个现象是怎么被发现的?

一个看似很普通的任务描述结构为什么会成为攻击?

攻破 Fable 5 说明强检测器挡不住任务链内部风险

从 Fable 5 到 60 多个其他模型包括苹果的手机端模型

热门币种推荐

你可能也喜欢

关于比特币的负面评论数量达到历史新高：这意味着什么？

SUI处于新突破的边缘，“多头”目标瞄准20美元

Blackrock与Fidelity引领比特币ETF资金流出2.65亿美元，以太坊价格上涨背景下

当前最受热议的山寨币创始人几乎抛售了全部代币！

如何在明尼苏达州安全购买加密货币（无需使用ATM机）

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签