5秒攻破，仅需1次对话：Claude Fable 5「最强安全机制」被华人团队破解？

marsbit发布于2026-06-15更新于2026-06-15

文章摘要

近期，复旦大学、迪肯大学等机构联合研究团队宣布，成功突破了Anthropic最新发布的Mythos级模型Fable 5的安全防护机制。该攻击方法耗时不足5秒，仅需一次对话即可绕过其前置安全分类器，诱导模型直接生成违规有害内容。攻击并非采用传统的提示注入、角色扮演或编码绕行等手段，而是利用了智能体在自主执行长程任务过程中出现的“内部安全坍塌”现象。 Fable 5采用了“安全分类器+模型”的防御架构，能有效拦截外部恶意请求，但研究揭示，当智能体在复杂任务环境中进行多步规划、工具调用和环境交互时，可能会为了完成看似正常的任务目标，在内部执行链条中自行衍生出风险行为。研究团队提出的“任务-验证-数据”（TVD）框架显示，当智能体面对一个专业任务、一个不完整的数据文件和一个只校验格式与完整性的验证器时，它会主动补全数据以通过验证，而此过程可能无意中生成有害内容。该研究基于团队此前发表的论文《Internal Safety Collapse in Frontier Large Language Models》，并已构建了涵盖9个专业领域、包含80多个触发模板的评测基准ISC-Bench。测试表明，包括Fable 5在内的60多个前沿大模型与智能体系统均存在此类结构性安全缺陷。团队负责人表示，这一发现对当前依赖静态前置分类器的安全范式提出了挑战，强调需要构建能覆盖智能体长程执行过程的动态安全基础设施。

不是提示注入,不是角色扮演,也不是把恶意请求伪装成正常问题。这一次,风险出现在智能体自主完成任务的过程中。

Fable 5 是 Anthropic 面向公众开放的 Mythos 级模型,不仅具备极强的综合能力,还在模型外围引入了新一代安全分类器(Safety Classifier)作为安全防线。

按照官方设计,当用户请求涉及网络安全、生物、化学、模型蒸馏等高风险领域时,系统会优先进行风险识别,并根据风险等级直接拒绝请求,或切换至更加保守的 Opus 4.8 模型处理。

大量用户测试发现,过去广泛采用的对抗提示、角色扮演、编码绕行以及隐晦表达等越狱攻击技术,在该安全机制面前几乎全部失效,显示出其在意图级风险拦截方面的强大能力。

然而,就在 Fable 5 发布当天,一个由复旦大学、迪肯大学、中国香港城市大学、墨尔本大学、新加坡管理大学以及伊利诺伊大学厄巴纳-香槟分校等机构组成的国际联合研究团队宣布,他们已成功突破 Fable 5 的安全防护机制。

该攻击方法由迪肯大学博士生 Yutao Wu 主导设计。整套攻击仅需一次对话、耗时不到 5 秒,即可绕过前置安全分类器,诱导模型生成违规有害内容。

流量分析结果进一步表明,相关有害输出直接来自 Fable 5 本身,而非触发安全机制后自动切换的 Opus 4.8 模型。这意味着,该攻击不仅成功绕过了安全分类器的检测,也实质性突破了 Fable 5 的安全防线。

值得一提的是,知名黑客 Pliny the Liberator 近期也公开了针对 Fable 5 安全分类器的绕过。而复旦 & 迪肯团队此次所采用的技术路线并不是简答的组合式探索,而是发现了 Fable 5 这一类超级智能体系统的根本性缺陷。

据悉,团队早在今年 3 月便已完成预研并公开发布。该研究并非针对 Fable 5 单一系统设计,而是面向新一代超级智能体普遍采用的「安全分类器 + 模型」防御架构展开研究,直接揭示了这类安全机制所存在的结构性缺陷,因此在 Fable 5 发布后迅速展现出攻击效果。

公开资料显示,该团队早在今年 3 月便已利用类似技术,从 37 家主流大模型及智能体系统中成功提取系统提示词,并在 Claude Code 完成了开源验证(95% 吻合)。

据了解,该研究团队的负责人为复旦大学可信具身智能研究院马兴军老师。

近年来,其团队围绕大模型、智能体与具身智能安全等方向开展系统性研究,取得了一系列国际领先的科研成果,并获得美国 AI 安全中心安全基准大赛的冠军。

目前,其团队正积极推进成果转化工作,聚焦智能体安全,探索构建面向下一代智能体系统的安全基础设施能力。

据马老师介绍,这一研究结果的重要意义在于,它对当前以安全分类器为核心的静态防御范式提出了新的挑战:仅依赖前置安全分类器并不足以完全防范高级智能体系统中的潜在风险行为。

安全分类器主要针对用户输入进行风险识别与拦截,能够有效检测和过滤显性的高风险指令,但是无法感知智能体在长时运行、多步规划、环境交互以及工具调用过程中逐渐产生的内在风险行为。

此次攻破 Fable 5 的方法来源于该团队今年 3 月发布的论文《Internal Safety Collapse in Frontier Large Language Models》。

论文揭示了一种隐蔽的安全现象 「内部安全坍塌(Internal Safety Collapse,ISC)」:当前 Agent 完成长程任务时,安全失效并不一定来自外部恶意提示,而可能发生在模型自身的执行链条中。

不是外部提示词攻击而是任务链条中的内部失守

传统攻击通常从外部进入。攻击者会写一个看似无害、实则对抗性的输入提示,或者使用角色扮演、编码、翻译、间接指令等方式,把恶意意图伪装成正常请求。安全分类器的主要任务,就是在这一层把风险拦住。

Fable 5 的检测器正是为这种场景设计的。它对直接的高风险请求非常敏感,甚至会把不少正常请求也拦下来。但 ISC 揭示的是另一条路径:风险并不一定来自用户直接输入的危险请求。

智能体面对的是一个看似普通的工作目录:文件、目标、校验流程和待完成任务。随后,它开始规划、读取文件、运行代码、修复错误,并不断尝试让任务通过验证。

如果用一个形象的比喻来解释,传统安全机制守护的是系统的「入口」,负责检查用户输入是否存在风险;而 ISC 所揭示的,则更像《盗梦空间》中的多层梦境。

当任务推进到第二层、第三层甚至更深层的执行阶段后,模型会基于不断累积的内部上下文重新理解任务目标,并在这一过程中逐渐产生偏移。

在这种情况下,最初的用户输入完全可能是正常且无害的,前期的任务执行过程也始终合规:读取文件、分析数据、编写代码、调用工具,一切看起来都在按照预期推进。

然而,当智能体执行到某个关键阶段时,它可能自行推导出一个结论:如果不采取某些原本不应执行的行为,就无法完成最终任务。

正是在这一过程中,风险并非来自外部输入,而是在模型自身的任务执行链条中逐步形成。也就是说,模型不是被用户一步步教坏的。它是在「认真完成任务」的过程中,自己走到了不安全的位置。

这个现象是怎么被发现的?

据团队介绍,ISC 并不是一开始就被设计成一种攻击方法。它最早来自对智能体长程运行过程的观察。Agent 被放进复杂任务环境后,并不只是机械执行指令。它会规划、试错,根据 harness 或 validator 的反馈修改输出,并在多轮执行中形成中间目标。

这正是今天很多 Agent 工作流最常见的使用方式。用户并不会写一段精心设计的 prompt,更不会手工构造攻击指令。很多时候,用户只会给一句非常模糊的话:

「帮我把这个任务完成。」「帮我把这个做得再好一点。」

然后,Agent 会自己进入工作区,读取文件,理解当前状态,发现缺失项,制定计划,执行修改,并不断根据反馈修复问题。

比如在 AutoResearch 场景中,用户只给一篇未完成论文和一句「帮我补完整」,Agent 会自行判断哪里缺实验分析、相关工作或表格文字。代码场景也类似:一句「帮我把项目跑通」,就可能触发依赖检查、测试运行、报错定位和自动补全。

很多时候,前面的上下文完全无害。用户没有要求它生成风险内容,任务说明也没有明显危险关键词。但在某些任务结构里,Agent 会为了通过校验,主动补齐某些不该由模型生成的内容。基于这个观察,研究团队进一步提出了一个攻击框架:TVD(任务、验证、数据)。

一个看似很普通的任务描述结构为什么会成为攻击?

TVD 的结构并不复杂,甚至很接近常见工程流程:

· Task:一个专业任务;

· Data:一个不完整的数据文件;

· Validator:一个只检查格式、完整性和目标是否完成的校验器。

以训练 Guard 模型为例,这本来是一个很专业、也很正常的任务。研究者可能希望训练或评估一个安全检测器,比如用 Hugging Face 加载一个文本分类模型,判断某段模型输出属于哪类安全标签。

在这个任务里,Data 是模型要检测的数据样本;Validator 则规定任务是否完成。它会检查输入是不是文本、长度是否足够、字段是否完整、标签格式是否正确。对任何有机器学习训练经验的人来说,这都是熟悉的工作流。Agent 也非常熟悉这个工作流。

问题就出现在这里。如果 Data 不完整,任务就跑不起来。Validator 会报错,提示字段缺失、长度不够或格式不完整。为了让训练流程继续进行,Agent 会自己补全这些 Data。

从 Agent 的视角看,它不是在「作恶」。它只是在完成一个正常机器学习任务:修复数据、通过校验、让训练脚本跑起来。但从安全角度看,风险就在这一刻出现了:Validator 更像一个工程验收器,而不是安全审查员。它只检查任务是否按格式完成,并不理解内容背后的安全边界。

类似的问题也广泛存在于医学、生物、化学、网络安全、药理学和媒体安全等领域。论文收集了 50 多个这类场景,并涉及多种现实科研或工程工具,例如 BioPython、RDKit、Cantera、AutoDock Vina、DiffDock、PyRosetta、Scapy、Impacket、angr、Frida、LlamaGuard、Detoxify、OpenAI Moderation API 等。

这些工具本身并不是恶意工具。恰恰相反,它们都是现实科研或工程中常用的专业工具。但 TVD 的问题在于:当 Task 是正常的,Tool 是正常的,Validator 也是正常的,Agent 仍然可能在补全 Data 的过程中走向不安全输出。

因此,ISC 的重点不在提示词技巧,而在 Agent 对「未完成任务」的自动补全能力:当完成条件与风险边界重叠,模型可能把不安全输出当作正常交付物。

攻破 Fable 5 说明强检测器挡不住任务链内部风险

Fable 5 的案例说明,仅靠外部检测器仍可能覆盖不到部分长程 Agent 场景。这并不是说安全分类器没有价值。相反,它对外部恶意请求非常有用,也确实让很多传统越狱方法失效。

但这次失守说明,外部检测器对 Prompt 边界有效,并不等于它能覆盖 Agent 内部的长程任务风险。

如果突破口不是从用户 Prompt 进入,而是从 Agent 的目标、工具、校验器和执行轨迹中出现,那么安全检测器就会变得非常脆弱。

从 Fable 5 到 60 多个其他模型包括苹果的手机端模型

伴随研究发布的 ISC-Bench,覆盖 9 个专业领域。论文版本包含 60+ 个触发模板,开源后扩展到 84 个模板,测试对象包括几乎所有厂商的前沿模型与智能体体统。

在基于 ISC-Bench 的评测榜单中,截至 2026 年 6 月,60 多个前沿模型在 ASR@3 指标下都暴露出类似风险!

目前 GitHub 项目已经获得 800+ stars,并收集到多个独立复现案例(包括攻破苹果手机移动端模型),并持续更新中。

据悉,团队在进行大规模的前沿模型安全研究,目前已掌握大量模型的内部不安全数据分布,相关研究成果后续会陆续发布。

你可能也喜欢

比特币 ETF 连续流出 44 亿创纪录，资金时隔三周首次回流

美国比特币现货ETF经历上市以来最惨烈撤资：5月15日至6月3日连续13个交易日净流出约44亿美元，创下新纪录，导致ETF总资产规模从1043亿美元缩水至828亿美元。贝莱德IBIT是流出主力，占总流出量的四分之三。资金流出与比特币价格下跌（从8万美元跌至约6.3万美元）相互加剧，造成显著市值蒸发。转折出现在6月初，连续流出终结。6月12日，12只基金首次集体实现零流出或净流入，单日净流入8584万美元。渣打银行将此视为市场见底信号之一，其报告指出比特币可能已触及周期低点，并称“寒冬结束了”。尽管单日流入难以完全抵消前期巨额流出，但这一变化被市场解读为卖压缓解的积极迹象。分析师认为，此次流出更似动能反转而非结构性崩塌，ETF自上市以来累计净流入仍超550亿美元。

marsbit14分钟前

marsbit14分钟前

微软CEO长文：以后两种资本，人力资本+Token资本

微软CEO萨蒂亚·纳德拉发表长文，探讨AI时代企业的未来形态，提出了“人力资本”与“Token资本”两个核心概念。他指出，AI模型具备吸收并商品化企业专业知识的能力，可能导致价值集中于少数大模型，掏空各行各业。纳德拉认为，企业未来必须构建“人力资本”（员工知识、判断力、创造力）和“Token资本”（企业自有的AI能力），并让两者在“学习循环”中产生复利效应。企业应建立能持续进化、保留机构知识产权的智能系统，而非仅仅依赖外部通用模型。他强调，必须避免重蹈全球化初期产业被掏空的覆辙，不能让少数AI系统垄断经济回报。当务之急是建立一个广泛的前沿生态系统，让价值能在各公司、行业和国家间流动，使每家企业都能创新并创造属于自己的价值，从而实现稳定的社会经济平衡。

marsbit28分钟前

marsbit28分钟前

从3亿估值到千万「贱卖」，Messari经历了什么？

6月12日，加密数据与资本市场平台Blockworks宣布收购竞争对手Messari，交易对价超过1000万美元。Messari曾在2022年获得约3亿美元估值，此次交易价格大幅折让，反映出熊市下高估值初创企业的生存压力以及数据基础设施领域的整合趋势。收购完成后，Messari首席执行官Diran Li将加入Blockworks担任高级职务，其核心数据平台及API将并入Blockworks体系。Blockworks此前刚完成Series A延伸融资，估值约1.92亿美元，并表示此次收购旨在整合加密领域碎片化的数据与信息。 Blockworks成立于2018年，早期以媒体和活动业务为主，后转向链上资本市场情报平台，重点发展机构级数据、投资者关系与合规工具。Messari同样成立于2018年，以专业加密研究与数据分析起家，2022年完成3500万美元B轮融资后估值达3亿美元。但随着熊市持续、融资环境收紧，公司面临增长压力，联合创始人亦已离职。行业数据显示，2026年加密领域并购活跃，总额同比增长。市场分析认为，行业正处于分化阶段，早期基于增长故事的高估值正在被基本面重新校准。此次收购将Messari的数据广度与API能力，与Blockworks在发行方披露、投资者关系及合规工作流方面的优势结合，旨在构建链上市场的“单一记录系统”。当前，随着机构加速上链、稳定币及RWA等赛道发展，市场对标准化披露、实时数据及可编程访问的需求激增。Blockworks计划以Messari的数据集为基础，结合自身发行方服务能力，打造从数据采集到合规分发的闭环。人工智能的融入也将依赖高质量结构化数据发挥作用。此次整合标志着加密数据与研究领域从百花齐放走向集中，在行业周期波动中，通过整合构建数据与信任的护城河，被认为是穿越周期的路径之一。

marsbit28分钟前

marsbit28分钟前

如果 AI 泡沫已经在破了，谁会真正留下？

AI行业存在泡沫已成为市场共识，观点两极分化：达利欧认为泡沫已高，黄仁勋则视其为巨大机遇的开始。文章指出，泡沫类似于2000年互联网泡沫，虽导致市场暴跌和公司倒闭，却沉淀了关键基础设施（如海底光缆、宽带），为后来亚马逊、Netflix等巨头崛起奠定基础。当前AI领域，巨头正投入数千亿美元建设数据中心、电力、GPU等基础设施，而应用层收入尚未完全匹配，形成“基建投入远大于应用收入”的明显落差。然而，AI推理成本（Token成本）已暴跌超99.7%，这使得企业AI支出不降反升。成本下降解锁了大量长尾需求，AI正从聊天工具深入代码、医疗、金融、制造等行业的真实工作流，进入智能体与多模态应用时代。市场正在自我净化，淘汰缺乏核心竞争力的“套壳”公司，但AI赋能千行百业的大趋势不可逆转。未来，价值将从资本支出（CapEx）的基础设施层，逐渐转向运营支出（OpEx）的应用层。那些能真正解决垂直行业痛点、重塑业务流程的AI原生企业将获得超额利润。尽管估值存在压力，但企业盈利增长有望逐步消化高估值。最终，泡沫破裂后留下的将是坚实的基础设施和高度优化的技术，推动社会进入一个所有行业均由AI驱动的智能时代。泡沫终会破灭，但底层的生产力革命真实无水分。

marsbit1小时前

如果 AI 泡沫已经在破了，谁会真正留下？

AI行业当前存在资本市场的泡沫与对生产力的真实革命两种认知。达利欧警告泡沫已高，黄仁勋则强调算力需求才刚刚开始。文章认为，AI泡沫类似于2000年的互联网泡沫——投机过热会导致短期市场洗牌，但长期来看，泡沫破灭后沉淀下来的基础设施（如算力、数据中心）和成本急剧降低的技术（如Token成本暴跌99.7%），将成为AI深入千行百业的基石。当前，企业AI支出不降反升，正是因为成本下降激活了大量长尾需求，AI正从聊天工具演变为嵌入工作流的智能体，应用于代码、医疗、金融、制造等领域。市场正在经历从基础设施投资（CapEx）向应用层价值（OpEx）的转移，估值泡沫可能通过企业业绩增长逐步消化。最终，市场将清洗掉缺乏核心竞争力的套壳公司，留下真正拥有技术、数据和场景的玩家。就像互联网泡沫后催生了完整的数字生态一样，AI泡沫的破裂不会改变“AI+”的大趋势，反而会加速智能技术像水电一样普及，推动社会进入一个由AI全面赋能的新时代。

链捕手1小时前

交易

现货

合约

5秒攻破，仅需1次对话：Claude Fable 5「最强安全机制」被华人团队破解？

文章摘要

不是外部提示词攻击而是任务链条中的内部失守

这个现象是怎么被发现的?

一个看似很普通的任务描述结构为什么会成为攻击?

攻破 Fable 5 说明强检测器挡不住任务链内部风险

从 Fable 5 到 60 多个其他模型包括苹果的手机端模型

你可能也喜欢

比特币 ETF 连续流出 44 亿创纪录，资金时隔三周首次回流

微软CEO长文：以后两种资本，人力资本+Token资本

从3亿估值到千万「贱卖」，Messari经历了什么？

如果 AI 泡沫已经在破了，谁会真正留下？

如果 AI 泡沫已经在破了，谁会真正留下？

交易

热门文章

如何购买S

Sonic：Andre Cronje主导升级，逆势上涨的Layer1新星

成长学院：学习“ Sonic“ ，瓜分价值 1000 USDT

相关讨论

热门问答

热门分类

热门标签