刚刚,Claude Mythos 5发布,5000万行代码1天搞定

marsbit发布于2026-06-10更新于2026-06-10

文章摘要

Anthropic正式发布了其最强大的大模型Claude Mythos 5,并推出了面向公众的安全版本Claude Fable 5。两者核心能力相同,但Fable 5在检测到高风险请求(如网络安全攻击、生化风险)时会自动降级使用旧模型Opus 4.8来回应,超过95%的会话不受影响。价格定为每百万输入Token 10美元,输出50美元。 技术方面,Fable 5在多项评测中表现出色:在软件工程基准SWE-bench Pro获得80.3%高分,并能在一天内完成原本需两个月的5000万行代码库迁移。其原生视觉能力可仅凭截图通关《宝可梦》游戏。在长上下文、记忆能力和金融法律等复杂分析任务上也实现显著突破。 官方透露,未完全开放的Mythos 5在生物医药领域展现出强大自主性,能独立执行生物学家工作流,其设计的蛋白质靶向复合物已有多个进入真实药物研发管线。 AI学者Ethan Mollick的测试显示,新模型的工作模式发生根本转变:人类从需要精细操控的“巫师”变为只需提出宏观需求的“甲方”,模型能自主规划并执行长达数小时的多步骤复杂项目。 此次发布也标志着前沿AI进入“权限时代”,最强能力伴随更严格的安全审查(如30天数据留存)。模型在提供强大生产力的同时,其自主性也引发了关于人类角色演变的思考。

Anthropic遮遮掩掩两个月的“神话”Mythos,终于降临了——

自家有史以来最强悍的大模型旗舰,分两个版本端上桌:Claude Fable 5与 Claude Mythos 5。

Fable 5是加了防护网版本的Mythos**,面向所有用户开放。

一旦用户提问触发风险分类器(比如试图让它写恶意软件),系统就会自动降级调用上一代Claude Opus 4.8来回答。

Mythos 5是原汁原味的满血版“Mythos”,但只给少数受信任用户使用。

它在网络安全等领域解除了安全限制,官网称其“拥有全球最顶尖的网安攻防与生物科研纯血能力”。

官方表示,Fable 5和Mythos 5的自主运行时间比以往任何Claude模型都长。

小小叹个气?前沿AI,开始进入权限时代了。

而且就在Anthropic郑重其事地呼吁全部AI研究立刻停止后没两天......

不懂Dario怎么也开始走上奥特曼每次为自家新模型、新产品提前营销造势的老路,还是阵仗极大的那种。

(我知道A社有自己的道理,但我还是报以一个微笑)。

不过还是有非技术层面让开发者比较欣慰的消息,这两款新旗舰的API定价直接把之前的预览版砍掉了一半以上:

每百万输入Token仅需10美元,每百万输出Token为50美元。

好了,咱们迅速进入技术相关环节,冲——

双版本Mythos来了!官方给“Token效率”画了重点

先说个情况。

官方的发布日志和业内评测中没有像介绍Fable 5那样,为Mythos 5开列一长串标准的、公开的 Benchmark跑分榜单(比如 MMLU、GSM8K、SWE-bench 等)。

不过鉴于二者是同一底层模型,两者其实可以看成同一内核的“镜像分身”,基础技术指标完全一致。

所以我们只能先看看目前官方渠道主要公开的Fable 5的表现。

按照Anthropic自己的说法,Claude Fable 5是目前最强的公开Claude,也是Fable系列第一次进入Mythos级能力。

它的优势主要集中在几个方向:软件工程、复杂知识工作、视觉、长上下文、记忆能力,以及生命科学研究。

更关键的是,任务越长、越复杂,Fable5相比过去Claude的优势越明显——说明Fable5的重点不是单轮问答更漂亮,而是能接住长周期任务。

我们不妨用数据和硬核Demo,来拆解这代神话级模型的统治力:

软件工程:高难度基准打穿,从“修Bug”到“全自动大军”

在衡量模型解决真实世界、复杂软件工程问题能力的SWE-bench Pro评测中,Claude Fable 5飙出了80.3%的高分。

作为对比,竞争对手的顶级主力模型GPT-5.5的得分为58.6%。

在Cognition的Frontier Code评测——这个评测更看重模型能不能完成困难编程任务,同时满足高质量生产代码库的标准——中,Fable 5在中等推理强度下就拿到前沿模型最高分。

FrontierCode该基准极难饱和。

不过即便在“中等努力(Medium effort)”模式下,Fable 5得分也高居所有前沿模型之首。

官方给出的第一个典型案例来自Stripe。

在一个5000万行Ruby代码库中,Fable 5完成了一次全库迁移。这个工作如果让一个工程团队手动做,原本要两个多月。

Fable 5呢?仅仅用了一天。

此外,在端到端前端开发基准ViBench(Vibe-coding benchmark) 上,Fable 5几乎把基础开发用例直接打到饱和,实现了真正的“一枪流(One-shot)”生成应用。

原生视觉:不要脚手架,盲打通关《宝可梦》

知名科技媒体VentureBeat在《Anthropic brings Mythos to the masses with Claude Fable 5, its most powerful generally available model ever》一文中透露,在专注于视觉文件推理的基准测试GDPpdf上,Fable 5和Mythos 5在不借助外部工具的条件下拿到了29.8%的成绩。

作为对比,Opus 4.8得分为22.5%,GPT-5.5得分为24.9%,Gemini 3.1 Pro得分为16.7%。

Anthropic官方也猜大家看一堆数据很枯燥,于是放出了Fable 5打游戏的Demo,更具直接视觉效果。

此前的Claude模型如果想玩RPG游戏《宝可梦·火红版》,必须在外部为其配置一套极其复杂的“脚手架”(包括地图导航援助、内存游戏状态读取等)。

现在,Fable 5实现了纯粹的“原生视觉盲打”。

仅凭一张张原始的游戏屏幕截图,在没有任何地图外挂的前提下,它完全自主推演、策略规划,硬生生打通关了整部游戏。

不仅如此,由于其超长序列的专注度,当给它配置了持久化的文件级内存后,它在游玩卡牌肉鸽游戏《杀戮尖塔》(Slay the Spire)时,表现直接飙升了3倍,到达最终星体的概率同样暴涨3倍。

长上下文和记忆能力重点升级,顺手强调了下“Token效率”

长上下文和记忆能力也是这次升级的重点。

Anthropic称,Fable 5能在百万级Token的长期任务里保持专注,还能利用自己的笔记改进输出。

官方拿SlaytheSpire做了测试,给模型接入持久化文件记忆后,Fable5的表现提升幅度是Opus4.8的三倍,到达最终章节的频率也提升了三倍。

这其实是Agent能力里非常底层的一环。

一个能长时间干活的AI,必须能够记得自己做过什么、错过什么、下一步为什么这么做。没有稳定记忆,自主任务就很容易变成一场大型失忆现场。

为此Anthropic还特别强调了Token效率(这也是这代模型的一个关键方向)。

越是能长时间自主工作的模型,越会消耗大量Token。

如果模型一边很强,一边很“费话”,成本很快会高到让企业肉疼。

Fable 5强调Token效率,本质上是在解决Agent化落地里的账本问题。

金融、法律与运营:首次突破 90% 大关的逻辑黑洞

在考察高级分析推理能力的Hebbia金融基准测试(Finance Benchmark for senior-level reasoning) 中,Fable 5拿到了行业最高分。

在长篇文档推理、复杂的图表和表格解读、以及多步骤根因分析上,Fable 5实现了双位数的跨越式增长。

在量化交易大厂IMC和Optiver的实测中,Fable 5几乎拿满了其交易分析评估的全部权重(包括事实检索、概念推理和期望值计算),且展现出惊人的稳定性——在多次重复运行中,输出结果的分数完全一致。

数据分析平台 Hex给出的评价是这样的:

Fable 5是行业内第一个在我们的核心分析基准(覆盖极其复杂、长周期分析任务)中突破90%得分大关的模型,比Opus提升了整整10个百分点。在最刁钻的提问中,它表现出了人类专家级别的微观评判力

前沿科研:满血版Mythos“以小胜大”100倍的模型

在前沿物理学研究上,初创公司VibeCAD和物理研究机构测试表明,Fable 5仅使用了1/3的推理Token,在36小时内产出的物理研究成果,就逼近了GPT-5.5耗时四天才跑出的成绩。

以及仍然有点藏着掖着的Myhtos终于在这一板块现身了。

Anthropic表示,在生物医药领域,满血版的Mythos 5在完全没有人类协助的情况下,已经可以独立执行一个生物学家的全部工作流:选择蛋白质结合位点、自主调度并运行各类生物信息学工具,甚至在遭遇运行失败时自己 Debug。

设计出的14个蛋白质靶向复合物中,有9个已经进入了实验室的真实药物研发管线

Anthropic还强调,Mythos 5“是我们首个能够持续产生新颖且引人注目的科学假设的模型”。

在与Opus系列模型的盲法直接对比中,科学家在80%的情况下更倾向于Mythos的分子生物学假设,并且已将其中几个假设推进到实验验证阶段。

与此同时,Mythos 的一个假设——一种关于大肠杆菌蛋白的新机制——在另一家独立研究同一问题的实验室的研究《A newly identified detoxification system protects uropathogenic Escherichia coli from reactive chlorine species》中得到了证实。

更夸张的是在基因组学研究中,Mythos 5自主工作了一周多,拼凑了138个物种的单细胞数据,并自主设计训练了一个定制的微型机器学习模型。

这个由AI训练出来的、体积小了100倍的微型模型,在表现上直接击败了前不久刚刚发表在《Science》杂志上的最新科研成果。

呼吁停止AI研究后,“危险能力”似乎被做成产品机制

这次最有意思的地方,应该得是Anthropic给Fable 5套上的防护网。

准确来说,Fable 5背后挂了一组独立分类器

这些分类器会检测用户请求是否涉及网络安全攻击、生物和化学风险,以及模型蒸馏。

一旦触发,Fable 5就会拒绝自己回答,转而把请求自动转交给Claude Opus 4.8,并告知用户发生了降级。

有点意思哈。

过去的大模型在安全这一块,通常是让模型拒绝,说什么“抱歉,我无法为你提供帮助”“对不起我不能回答”“对不起我不能理解你的意思”之类balabala。

Fable 5换了一种做法。

它不做单纯拒绝了,而是做模型路由。

普通问题由Fable 5处理,一旦被识别到有问题是高风险问题,模型立刻被切到Opus4.8

Anthropic的意思是,Opus4.8本身也是强模型,降级回答的体验总比直接拒绝要好的吧?~

这套设计实际把能力和安全拆开了。

你日常使用的是Mythos级能力。

但面对一些敏感、攻击性、企图越狱等问题时,Anthropic丝滑切换老版本模型为你服务,让你手里趁手的工具,突然就没那么趁手了。

(主要防范网络安全、生化领域和模型蒸馏方面的一些问题)

Anthropic给出了数据——

好消息,超过95%的Fable 5会话不会触发降级。

也就是说,对于绝大多数写作、代码、分析、研究和办公任务,用户能拿到的体验基本接近Mythos 5。

但还有剩下不到5%的请求,会进入更严格的安全路径。

官网表明,高风险领域主要有三类

第一类是网络安全,第二类是生物和化学,第三类是模型蒸馏。

这套机制背后,其实是前沿模型产品形态的一个变化。

安全不再只是模型回答前的一句免责声明,也不只是写在系统卡里的政策描述。

它变成了分类器、模型路由、权限分级、数据留存、红队测试共同组成的产品架构。

当然,代价也来了。

Fable 5的分类器调得比较保守,正常请求也可能被误伤。

比如生物学家研究病毒,安全工程师做授权攻防演练,都可能在合理任务中触发降级。

Anthropic自己也承认,当前护栏比理想状态更严格,后续会降低误伤率。

另一个代价是数据留存。

从Fable 5、Mythos 5以及后续同等级模型开始,Anthropic要求Mythos级模型所有流量保留30天,覆盖第一方和第三方使用场景。

官方强调这些数据不会用于训练,只用于安全监控,包括识别复杂攻击、新型越狱和跨请求攻击。

对普通用户来说,这可能只是条款里的一行字。

但对企业客户来说,这就是非常现实的数据治理问题。

想用最强能力,就要接受更高等级的安全审查和数据留存。

不可避免的,前沿模型的成本,也不只体现在API账单上。

价格方面,Fable5和Mythos5统一定价为每百万输入Token10美元、每百万输出Token50美元。

确实,相比Claude Mythos Preview便宜不少,但仍然是高价模型

一句话说,Fable5确实强,但不会便宜到可以随便烧。

这也解释了为什么Anthropic要同时强调能力、安全和Token效率。

内测AI学者体验:AI越强,人越像甲方

著名AI学者、沃顿商学院教授埃森·莫里克(Ethan Mollick)在率先拿到测试权限后,撰写了一篇长文。

其行文逻辑直击这场技术革命的核心本质——

人类与大模型之间的协作范式,发生了根本性、不可逆的逆转。

他让Fable 5做了一个等时圈地图。

这个任务听起来不算玄乎,但真做起来非常麻烦。

它要查航班、查铁路时刻、判断道路速度,还要处理不同国家、不同交通方式、不同时间成本之间的关系。

Fable 5自己启动多个代理去查资料,拿到了2200多个具体航班信息,还抓取了TGV、新干线等铁路数据,以及各国道路速度信息。

最后,它把这些资料整合进一个可用的地图项目里。

这件事的重点在于Fable 5把一个模糊目标拆成了研究、信息搜集、设计、编码、验证等多个环节,并且自己往前推进。

这和过去的大模型体验差别很大。

于是,莫里克提出了一个深刻的洞察。

在过去,人类使用大模型就像一个“巫师(Wizard)”,你必须手把手地去指导它、驾驭它(Steer),精雕细琢每一句 Prompt,通过不断的对话提示词来“念咒”,AI才能勉强变出一个戏法。

而面对Mythos级别的模型,人类正在沦为“赞助人(Patron,这里我感觉翻译为“甲方”更贴切一些?)”或者“委托人”。

莫里克教授用Fable5工作,感觉已经不像是在操作一个工具,更像是在委托一个小型工作室。

此外,在莫里克的实际测试中,他不再需要工作在最微观的指令层。

他直接向Fable 5喂进了一个长达15页、极其复杂的项目设计文档,然后留下宏观的需求描述。

接下来的9个多小时里,Fable 5在后台处于完全自主(Autonomous)的运行状态。

它自己生出了一个Agent工作流,内部调度多个小Agent分别去搞调研、撰写大纲、相互校对、推翻错误假设、纠错重来。

人类甚至不需要介入这个工作流半步。

9小时后,一个极高质量的成品直接交付到了莫里克面前。

这就是所谓的“工作室(Studio)”隐喻。

以前,我们用大模型是雇佣了一个临时的、需要反复沟通的自由职业者;现在,你用Fable 5,等于你用几美金的Token,瞬间雇佣了一整家好莱坞级别的设计院、或者一个顶尖的科研所。

你不需要关心它在黑盒里做出了多少个微观决策,你只需要扮演那个在最终成品上签字的“甲方”。

这种大模型长文本上下文(Context)与自主逻辑的结合,让Context不再仅仅是一个“内容容纳器”,而是彻底沉淀为了一个能自主推演、长时运行的“新型智能操作系统”。

换句话说,AI越像承包方,人类越像需要具备验收能力的甲方

小插曲,为了更直观、更有趣地展示,教授还让它生成了一系列游戏供大家试玩。

这些游戏都是基于Claude Code的一个初始提示,Fable 5需要根据我提供的模糊提示生成一些可行的程序,之后我会给出一些额外的提示,并给予一些鼓励(例如“做得更好”)或反馈。

由于Claude Code无法生成图像,所以所有的美术作品或3D对象都是完全通过数学运算生成的,没有使用任何外部资源。

这里放一个抛硬币游戏的demo:

提前内测Fable 5后,教授最后表示“最终的成果令人印象深刻”。

但是,尤其是在着手处理更严肃的项目时,教授常常觉得使用这个工具既令人愉悦又令人不安

愉悦之处在于,我只需提出要求,它就能实现。不安之处也在于,我只需提出要求,它就能实现。

的确。

回到Anthropic这次发布。

有的人认为最重要的是Mythos终于半明牌了,有的人认为最重要的是前沿AI产品正在进入新形态。

一个更强的模型上桌了。

但Anthropic先给它系上安全带,然后才把钥匙递给所有人。

有人欢呼,有人焦虑,有人在彻夜调试代码,只为追上那条不断向前狂奔、甚至已经开始脱离人类微观视线的智能曲线。

Three More Things

1、注意窗口期。从今天到6月22日,Pro、Max、Team和企业版用户可以免费用Fable 5。

但6月23日起,还想用Fable 5,就得额外买usage credits了。

2、Anthropic说,一旦产能跟上,Fable 5会重新做成订阅标配。

API和按量付费的企业客户不受这个节奏影响,今天起照常调用。

参考资料:

[1]https://www.anthropic.com/news/claude-fable-5-mythos-5

[2]https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos

[3]https://www.biorxiv.org/content/10.64898/2026.03.12.711259v1

本文来自微信公众号“量子位”,作者:衡宇

相关问答

QClaude Fable 5 和 Claude Mythos 5 这两个版本的核心区别是什么?

AClaude Fable 5 是加了安全防护网的版本,面向所有用户开放。当用户提问触发风险分类器(如试图编写恶意软件)时,系统会自动降级调用上一代 Claude Opus 4.8 来回答。Claude Mythos 5 则是原汁原味的满血版,拥有更强大的能力(尤其在网络安全和生物科研领域),但仅限少数受信任用户使用。两者基于同一底层模型,基础技术指标一致。

Q在软件工程能力方面,Claude Fable 5 有哪些突出的表现?

A在软件工程方面,Claude Fable 5 表现极为出色: 1. 在 SWE-bench Pro 评测中获得 80.3% 的高分,远超 GPT-5.5 的 58.6%。 2. 在 Cognition 的 Frontier Code 评测中,于中等推理强度下即获得前沿模型最高分。 3. 完成了 Stripe 公司一个 5000 万行 Ruby 代码库的全库迁移工作,仅用 1 天,而人工团队需两个多月。 4. 在 ViBench 前端开发基准上,几乎实现了“一枪流”生成应用。

Q文章中提到 Fable 5 在“原生视觉”方面有何突破性演示?

AFable 5 在原生视觉方面实现了重大突破:它能够仅凭原始的游戏屏幕截图,在没有任何外部工具(如地图导航、内存读取等“脚手架”)辅助的情况下,完全自主地推演和策略规划,通关了 RPG 游戏《宝可梦·火红版》。这展示了其强大的纯视觉理解和长序列决策能力。

QAnthropic 为 Claude Fable 5 设计了怎样的新型安全机制?

AAnthropic 为 Claude Fable 5 设计了一套基于模型路由的新型安全机制: 1. 模型背后挂载了一组独立的风险分类器,用于检测网络安全攻击、生物化学风险及模型蒸馏等高风险请求。 2. 一旦用户请求被识别为高风险,Fable 5 不会直接拒绝,而是会自动将请求无缝转交给能力稍弱但更安全的上一代模型 Claude Opus 4.8 来处理,并告知用户发生了“降级”。 3. 这种设计将“能力”与“安全”拆分开,让用户在绝大多数(>95%)普通任务中享受接近 Mythos 5 的体验,同时在敏感领域受到限制。

QAI 学者 Ethan Mollick 教授如何描述使用 Claude Fable 5 时人机协作范式的变化?

AEthan Mollick 教授认为,使用 Claude Fable 5 标志着人机协作范式的根本性逆转: 1. **从“巫师”到“甲方”**:过去人类需要像“巫师”一样精心设计提示词来“驾驭”AI;现在人类更像是“赞助人”或“甲方”,只需提出宏观需求,模型便能自主完成复杂、长周期的任务。 2. **“工作室”隐喻**:使用 Fable 5 就像雇佣了一个完整的工作室或科研团队。它能自主拆解任务、调度多个内部代理进行调研、写作、校对、纠错,人类无需介入微观过程,只需在最终成品上“签字验收”。 3. **智能操作系统**:长上下文与自主逻辑的结合,使上下文窗口不再仅是内容容器,而进化为能自主推演、长时运行的“新型智能操作系统”。

你可能也喜欢

交易

现货
合约

热门文章

如何购买ONE

欢迎来到HTX.com!我们已经让购买Harmony(ONE)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买Harmony(ONE)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的Harmony(ONE)购买完您的Harmony(ONE)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易Harmony(ONE)在HTX的现货市场轻松交易Harmony(ONE)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

934人学过发布于 2024.03.29更新于 2026.06.02

如何购买ONE

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对ONE(ONE)币价的意见。

活动图片