Anthropic 发了“最强模型”，但大多数人用不上

marsbit發佈於 2026-06-10更新於 2026-06-10

文章摘要

Anthropic于6月发布了号称“最强”的Fable 5和Mythos 5模型。它们在软件工程、长任务执行等多项基准测试中得分领先。但此次发布的核心策略是“分级开放”：两个模型共享同一底层，Mythos 5因具有强大的网络安全漏洞挖掘能力，仅限少数安全伙伴使用；面向普通用户的Fable 5则在检测到网络安全、生物化学等敏感请求时，会自动降级至旧版模型响应，以确保安全。模型能力提升显著，尤其在代码生成的质量和工程实用性上突破明显。然而，其自动降级机制在实际使用中可能因界限保守而影响体验。同时，Anthropic调整了商业模式，Fable 5不仅API定价翻倍（输入10美元/百万Token），并将从6月23日起移出订阅套餐，需用户额外按量付费。这被视为在IPO前筛选高价值用户、强化定价权的举措。与此相对，国产模型正大幅降价以争夺市场。行业呈现出分化趋势：通用模型价格日趋平民化，而顶尖的前沿模型因供给紧张和针对高需求场景（如专业编程），其溢价可能长期存在。这意味着最强的AI能力，正变得越来越并非人人可用且用得起的服务。

4月,Anthropic推出Mythos模型预览版。这个模型没有面向公众开放,因为在测试中它展现出极强的网络安全与漏洞挖掘能力,能自主发现数千个高危零日漏洞,一旦流出,容易被用于恶意攻击。

为了把这种能力锁定在防御场景内,Anthropic推出了玻璃翼计划(Project Glasswing),仅向苹果、谷歌、微软等12家核心安全伙伴及40余家关键基础设施提供商开放访问权限,并全程受控使用。

先锁起来再发布,这套操作本身就制造了话题。

两个月后,北京时间6月10日凌晨,Anthropic正式推出Fable 5和Mythos 5。

从跑分来看,它们几乎在所有基准测试中拿到了最高分,尤其在软件工程和长任务执行上,与其他模型拉开了明显差距。

但围绕这个模型的讨论,很快就不止于它有多强。

Fable 5和Mythos 5实际上共享同一个底层模型。区别在于,Fable 5面向普通用户,Mythos 5则继续锁在受信任的安全合作伙伴手中。同一个模型,两套规则,面向两个群体,这在Anthropic的产品线里是第一次。

而且,普通用户拿到的也并非完整版本。Anthropic在Fable 5外层加了一道安全分类器,一旦请求触及网络安全、生物化学、模型蒸馏等敏感方向,系统会自动切换到能力更弱的上代模型Opus 4.8响应。

定价同样值得注意,输入10美元、输出50美元/百万Token,官方称约为Opus 4.8的两倍。6月23日起,Fable 5还将从Pro、Max等订阅计划中移出,用户想继续使用,需要额外消耗credits。

这套组合拳拆开来看很合理。能力太强所以做安全限制,成本更高所以提价,风险敏感所以分级发布。但放到一起,释放的信号就变得微妙了。这和过去几年大模型公司拼速度、拼开放的竞争逻辑不同,各家都在想办法让自家模型触达更多用户,而Anthropic选择主动收窄入口,把限制变成了产品策略的一部分。

那么,这个号称前所未有的“最强模型”,是被神化了吗?

01.能力提升明显,自动降级成争议

分级归分级,先看实力到底如何。

软件工程是Anthropic这次更新的核心亮点。在SWE-Bench Pro测试中,Fable 5拿到80.3%的成绩。这个测试主要是看模型能不能在真实的GitHub仓库里定位bug、理解上下文、写出能用的修复代码,80.3%意味着每5个真实工程问题,Fable 5能解决4个。

在Terminal-Bench 2.1榜单上,Fable 5得分88.0%,超过了Open AI的Codex CLI。值得注意的是,Fable 5是通用模型,Codex CLI是专为编程场景打造的垂直工具,二者的差距更能体现其编程实力。

但真正能看出差距的是FrontierCode Diamond,这项测试考察模型的产出的代码能不能达到生产级代码库的质量标准。Fable 5拿到29.3%,Opus 4.8只有13.4%,GPT-5.5只有5.7%。三个数据均来自Anthropic官方公布,GPT-5.5的数据为其内部测试结果。

过去几年,AI模型写代码的能力一直在进步,但长期卡在一个瓶颈上:代码能跑,但不好维护;能够通过基准测试,但落地真实项目中仍会问题频发。

Fable 5在这个维度上的突破,说明Anthropic这次升级的不只是解题能力,而是把模型往真正的工程交付方向推进。

程序员李夏告诉「AIX财经」,AI生成代码很容易出现上下文不连贯的问题,初期能精准理解需求,长时间任务中容易遗忘信息,后期维护成本很高。

在他看来,Fable 5在长任务里的逻辑连贯性有明显进步,同类编码任务可一次性完成,准确率更高。不过,Fable 5相比Opus4.8生成速度较慢,思考链更长,整体响应速度有所下降。

视觉能力也有提升。Anthropic称,Fable 5能从复杂科学图表中提取精确数字,也能根据网页截图直接重建应用源码。官方还演示了实操案例,Fable 5只靠游戏画面截图就通关《宝可梦火红》,不需要搭配辅助工具。前代模型做类似任务时,还需要配备复杂的辅助系统。

长上下文和记忆方面,官方给出的说法是,任务越长越复杂,Fable 5的优势越明显。

此外,生命科学是另一个被重点提及的方向。Anthropic透露基于Mythos 5搭建的单细胞数据分析模型,覆盖138个物种,性能优于《Science》近期刊发的同类型模型,参数量却仅为后者的百分之一。

单从跑分成绩来看,综合能力确实上了一个台阶。

再来看看跑分之外。

Fable 5搭载了一套安全分类器,只要用户请求涉及网络安全、生物化学或模型蒸馏方向,系统会自动切换为Opus 4.8来响应,并告知用户发生了模型降级。官方表示,超过95%的日常对话不会触发,写作、编程、分析等任务大多不受影响。不过,实际体验可能因使用场景有所差异。

在实际使用中,这条界限实际上很容易被触发。李夏提到,他想在国内Mac上体验苹果Siri AI的功能,需要修改一些系统级的序列号参数,Fable 5直接拒绝了操作。目前,分类器设定比较保守,存在误判,官方称后续会持续调整。

但Anthropic还披露了另一层限制,对于大模型开发相关的请求,比如构建预训练流水线、设计分布式训练基础设施等,模型会在后台主动降低输出质量,且不会告知用户。

综合来看,Fable 5在各项硬指标上确实有了进步,但自动降级机制在一定程度上会影响使用体验。

02.最强模型,不是人人用得上

Anthropic这次的模型升级,用同一个底层模型,包装成了两款产品,面向两类群体。

Mythos 5留在玻璃翼计划的框架内,只面向苹果、谷歌、微软等12家核心安全伙伴及40余家关键基础设施提供商开放,网络安全和生物方向的限制被解除,Fable 5则面向C端订阅用户。

后续Anthropic还计划向经过审核的研究人员开放一个生物方向的受信通道,提供去掉了生物和化学限制的Fable 5版本。

这涉及到过去大模型行业没有面对过的问题,当模型能力足够自主发现漏洞,全量发布就变成了一种风险。

图源 / pexels

这解释了Fable 5和Mythos 5为什么要拆成两个版本。过去模型分级靠参数,大小之间是能力差距,现在同参数的模型也要分级,分的是信任门槛。

独立开发者展波认为,从安全角度来看这个逻辑很合理。Mythos级别的漏洞挖掘能力如果不加限制地开放给个人,会大幅降低攻击成本,容易被滥用于恶意攻击。先锁住、再逐步放开受信访问,是目前最稳妥的路径。

但安全只解释了为什么要分层。另一个问题在于,能用上Fable 5的普通用户,是不是都从中获益?

从Anthropic发布的跑分和案例来看,这一轮升级,优先服务的是程序员和工程团队。

展波用Fable 5协助优化了自己用Rust编写的解释型语言项目。在同等Web服务场景下,他将其与基于Python的FastAPI和基于Node.js的Hono做了对比。使用Fable 5的解释器驻留内存仅9.8MB,而FastAPI 和Hono分别为43.3MB和63.0MB,吞吐和延迟指标同样领先。

他认为同样一个任务,用Fable 5可能很快就完成,且效果更好。相比于价格,开发者更看重产出质量。只要模型能显著提升项目效果,高价是可以接受的。

李夏也提到,对程序员来说,模型生成质量和收入正相关。产出质量越高,提效越明显,回报越大。模型能力的提升可以直接换算成项目质量和时间节省,付费意愿自然会更强。

但换一个使用场景,结论就不一样了。

AI博主徐子龙以他的日常使用为例,他的日常工作分为写代码、做数据分析和写论文。他认为目前的大模型代码能力过剩,文字能力欠佳。对于科研工作者、内容创作者、法律和金融从业者等群体来说,对AI的核心需求集中在中文理解、长文写作和文档处理上。

展波提到,现在的趋势不是用户在挑模型,是模型在挑用户。编程重度用户被高端模型筛选出来,日常轻度用户被推向更有性价比的替代品。这说明,AI不再是一个普惠工具,而是一层层筛出不同支付能力和使用强度的用户。

即便是最强模型,也要在有需求的人手中才能物有所值。

03.用不起AI的时代,要来了吗?

Fable 5的API定价是输入10美元、输出50美元每百万Token,是Opus 4.8的两倍,也是目前全球公开可用的前沿模型中最贵的。

主流大模型API价格对比

但真正值得关注的不是价格翻了一倍,是付费方式变了。

Fable 5上线后,Pro、Max、Team等订阅用户可以免费使用两周。6月23日起,模型将从订阅计划中移出,继续使用需要额外购买credits,按API费率结算。订阅期内使用Fable 5,消耗的用量额度也是Opus 4.8的两倍。

先免费试用再移出订阅,也是在释放一种信号,把用户从固定月费推向按量计费。订阅制的好处是确定性,用户知道每月花多少钱;按量计费对平台更有利,用得多收得多,用户的花费上限被打开了。说白了,Anthropic想告诉用户:最先进的东西,本来就不该是包月的。

这个转变发生的时间点也值得注意。6月1日,Anthropic刚刚向SEC秘密提交了IPO招股书,估值达到9650亿美元,目标最早今年10月上市。从年初到5月底,Anthropic的年化收入从90亿美元增长至470亿美元,其中Claude Code贡献超过25亿美元,企业客户贡献了绝大部分收入。

一个即将上市的公司,需要向资本市场证明营收增长能力和定价权。把最强模型从固定订阅中拆出来、引导高价值用户按量付费,从财务叙事上看逻辑是通的。

而国产模型正在做完全相反的事。

5月底,DeepSeek宣布V4-Pro API永久降价75%。小米紧随其后,MiMo-V2.5-Pro降幅高达99%,价格几乎对齐DeepSeek。

一边是DeepSeek把价格打到地板,一边是Anthropic把天花板往上抬,不同玩家有不同的打法。

国产模型的降价一方面是技术红利的释放,底层架构发生了变化,省下的空间被用来换更大的市场。

Anthropic的逻辑正好反过来。它不需要靠低价抢市场,高价本身也是筛选器,把愿意为前沿能力付费的高价值用户留下来。

徐子龙认为未来AI会越来越贵,因为需求的扩张远远大于供给的扩张,算力涉及到电、芯片、模型训练,增长速度太慢。AI算力未来会像5G一样成为基础设施,但和5G不同,算力的供给远比带宽紧张,价格也就相应的增长。

从商业模式上看,AI行业正在出现类似云计算早期的分层结构。底层是高度标准化、价格趋近于零的通用能力,谁都能调用,靠走量变现;顶层是少数厂商把持的前沿能力,定价权集中,靠客单价变现。通用能力的价格会被持续压低,但前沿能力的溢价将长期存在。

从能力分级到付费分层,AI行业正在复制云计算走过的路。便宜的模型越来越多,最好的模型越来越贵。

*应受访者要求,文中李夏为化名。

本文来自微信公众号“AIX财经”,作者:雷晶,编辑:金玙璠

你可能也喜歡

存储巨头赚翻了，下游扛不住了

全球存储行业近期发布创纪录的半年财报。SK海力士、三星电子、美光等巨头营收与利润暴涨，SK海力士Q2营业利润率高达76%。国内存储企业如江波龙、德明利等利润也呈现数十至数百倍增长。然而，财报发布后相关公司股价大跌，凸显市场担忧。存储巨头的利润对应下游客户的成本飙升。AI服务器厂商因刚性需求被迫承受高价，手机厂商则面临存储成本占整机比重显著上升的压力，PC与消费电子需求已出现疲软迹象。下游客户开始集体抵制。据悉，国内多家头部手机厂商已拒绝存储供应商新的涨价要求。AI服务器领域，存储成本攀升也在挤压云厂商其他预算。部分终端厂商通过调整产品计划、技术优化（如降低DRAM用量）等方式应对。当前，存储涨价趋势虽未逆转，但增速已放缓。产业链矛盾加剧，下游承受能力接近极限，这轮超级周期可能以剧烈方式结束。

marsbit11 分鐘前

marsbit11 分鐘前

BIT 投研：两大利空持续压制市场，比特币为何仍接近周期底部？

当前市场正受宏观政策与监管预期双重影响。美联储主席凯文·沃什立场偏鹰，市场对利率路径预期持续调整；同时《CLARITY法案》立法进程放缓，削弱了监管利好预期。尽管两大利空持续，比特币仍保持在62,000至66,000美元区间，表现出较强韧性。市场成交量已从高点回落约80%，总市值下跌约50%，整体缺乏新增美元流动性。但在成交量低迷、监管预期降温的背景下，比特币并未大幅下跌，市场焦点正转向周期是否已近底部。具体来看，美联储政策沟通带来不确定性，内部关于加息的讨论有所升温；《CLARITY法案》在2026年底前签署的概率较低，争议条款与时间窗口收窄进一步拖累进展。稳定币供应未见持续增长，市场缺乏新增资金流入。然而，比特币相比多数山寨币展现出更强相对表现，在利空叠加下近期仅回调约3%，显示抛压可能已大部分释放，继续大幅下跌的难度增加。综上所述，市场虽面临货币政策、监管放缓及资金观望等多重压力，但比特币在低迷环境中的稳定性表明下行压力正逐步减弱。若其能重新站稳70,000美元并带动指标转好，或可确认本轮周期底部已现。

marsbit16 分鐘前

marsbit16 分鐘前

国际清算银行项目阿果拉完成价值100万美元的代币化跨境支付试验结算

国际清算银行（BIS）宣布，其Agorá项目已成功完成了具有真实价值的代币化批发跨境支付测试。此次试验有28家金融机构和央行参与，通过17种交易场景，结算了约80万瑞士法郎（约合100万美元）的资金。测试利用代币化的央行储备和商业银行存款，完成了以瑞士法郎、欧元、英镑、日元、韩元和美元计价的支付，平均结算时间仅约80秒。参与方包括英国央行、法国央行、日本央行、韩国央行和瑞士国家银行，以及摩根大通、花旗银行、德意志银行、法国巴黎银行、瑞银集团、渣打银行和三菱日联金融集团等商业银行。Agorá项目于2024年启动，旨在探索代币化商业银行存款和央行储备如何改善跨境批发支付。今年5月，项目曾报告其原型系统展示了在多货币、多司法管辖区的原子结算能力。BIS表示，7月的试验标志着该项目的一个重要里程碑，随着项目推进，相关测试将持续进行。

cointelegraph26 分鐘前

cointelegraph26 分鐘前

加密货币市场的关键时刻：比特币和以太坊期权价值骤增105亿美元！投资者们期待什么？

主要加密货币比特币在64000美元附近艰难寻找方向，受制于美国货币政策的不确定性及中东地缘政治风险。随着比特币价格持续窄幅震荡，市场焦点转向今日到期的大额期权合约，因其恰逢周度与月度最后一个周五，显得尤为重要。数据显示，7月31日约有价值97亿美元的加密货币期权在Deribit交易所到期，其中比特币期权名义价值达96.9亿美元，以太坊期权为8.3亿美元。比特币期权看跌/看涨比率为0.28，最大痛点位于64000美元；以太坊期权比率为0.63，最大痛点位于1850美元。低看跌/看涨比率（比特币0.28）表明投资者普遍看涨，市场情绪偏向乐观；以太坊比率相对较高则显示投资者态度更为谨慎。但专家指出，期权数据并非唯一定价因素，宏观经济事件与市场情绪仍起关键作用。本文不构成投资建议。

cryptonews.ru40 分鐘前

加密货币市场的关键时刻：比特币和以太坊期权价值骤增105亿美元！投资者们期待什么？

cryptonews.ru40 分鐘前

辨析AI对经济增长与生产率的影响

本文探讨了AI对经济增长与生产率的影响，主要分为乐观派、温和派和悲观派三种观点。乐观派认为AI能通过研发自动化推动经济爆发式增长，甚至达到“奇点”；温和派承认AI会提升生产率，但受成本节约有限、任务暴露度低、物理能源约束、监管伦理摩擦等多重瓶颈制约，红利可能低于预期；悲观派则担忧AI替代劳动力会导致劳动收入份额下降，压制总需求，拖累经济增长。短期内（1-2年），AI对经济的支撑主要来自投资拉动，而非生产率红利；长期来看，AI可能带来生产力革命。中期（3-5年）可能面临三条路径：若AI需求符合预期且瓶颈较少，可能实现“乐观”的技术繁荣，但若缺乏收入再分配，可能导致社会矛盾；“温和”路径下，AI发展面临可克服的瓶颈，经济增长温和但金融市场可能出现K型分化；“悲观”路径下，AI需求不及预期或遭遇硬瓶颈，技术红利有限，但社会冲击较小。作者认为“温和路径”概率最大，但每条路径均非坦途，需决策者通盘考虑，平衡技术发展与社会稳定，确保可持续增长。

marsbit50 分鐘前

marsbit50 分鐘前

交易

現貨

Anthropic 发了“最强模型”，但大多数人用不上

文章摘要

01.能力提升明显,自动降级成争议

02.最强模型,不是人人用得上

03.用不起AI的时代,要来了吗?

熱門幣種推薦

相關問答

你可能也喜歡

存储巨头赚翻了，下游扛不住了

BIT 投研：两大利空持续压制市场，比特币为何仍接近周期底部？

国际清算银行项目阿果拉完成价值100万美元的代币化跨境支付试验结算

加密货币市场的关键时刻：比特币和以太坊期权价值骤增105亿美元！投资者们期待什么？

辨析AI对经济增长与生产率的影响

交易

熱門文章

如何購買PEOPLE

相關討論

熱門問答

熱門分類

熱門標籤