突发,打工版Claude 5来了,人人都能用

marsbit发布于2026-07-01更新于2026-07-01

文章摘要

突发,Claude Sonnet 5(代号Fennec)正式发布,现已成为所有免费和付费用户的默认模型。这是Anthropic迄今为止Agent能力最强的Sonnet模型,性能直逼旗舰Opus 4.8。 该模型具备自主规划、调用浏览器和终端工具的能力。相较于前代Sonnet 4.6,其在推理、工具使用、编程和知识工作任务上均有显著提升。关键数据包括:SWE-bench Pro得分63.2%,反超GPT-5.5;在“人类最后的考试”中得57.4%,仅落后Opus 4.8约0.5个百分点。 定价方面,API推出限时促销(输入$2/百万tokens,输出$10/百万tokens),8月31日后恢复为标准价(输入$3,输出$15),约为Opus 4.8价格的六成。但需注意,新模型采用了全新分词器,可能带来token数量的小幅膨胀。 安全性能突出:提示注入攻击成功率仅0.19%,与Opus 4.8持平;浏览器注入防御成功率高达99.07%,反超Mythos 5和Opus 4.8;恶意代码注入攻击成功率从Sonnet 4.6的45.26%大幅降至0.29%。 总体而言,Sonnet 5以中端价格提供了逼近顶级旗舰模型的性能,尤其在编程、工具调用和安全性方面表现优异,为开发者提供了一个高性价比的强力选择。

就在刚刚,Claude Sonnet 5来了!

代号Fennec,耳廓狐,撒哈拉沙漠里体型最小的狐狸。

这是Anthropic迄今为止,Agent能力最强的Sonnet模型,并且性能直逼旗舰Opus 4.8。

即日起,Sonnet 5成为所有Free和Pro用户的默认模型。

它能自主规划、调用浏览器和终端工具。

就在几个月前,这还需要花大价钱调用超大模型才能做到,现在,Sonnet轻松拿下。

相较于上一代Sonnet 4.6,Sonnet 5在推理、工具使用、编程和知识工作任务中,性能显著提升。

划重点:

SWE-bench Pro得分63.2%,反超GPT-5.5的58.6%,略输Opus 4.8的69.2%

「人类最后的考试」得分57.4%,和Opus 4.8只差0.5个百分点

标准价每百万token输入$3/输出$15,只有Opus 4.8的六成

浏览器注入防御0.93%,反杀Mythos 5和Opus 4.8

有趣的是,Fable 5也在同一天被曝出即将回归。但代价是强制实名验证,并且极大概率仅限美国用户。

而Sonnet 5则主打一个毫无保留,全球用户今天就能敞开用。

全线逼平Opus 4.8,最强打工AI突袭

这一次,Sonnet 5的突然上线,也算是填补了人们用不上Fable 5的失落。

对于很多开发者来说,Agent时代的元年,就是从Sonnet开始的。

Claude Sonnet 3.5、3.6、3.7,是最早一批在写代码、用工具上展现出惊人能力的模型。

换句话说,「让AI自己干活」这件事,最早跑通的就是Sonnet「中杯」系列。

但这一年多,最猛的能力跃升,全集中在Opus这条「大杯」线上。Sonnet,直接被旗舰甩在后面。

Sonnet5要做的,就是把这道差距补回来!

Anthropic一句话定调——Claude Sonnet 5是史上最能「干活」的Sonnet。

从实战的成绩来看,最能说明这一点。

在传统强项编程领域,Sonnet 5在SWE-bench Pro上豪取63.2%。而前代Sonnet 4.6只有58.1%,Opus 4.8则凭借69.2%暂时领先。

相比之下,老对手OpenAI的旗舰GPT-5.5在同一个榜上只拿到了58.6%,谷歌的Gemini 3.5 Flash也只有55.1%。

Terminal-Bench 2.1更加凶悍,Sonnet 5直接飙到80.4%,把只有67.0%的Sonnet 4.6狠狠甩在身后,暴涨13个百分点。距离Opus 4.8的82.7%,只差不到2个点。

在号称「人类最后的考试」的跨学科推理基准Humanity's Last Exam上,Sonnet 5带工具斩获57.4%,Opus 4.8是57.9%,只差0.5个百分点。GPT-5.5同一测试只有52.2%,Gemini 3.1 Pro是51.4%。

电脑操控能力方面,Sonnet 5在OSWorld-Verified上的得分是81.2%,同样超过GPT-5.5的78.7%,直追Opus 4.8的83.4%。

更让人意外的是知识工作,Sonnet 5更是在GDPval-AA v2上拿到了1618分,直接反超Opus 4.8的1615。

在智能体搜索、工具使用表现中,Sonnet 5能以最低成本,提供了Opus 4.8级的能力。

可以说,几乎每项benchmark,Sonnet 5都落在Opus 4.8的90%到100%区间。

堪称是花Sonnet的钱,买Opus九成的脑子。

2美元限时促销,但埋了个大坑

价格,才是这次的「必杀技」。

API定价方面,Anthropic给出了限时大促:输入2美元/百万tokens,输出10美元/百万tokens。

8月31日之后,恢复输入3美元和输出15美元的原价。

相比之下,Opus 4.8是5美元和25美元,GPT-5.5标准版是5美元和30美元。

促销期内,输入和输出价格都只有Opus 4.8的四成。恢复标准价后也只到六成。

不过,Anthropic虽然表面诚意满满,细节里却藏着小心思。

原因在于Sonnet 5换了全新的tokenizer,同样一段输入的token数量可能会膨胀1.0到1.35倍。

等促销期一过,$3/$15的原价再叠加tokenizer膨胀效应,真金白银的花销肯定要比用Sonnet 4.6肉痛一截。

但即便如此,跟Opus比依然是碾压级的差距。

反杀全家族旗舰

System Card里藏着Sonnet 5最被低估的一面。

提示注入攻击成功率0.19%,跟Opus 4.8持平。GPT-5.5是3.08%,Gemini 3.5 Flash是6.66%。

浏览器注入防御上,攻击成功率只有0.93%,而Mythos 5是29.7%,Opus 4.8是31.5%。

$2的中端模型,反杀了全家族旗舰,开启防护措施后直接降到0%。

恶意代码注入上,Sonnet 4.6的攻击成功率高达45.26%,Sonnet 5降到了0.29%,改善150倍。

Firefox 147漏洞利用测试中,Mythos 5能写出88.4%的可用exploit,Opus 4.8是8.8%,Sonnet 5是0.0%。能写顶级业务代码,但写不出一个可用的漏洞利用程序。

副作用是不对齐行为评分2.53(满分10),比Sonnet 4.6的2.89有改善,但高于Opus 4.8的2.10和Mythos Preview的1.95。

变强了,也变得更有主见了。

不争皇冠,专砍腰部

Sonnet 5卡在一个极其精准的位置上,向上能力逼近Opus 4.8和GPT-5.5,向下价格接近Gemini 3.5 Flash级别。

OpenAI刚把价格相较上代翻了倍,Anthropic转手把Sonnet 5的入门价压到了3美元。

那些原本犹豫要不要为旗舰付费的开发者,现在有了一个杀伤力十足的替代选项。

所有人都盯着顶端打的时候,Anthropic在腰部开了一枪。

开发者钱包,今晚先投了票

如今,Sonnet 5的性能已经踩进了旗舰区间,大部分修bug、补测试、做重构的活都能一次搞定。

以前觉得Opus太贵舍不得用、Sonnet又不够好的尴尬,今天没了。

价格上更划算。同样的预算以前只能跑一个Opus级的Agent,现在可以跑两到三个并行的Sonnet。

多Agent架构的成本门槛,被Sonnet 5一脚踹低了。

Fable 5究竟何时王者归来还是个未知数。

但Sonnet 5此刻已经稳稳地站在这里,性能直接怼到了Opus的门槛上。

对于绝大多数开发者而言,它就是接下来相当长一段日子里,手边最能打也最好用的那个Claude。

参考资料:

https://x.com/claudeai/status/2072017450611142835

https://www.anthropic.com/news/claude-sonnet-5

本文来自微信公众号“新智元”,作者:ASI启示录

相关问答

QClaude Sonnet 5 的核心升级和定位是什么?

AClaude Sonnet 5(代号Fennec)是Anthropic发布的最新模型,其核心是拥有迄今为止Sonnet系列最强的Agent(智能体)能力,性能直逼旗舰模型Opus 4.8。它的定位是‘最强打工AI’或‘人人都能用’的高性价比模型,旨在以中端价格提供接近旗舰的性能,弥补用户用不上更强大但可能受限的Fable 5的遗憾。即日起,它已成为所有免费和专业用户的默认模型。

Q相比前代和竞品,Claude Sonnet 5 在关键性能基准测试中表现如何?

ASonnet 5在多项基准测试中表现优异,甚至部分超越顶级竞品:1. 编程(SWE-bench Pro)得分63.2%,反超GPT-5.5(58.6%),略逊于Opus 4.8(69.2%)。2. 终端工具使用(Terminal-Bench 2.1)飙升至80.4%,大幅领先前代Sonnet 4.6(67.0%)。3. 跨学科推理(Humanity‘s Last Exam)达57.4%,与Opus 4.8(57.9%)仅差0.5个百分点。4. 知识工作(GDPval-AA v2)得1618分,甚至小幅反超Opus 4.8(1615分)。总体而言,其性能达到了Opus 4.8的90%到100%区间。

QClaude Sonnet 5 的定价策略和潜在成本影响是什么?

ASonnet 5的API定价采取限时促销策略:促销期内(截至8月31日)为输入2美元/百万tokens,输出10美元/百万tokens。此后恢复为标准价:输入3美元,输出15美元/百万tokens。即使按标准价算,也仅为Opus 4.8价格(输入5美元,输出25美元)的六成左右,极具性价比。但文章也指出一个潜在‘坑’:Sonnet 5采用了新的分词器(tokenizer),可能导致相同文本输入的token数量膨胀1.0到1.35倍,因此在促销期过后,实际花费可能会比使用前代Sonnet 4.6时更高一些,不过相比Opus仍有巨大价格优势。

Q文章提到Sonnet 5在安全性方面有哪些突出表现?

ASonnet 5在安全性方面表现卓越,甚至反杀了自家的旗舰模型:1. 提示注入攻击成功率仅为0.19%,与Opus 4.8持平,远低于GPT-5.5(3.08%)和Gemini 3.5 Flash(6.66%)。2. 浏览器注入防御攻击成功率只有0.93%,而Mythos 5和Opus 4.8分别高达29.7%和31.5%。3. 恶意代码注入攻击成功率从前代Sonnet 4.6的45.26%大幅降至0.29%,改善了150倍。4. 在Firefox 147漏洞利用测试中,成功率为0.0%,无法写出可用的漏洞利用程序。这表明它既能写出强大业务代码,安全性又极高。

QSonnet 5 的发布对AI模型市场和开发者意味着什么?

ASonnet 5的发布意味着:1. **市场定位精准**:它卡在‘腰部’,以中端价格提供逼近顶级旗舰(如Opus 4.8、GPT-5.5)的能力,直接冲击了高端与中低端模型之间的市场空白。2. **降低开发者门槛**:让许多因旗舰模型价格过高而犹豫的开发者,有了一个性能强劲、成本更优的替代选择。3. **推动多智能体应用**:由于成本更低,同样的预算现在可以运行多个并行的Sonnet 5智能体,降低了构建复杂多智能体架构的成本门槛。4. **填补产品线空缺**:在万众期待的Fable 5回归日期不明且可能受限的情况下,Sonnet 5的推出及时满足了市场对高性能、易获取模型的需求,成为了许多开发者‘手边最能打也最好用的Claude’。

你可能也喜欢

Circle首席执行官Allaire表示,USDC的网络效应将难以被Open USD复制

Circle首席执行官Jeremy Allaire对Open USD稳定币联盟的推出做出回应,为USDC的竞争优势辩护。他认为稳定币的成功取决于长期网络效应,而非费用结构或共享治理模式。 Allaire在社交平台发长文表示,Circle近十年来在流动性、监管审批和开发者基础设施方面的投入,已构建起新进入者难以复制的优势。他比喻稳定币网络更像互联网平台,其价值随更多开发者、企业和金融机构的接入而增长。他列举了USDC通过数千次集成、跨链协议等工具以及全球银行关系与监管合规所巩固的网络效应。 根据Artemis数据,2026年第一季度USDC处理了近30万亿美元链上交易,占美元稳定币总交易量的约80%,USDT占20%,其他所有美元稳定币合计不足0.5%。 Allaire对Open USD提出的免铸造赎回费、共享储备经济和联盟治理等核心主张提出质疑。他认为赎回政策受更广泛市场现实影响,且Circle已将大部分收入分享给分销伙伴,同时保留足够资金持续投资基础设施。他对大型联盟治理模式的创新效率表示怀疑,并透露Circle早期曾尝试类似模式,后发现小型战略合作更为有效。 对于Coinbase参与Open USD的传闻,Allaire强调双方在USDC上的合作“一如既往稳固”,并预计许多Open USD创始成员将继续同时使用USDC。最后,他欢迎Open USD加入稳定币生态,并重申Circle将通过其基础设施产品支持多发行方。

ambcrypto24分钟前

Circle首席执行官Allaire表示,USDC的网络效应将难以被Open USD复制

ambcrypto24分钟前

Riot Platforms出售500枚BTC,是否为比特币Q3的早期预警?

比特币挖矿向人工智能(AI)转型成为第三季度日益增长的风险。近期,Riot Platforms出售了约500枚BTC(价值约3000万美元),这实时凸显了其战略转向。尽管比特币价格自2025年第四季度初以来首次跌破5.7万美元,但RIOT股价却与之脱钩,第二季度上涨了120%。 该公司上一季度出售了3,778枚BTC,但仅挖出1,473枚,导致其比特币持有量同比下降约18%。最近的500枚BTC出售延续了这一模式,表明其比特币库存策略趋于平稳,重心正转向与AI相关的扩张,将BTC更多地用作投资数据中心和算力的现金储备。 与此同时,比特币矿工压力加剧。上半年比特币连续两个季度下跌,而估算生产成本约为7.8万美元,当前现货价格已低于5.8万美元,这意味着挖矿处于亏本状态。尽管6月比特币算力反弹,表明网络活动和矿工参与度短期回升,但更高的算力会加剧竞争、提升挖矿难度,从而挤压矿工收益。 这种环境可能加速战略转变。对于大型矿工而言,持续的利润压力增加了多元化需求,包括逐步转向AI和高性能计算。因此,矿工可能越来越多地将持有的比特币作为现金用于资助此类投资,而非长期持有,这预示着下半年矿工行为将发生结构性转变。Riot Platforms近期出售500枚BTC,可能正是比特币进入第三季度时这一更广泛趋势的早期信号。

ambcrypto1小时前

Riot Platforms出售500枚BTC,是否为比特币Q3的早期预警?

ambcrypto1小时前

「The Merge 以来最大规模升级」?Glamsterdam如何影响以太坊与普通用户?

以太坊即将迎来名为“Glamsterdam”的重大升级,预计于2026年下半年上线。此次升级被视作“合并”以来规模最大的一次,核心目标是在不牺牲去中心化的前提下,系统性地提升主网性能与容量。 **核心升级包括三个方面:** 1. **内置 PBS (ePBS)**:将区块构建者与提议者的角色分离机制写入协议核心,取代当前依赖外部中继的脆弱架构。这为节点处理更大区块和数据提供了更充裕的时间窗口,为未来提高 Gas 上限奠定基础。 2. **区块级访问列表 (BALs)**:在区块头预先声明交易将访问的状态数据。这使节点能提前预知数据依赖,从而优化读取、并行验证和状态同步,是突破性能瓶颈的关键。 3. **Gas 重新定价**:根据操作对网络的真实资源消耗(尤其是永久性状态存储成本)进行更精准的定价。这意味着普通转账等计算密集型操作可能更便宜稳定,而大量创建新状态(如部署合约)的成本可能上升,旨在控制状态膨胀。 **对用户的影响:** * **交易费用**:整体有望更稳定。由于区块容量潜在提升,拥堵或会缓解,基础费用波动减小。但具体交易成本将因操作类型而异(计算操作可能受益,状态创建操作成本可能增加)。钱包的 Gas 费预估将更准确。 * **使用体验**:ETH 转账将生成标准日志,使钱包、交易所的资产记录更完整清晰。 * **L2 用户**:主网处理 Blob 数据的能力增强,长期有利于稳定 L2 的数据提交成本。 * **节点与质押者**:需要升级客户端。普通持币者无需进行任何资产操作。 **深远意义**:Glamsterdam 并非简单粗暴地扩大区块,而是通过重构底层核心机制(区块生产、交易执行、资源定价),在维持网络去中心化(普通节点可运行)的同时,为以太坊主网未来的大幅扩容铺平道路。

marsbit3小时前

「The Merge 以来最大规模升级」?Glamsterdam如何影响以太坊与普通用户?

marsbit3小时前

交易

现货
活动图片