突发，打工版Claude 5来了，人人都能用

marsbit发布于2026-07-01更新于2026-07-01

文章摘要

突发，Claude Sonnet 5（代号Fennec）正式发布，现已成为所有免费和付费用户的默认模型。这是Anthropic迄今为止Agent能力最强的Sonnet模型，性能直逼旗舰Opus 4.8。该模型具备自主规划、调用浏览器和终端工具的能力。相较于前代Sonnet 4.6，其在推理、工具使用、编程和知识工作任务上均有显著提升。关键数据包括：SWE-bench Pro得分63.2%，反超GPT-5.5；在“人类最后的考试”中得57.4%，仅落后Opus 4.8约0.5个百分点。定价方面，API推出限时促销（输入$2/百万tokens，输出$10/百万tokens），8月31日后恢复为标准价（输入$3，输出$15），约为Opus 4.8价格的六成。但需注意，新模型采用了全新分词器，可能带来token数量的小幅膨胀。安全性能突出：提示注入攻击成功率仅0.19%，与Opus 4.8持平；浏览器注入防御成功率高达99.07%，反超Mythos 5和Opus 4.8；恶意代码注入攻击成功率从Sonnet 4.6的45.26%大幅降至0.29%。总体而言，Sonnet 5以中端价格提供了逼近顶级旗舰模型的性能，尤其在编程、工具调用和安全性方面表现优异，为开发者提供了一个高性价比的强力选择。

就在刚刚,Claude Sonnet 5来了!

代号Fennec,耳廓狐,撒哈拉沙漠里体型最小的狐狸。

这是Anthropic迄今为止,Agent能力最强的Sonnet模型,并且性能直逼旗舰Opus 4.8。

即日起,Sonnet 5成为所有Free和Pro用户的默认模型。

它能自主规划、调用浏览器和终端工具。

就在几个月前,这还需要花大价钱调用超大模型才能做到,现在,Sonnet轻松拿下。

相较于上一代Sonnet 4.6,Sonnet 5在推理、工具使用、编程和知识工作任务中,性能显著提升。

划重点:

SWE-bench Pro得分63.2%,反超GPT-5.5的58.6%,略输Opus 4.8的69.2%

「人类最后的考试」得分57.4%,和Opus 4.8只差0.5个百分点

标准价每百万token输入$3/输出$15,只有Opus 4.8的六成

浏览器注入防御0.93%,反杀Mythos 5和Opus 4.8

有趣的是,Fable 5也在同一天被曝出即将回归。但代价是强制实名验证,并且极大概率仅限美国用户。

而Sonnet 5则主打一个毫无保留,全球用户今天就能敞开用。

全线逼平Opus 4.8,最强打工AI突袭

这一次,Sonnet 5的突然上线,也算是填补了人们用不上Fable 5的失落。

对于很多开发者来说,Agent时代的元年,就是从Sonnet开始的。

Claude Sonnet 3.5、3.6、3.7,是最早一批在写代码、用工具上展现出惊人能力的模型。

换句话说,「让AI自己干活」这件事,最早跑通的就是Sonnet「中杯」系列。

但这一年多,最猛的能力跃升,全集中在Opus这条「大杯」线上。Sonnet,直接被旗舰甩在后面。

Sonnet5要做的,就是把这道差距补回来!

Anthropic一句话定调——Claude Sonnet 5是史上最能「干活」的Sonnet。

从实战的成绩来看,最能说明这一点。

在传统强项编程领域,Sonnet 5在SWE-bench Pro上豪取63.2%。而前代Sonnet 4.6只有58.1%,Opus 4.8则凭借69.2%暂时领先。

相比之下,老对手OpenAI的旗舰GPT-5.5在同一个榜上只拿到了58.6%,谷歌的Gemini 3.5 Flash也只有55.1%。

Terminal-Bench 2.1更加凶悍,Sonnet 5直接飙到80.4%,把只有67.0%的Sonnet 4.6狠狠甩在身后,暴涨13个百分点。距离Opus 4.8的82.7%,只差不到2个点。

在号称「人类最后的考试」的跨学科推理基准Humanity's Last Exam上,Sonnet 5带工具斩获57.4%,Opus 4.8是57.9%,只差0.5个百分点。GPT-5.5同一测试只有52.2%,Gemini 3.1 Pro是51.4%。

电脑操控能力方面,Sonnet 5在OSWorld-Verified上的得分是81.2%,同样超过GPT-5.5的78.7%,直追Opus 4.8的83.4%。

更让人意外的是知识工作,Sonnet 5更是在GDPval-AA v2上拿到了1618分,直接反超Opus 4.8的1615。

在智能体搜索、工具使用表现中,Sonnet 5能以最低成本,提供了Opus 4.8级的能力。

可以说,几乎每项benchmark,Sonnet 5都落在Opus 4.8的90%到100%区间。

堪称是花Sonnet的钱,买Opus九成的脑子。

2美元限时促销,但埋了个大坑

价格,才是这次的「必杀技」。

API定价方面,Anthropic给出了限时大促:输入2美元/百万tokens,输出10美元/百万tokens。

8月31日之后,恢复输入3美元和输出15美元的原价。

相比之下,Opus 4.8是5美元和25美元,GPT-5.5标准版是5美元和30美元。

促销期内,输入和输出价格都只有Opus 4.8的四成。恢复标准价后也只到六成。

不过,Anthropic虽然表面诚意满满,细节里却藏着小心思。

原因在于Sonnet 5换了全新的tokenizer,同样一段输入的token数量可能会膨胀1.0到1.35倍。

等促销期一过,$3/$15的原价再叠加tokenizer膨胀效应,真金白银的花销肯定要比用Sonnet 4.6肉痛一截。

但即便如此,跟Opus比依然是碾压级的差距。

反杀全家族旗舰

System Card里藏着Sonnet 5最被低估的一面。

提示注入攻击成功率0.19%,跟Opus 4.8持平。GPT-5.5是3.08%,Gemini 3.5 Flash是6.66%。

浏览器注入防御上,攻击成功率只有0.93%,而Mythos 5是29.7%,Opus 4.8是31.5%。

$2的中端模型,反杀了全家族旗舰,开启防护措施后直接降到0%。

恶意代码注入上,Sonnet 4.6的攻击成功率高达45.26%,Sonnet 5降到了0.29%,改善150倍。

Firefox 147漏洞利用测试中,Mythos 5能写出88.4%的可用exploit,Opus 4.8是8.8%,Sonnet 5是0.0%。能写顶级业务代码,但写不出一个可用的漏洞利用程序。

副作用是不对齐行为评分2.53(满分10),比Sonnet 4.6的2.89有改善,但高于Opus 4.8的2.10和Mythos Preview的1.95。

变强了,也变得更有主见了。

不争皇冠,专砍腰部

Sonnet 5卡在一个极其精准的位置上,向上能力逼近Opus 4.8和GPT-5.5,向下价格接近Gemini 3.5 Flash级别。

OpenAI刚把价格相较上代翻了倍,Anthropic转手把Sonnet 5的入门价压到了3美元。

那些原本犹豫要不要为旗舰付费的开发者,现在有了一个杀伤力十足的替代选项。

所有人都盯着顶端打的时候,Anthropic在腰部开了一枪。

开发者钱包,今晚先投了票

如今,Sonnet 5的性能已经踩进了旗舰区间,大部分修bug、补测试、做重构的活都能一次搞定。

以前觉得Opus太贵舍不得用、Sonnet又不够好的尴尬,今天没了。

价格上更划算。同样的预算以前只能跑一个Opus级的Agent,现在可以跑两到三个并行的Sonnet。

多Agent架构的成本门槛,被Sonnet 5一脚踹低了。

Fable 5究竟何时王者归来还是个未知数。

但Sonnet 5此刻已经稳稳地站在这里,性能直接怼到了Opus的门槛上。

对于绝大多数开发者而言,它就是接下来相当长一段日子里,手边最能打也最好用的那个Claude。

参考资料:

https://x.com/claudeai/status/2072017450611142835

https://www.anthropic.com/news/claude-sonnet-5

本文来自微信公众号“新智元”,作者:ASI启示录

你可能也喜欢

Circle首席执行官Allaire表示，USDC的网络效应将难以被Open USD复制

Circle首席执行官Jeremy Allaire对Open USD稳定币联盟的推出做出回应，为USDC的竞争优势辩护。他认为稳定币的成功取决于长期网络效应，而非费用结构或共享治理模式。 Allaire在社交平台发长文表示，Circle近十年来在流动性、监管审批和开发者基础设施方面的投入，已构建起新进入者难以复制的优势。他比喻稳定币网络更像互联网平台，其价值随更多开发者、企业和金融机构的接入而增长。他列举了USDC通过数千次集成、跨链协议等工具以及全球银行关系与监管合规所巩固的网络效应。根据Artemis数据，2026年第一季度USDC处理了近30万亿美元链上交易，占美元稳定币总交易量的约80%，USDT占20%，其他所有美元稳定币合计不足0.5%。 Allaire对Open USD提出的免铸造赎回费、共享储备经济和联盟治理等核心主张提出质疑。他认为赎回政策受更广泛市场现实影响，且Circle已将大部分收入分享给分销伙伴，同时保留足够资金持续投资基础设施。他对大型联盟治理模式的创新效率表示怀疑，并透露Circle早期曾尝试类似模式，后发现小型战略合作更为有效。对于Coinbase参与Open USD的传闻，Allaire强调双方在USDC上的合作“一如既往稳固”，并预计许多Open USD创始成员将继续同时使用USDC。最后，他欢迎Open USD加入稳定币生态，并重申Circle将通过其基础设施产品支持多发行方。

ambcrypto24分钟前

Circle首席执行官Allaire表示，USDC的网络效应将难以被Open USD复制

ambcrypto24分钟前

狗狗币价格跌至2023年低点——DOGE能否守住0.067美元上方？

受加密货币市场普跌影响，狗狗币（DOGE）跌破0.07美元支撑位，一度跌至0.069美元，创下2023年10月以来新低，随后小幅反弹至0.071美元。其交易量增长32%至8.19亿美元，显示抛售压力强劲。 6月30日，DOGE卖出量达6.74亿，买入量降至5.94亿，买卖差值为负7900万，表明交易者积极离场。价格跌破支撑后，超过500万美元的多头仓位被清算，加剧下跌。衍生品市场数据显示，24小时净流出2900万美元，但在价格下跌后的12小时内，净流入跃升至1070万美元，显示有新资金尝试入场。然而，现货市场卖家仍占主导。狗狗币的日相对强弱指数（RSI）已降至21的超卖区域，显示下行动能强劲。若抛压持续，DOGE可能无法守住0.07美元，并进一步下探0.067美元。要扭转看跌趋势，需收盘价站上0.074美元的短期移动平均线。

ambcrypto54分钟前

ambcrypto54分钟前

以太坊基金会前企业团队推出Ethereum Institutional

前以太坊基金会企业团队正式成立了独立非营利组织“Ethereum Institutional”。该组织旨在加速银行、资产管理公司、托管机构等对以太坊、其第二层网络、应用及更广泛生态的采用。它将作为金融机构评估以太坊时的中立联络点，提供技术指导、生态洞察和对接服务，延续并扩展此前在以太坊基金会内部进行的企业拓展工作。该团队核心成员曾在以太坊基金会内创建并负责企业合作业务。新组织将独立运作，重点关注机构对接、行业情报、以太坊生态与ETH营销、行业需求发掘以及活动组织五大领域。其启动获得了Bitmine、SharpLink以及以太坊联合创始人Joseph Lubin等机构与个人的支持。此举紧随以太坊基金会近期宣布的组织架构重组，以及独立研发机构Ethlabs的成立。这些举措共同反映了以太坊生态正通过支持独立运作的专业化组织，来推动网络的长期采用战略。

ambcrypto1小时前

ambcrypto1小时前

Riot Platforms出售500枚BTC，是否为比特币Q3的早期预警？

比特币挖矿向人工智能（AI）转型成为第三季度日益增长的风险。近期，Riot Platforms出售了约500枚BTC（价值约3000万美元），这实时凸显了其战略转向。尽管比特币价格自2025年第四季度初以来首次跌破5.7万美元，但RIOT股价却与之脱钩，第二季度上涨了120%。该公司上一季度出售了3,778枚BTC，但仅挖出1,473枚，导致其比特币持有量同比下降约18%。最近的500枚BTC出售延续了这一模式，表明其比特币库存策略趋于平稳，重心正转向与AI相关的扩张，将BTC更多地用作投资数据中心和算力的现金储备。与此同时，比特币矿工压力加剧。上半年比特币连续两个季度下跌，而估算生产成本约为7.8万美元，当前现货价格已低于5.8万美元，这意味着挖矿处于亏本状态。尽管6月比特币算力反弹，表明网络活动和矿工参与度短期回升，但更高的算力会加剧竞争、提升挖矿难度，从而挤压矿工收益。这种环境可能加速战略转变。对于大型矿工而言，持续的利润压力增加了多元化需求，包括逐步转向AI和高性能计算。因此，矿工可能越来越多地将持有的比特币作为现金用于资助此类投资，而非长期持有，这预示着下半年矿工行为将发生结构性转变。Riot Platforms近期出售500枚BTC，可能正是比特币进入第三季度时这一更广泛趋势的早期信号。

ambcrypto1小时前

ambcrypto1小时前

「The Merge 以来最大规模升级」？Glamsterdam如何影响以太坊与普通用户？

以太坊即将迎来名为“Glamsterdam”的重大升级，预计于2026年下半年上线。此次升级被视作“合并”以来规模最大的一次，核心目标是在不牺牲去中心化的前提下，系统性地提升主网性能与容量。 **核心升级包括三个方面：** 1. **内置 PBS (ePBS)**：将区块构建者与提议者的角色分离机制写入协议核心，取代当前依赖外部中继的脆弱架构。这为节点处理更大区块和数据提供了更充裕的时间窗口，为未来提高 Gas 上限奠定基础。 2. **区块级访问列表 (BALs)**：在区块头预先声明交易将访问的状态数据。这使节点能提前预知数据依赖，从而优化读取、并行验证和状态同步，是突破性能瓶颈的关键。 3. **Gas 重新定价**：根据操作对网络的真实资源消耗（尤其是永久性状态存储成本）进行更精准的定价。这意味着普通转账等计算密集型操作可能更便宜稳定，而大量创建新状态（如部署合约）的成本可能上升，旨在控制状态膨胀。 **对用户的影响：** * **交易费用**：整体有望更稳定。由于区块容量潜在提升，拥堵或会缓解，基础费用波动减小。但具体交易成本将因操作类型而异（计算操作可能受益，状态创建操作成本可能增加）。钱包的 Gas 费预估将更准确。 * **使用体验**：ETH 转账将生成标准日志，使钱包、交易所的资产记录更完整清晰。 * **L2 用户**：主网处理 Blob 数据的能力增强，长期有利于稳定 L2 的数据提交成本。 * **节点与质押者**：需要升级客户端。普通持币者无需进行任何资产操作。 **深远意义**：Glamsterdam 并非简单粗暴地扩大区块，而是通过重构底层核心机制（区块生产、交易执行、资源定价），在维持网络去中心化（普通节点可运行）的同时，为以太坊主网未来的大幅扩容铺平道路。

marsbit3小时前

「The Merge 以来最大规模升级」？Glamsterdam如何影响以太坊与普通用户？

marsbit3小时前

交易

现货

突发，打工版Claude 5来了，人人都能用

文章摘要

全线逼平Opus 4.8,最强打工AI突袭

2美元限时促销,但埋了个大坑

反杀全家族旗舰

不争皇冠,专砍腰部

开发者钱包,今晚先投了票

相关问答

你可能也喜欢

Circle首席执行官Allaire表示，USDC的网络效应将难以被Open USD复制

狗狗币价格跌至2023年低点——DOGE能否守住0.067美元上方？

以太坊基金会前企业团队推出Ethereum Institutional

Riot Platforms出售500枚BTC，是否为比特币Q3的早期预警？

「The Merge 以来最大规模升级」？Glamsterdam如何影响以太坊与普通用户？

交易

热门分类

热门标签