突发，打工版Claude 5来了，人人都能用

marsbit发布于2026-07-01更新于2026-07-01

文章摘要

突发，Claude Sonnet 5（代号Fennec）正式发布，现已成为所有免费和付费用户的默认模型。这是Anthropic迄今为止Agent能力最强的Sonnet模型，性能直逼旗舰Opus 4.8。该模型具备自主规划、调用浏览器和终端工具的能力。相较于前代Sonnet 4.6，其在推理、工具使用、编程和知识工作任务上均有显著提升。关键数据包括：SWE-bench Pro得分63.2%，反超GPT-5.5；在“人类最后的考试”中得57.4%，仅落后Opus 4.8约0.5个百分点。定价方面，API推出限时促销（输入$2/百万tokens，输出$10/百万tokens），8月31日后恢复为标准价（输入$3，输出$15），约为Opus 4.8价格的六成。但需注意，新模型采用了全新分词器，可能带来token数量的小幅膨胀。安全性能突出：提示注入攻击成功率仅0.19%，与Opus 4.8持平；浏览器注入防御成功率高达99.07%，反超Mythos 5和Opus 4.8；恶意代码注入攻击成功率从Sonnet 4.6的45.26%大幅降至0.29%。总体而言，Sonnet 5以中端价格提供了逼近顶级旗舰模型的性能，尤其在编程、工具调用和安全性方面表现优异，为开发者提供了一个高性价比的强力选择。

就在刚刚,Claude Sonnet 5来了!

代号Fennec,耳廓狐,撒哈拉沙漠里体型最小的狐狸。

这是Anthropic迄今为止,Agent能力最强的Sonnet模型,并且性能直逼旗舰Opus 4.8。

即日起,Sonnet 5成为所有Free和Pro用户的默认模型。

它能自主规划、调用浏览器和终端工具。

就在几个月前,这还需要花大价钱调用超大模型才能做到,现在,Sonnet轻松拿下。

相较于上一代Sonnet 4.6,Sonnet 5在推理、工具使用、编程和知识工作任务中,性能显著提升。

划重点:

SWE-bench Pro得分63.2%,反超GPT-5.5的58.6%,略输Opus 4.8的69.2%

「人类最后的考试」得分57.4%,和Opus 4.8只差0.5个百分点

标准价每百万token输入$3/输出$15,只有Opus 4.8的六成

浏览器注入防御0.93%,反杀Mythos 5和Opus 4.8

有趣的是,Fable 5也在同一天被曝出即将回归。但代价是强制实名验证,并且极大概率仅限美国用户。

而Sonnet 5则主打一个毫无保留,全球用户今天就能敞开用。

全线逼平Opus 4.8,最强打工AI突袭

这一次,Sonnet 5的突然上线,也算是填补了人们用不上Fable 5的失落。

对于很多开发者来说,Agent时代的元年,就是从Sonnet开始的。

Claude Sonnet 3.5、3.6、3.7,是最早一批在写代码、用工具上展现出惊人能力的模型。

换句话说,「让AI自己干活」这件事,最早跑通的就是Sonnet「中杯」系列。

但这一年多,最猛的能力跃升,全集中在Opus这条「大杯」线上。Sonnet,直接被旗舰甩在后面。

Sonnet5要做的,就是把这道差距补回来!

Anthropic一句话定调——Claude Sonnet 5是史上最能「干活」的Sonnet。

从实战的成绩来看,最能说明这一点。

在传统强项编程领域,Sonnet 5在SWE-bench Pro上豪取63.2%。而前代Sonnet 4.6只有58.1%,Opus 4.8则凭借69.2%暂时领先。

相比之下,老对手OpenAI的旗舰GPT-5.5在同一个榜上只拿到了58.6%,谷歌的Gemini 3.5 Flash也只有55.1%。

Terminal-Bench 2.1更加凶悍,Sonnet 5直接飙到80.4%,把只有67.0%的Sonnet 4.6狠狠甩在身后,暴涨13个百分点。距离Opus 4.8的82.7%,只差不到2个点。

在号称「人类最后的考试」的跨学科推理基准Humanity's Last Exam上,Sonnet 5带工具斩获57.4%,Opus 4.8是57.9%,只差0.5个百分点。GPT-5.5同一测试只有52.2%,Gemini 3.1 Pro是51.4%。

电脑操控能力方面,Sonnet 5在OSWorld-Verified上的得分是81.2%,同样超过GPT-5.5的78.7%,直追Opus 4.8的83.4%。

更让人意外的是知识工作,Sonnet 5更是在GDPval-AA v2上拿到了1618分,直接反超Opus 4.8的1615。

在智能体搜索、工具使用表现中,Sonnet 5能以最低成本,提供了Opus 4.8级的能力。

可以说,几乎每项benchmark,Sonnet 5都落在Opus 4.8的90%到100%区间。

堪称是花Sonnet的钱,买Opus九成的脑子。

2美元限时促销,但埋了个大坑

价格,才是这次的「必杀技」。

API定价方面,Anthropic给出了限时大促:输入2美元/百万tokens,输出10美元/百万tokens。

8月31日之后,恢复输入3美元和输出15美元的原价。

相比之下,Opus 4.8是5美元和25美元,GPT-5.5标准版是5美元和30美元。

促销期内,输入和输出价格都只有Opus 4.8的四成。恢复标准价后也只到六成。

不过,Anthropic虽然表面诚意满满,细节里却藏着小心思。

原因在于Sonnet 5换了全新的tokenizer,同样一段输入的token数量可能会膨胀1.0到1.35倍。

等促销期一过,$3/$15的原价再叠加tokenizer膨胀效应,真金白银的花销肯定要比用Sonnet 4.6肉痛一截。

但即便如此,跟Opus比依然是碾压级的差距。

反杀全家族旗舰

System Card里藏着Sonnet 5最被低估的一面。

提示注入攻击成功率0.19%,跟Opus 4.8持平。GPT-5.5是3.08%,Gemini 3.5 Flash是6.66%。

浏览器注入防御上,攻击成功率只有0.93%,而Mythos 5是29.7%,Opus 4.8是31.5%。

$2的中端模型,反杀了全家族旗舰,开启防护措施后直接降到0%。

恶意代码注入上,Sonnet 4.6的攻击成功率高达45.26%,Sonnet 5降到了0.29%,改善150倍。

Firefox 147漏洞利用测试中,Mythos 5能写出88.4%的可用exploit,Opus 4.8是8.8%,Sonnet 5是0.0%。能写顶级业务代码,但写不出一个可用的漏洞利用程序。

副作用是不对齐行为评分2.53(满分10),比Sonnet 4.6的2.89有改善,但高于Opus 4.8的2.10和Mythos Preview的1.95。

变强了,也变得更有主见了。

不争皇冠,专砍腰部

Sonnet 5卡在一个极其精准的位置上,向上能力逼近Opus 4.8和GPT-5.5,向下价格接近Gemini 3.5 Flash级别。

OpenAI刚把价格相较上代翻了倍,Anthropic转手把Sonnet 5的入门价压到了3美元。

那些原本犹豫要不要为旗舰付费的开发者,现在有了一个杀伤力十足的替代选项。

所有人都盯着顶端打的时候,Anthropic在腰部开了一枪。

开发者钱包,今晚先投了票

如今,Sonnet 5的性能已经踩进了旗舰区间,大部分修bug、补测试、做重构的活都能一次搞定。

以前觉得Opus太贵舍不得用、Sonnet又不够好的尴尬,今天没了。

价格上更划算。同样的预算以前只能跑一个Opus级的Agent,现在可以跑两到三个并行的Sonnet。

多Agent架构的成本门槛,被Sonnet 5一脚踹低了。

Fable 5究竟何时王者归来还是个未知数。

但Sonnet 5此刻已经稳稳地站在这里,性能直接怼到了Opus的门槛上。

对于绝大多数开发者而言,它就是接下来相当长一段日子里,手边最能打也最好用的那个Claude。

参考资料:

https://x.com/claudeai/status/2072017450611142835

https://www.anthropic.com/news/claude-sonnet-5

本文来自微信公众号“新智元”,作者:ASI启示录

你可能也喜欢

Claude有“编制”了，Anthropic发的

6月23日，Anthropic发布了Claude Tag，一个常驻Slack频道的AI团队成员。它不再是借用人账号的私人助手，而是拥有独立身份、账号和审计轨迹的“有编制”AI同事。这被称为“智能体身份”。传统AI助手使用用户个人权限，但在多人协作场景中，权限归属成为难题。Claude Tag的解决方案是：AI拥有自己的工牌，不与任何人类凭证绑定。管理员在工作区级别为Claude配置基线身份和工具权限，并可在不同频道进行覆盖调整。例如，工程频道的Claude可访问代码仓库，而销售频道的则不能。权限不再完全跟随个人，而是部分与频道绑定，这让没有直接权限的成员（如产品经理）也能通过AI获取信息。权限撤销也更为集中和安全。 Claude Tag具备长期记忆和上下文学习能力，能自动参与对话（旁听模式），主动跟进未解决问题。目前该功能已向企业版和团队版客户开放beta测试。 Anthropic自身已广泛使用Claude，其产品团队大部分代码由AI生成，工程师效率大幅提升。随着企业内非人类身份激增，独立、可管理的智能体身份被视为未来人机协作的必要架构。

marsbit3分钟前

marsbit3分钟前

Edel Finance 因闪电贷预言机攻击损失 40.3 万美元，xStock 借贷储备受影响

Edel Finance（一个代币化股票的可编程市场层协议）遭遇闪电贷预言机攻击，损失约40.3万美元。攻击者通过操纵wGOOGLx（包装谷歌股票代币）的汇率，使其抵押品价值被短暂虚增约78倍，从而借出了远超抵押品实际价值的资产，导致协议产生巨额坏账。尽管Edel Finance团队迅速行动控制了损失，但此次攻击暴露了预言机和抵押品定价机制的关键漏洞，凸显了代币化借贷市场中普遍存在的安全弱点。攻击事件严重打击了用户信心，导致协议总锁定价值（TVL）从约63万美元急剧下跌至不足1000美元，净流出资金达63万美元，创下纪录。协议的复苏依赖于流动性的恢复、TVL的重建以及用户信心的重新获取。未来，更强的预言机防护和抵押品验证机制将是重建信任、促使资本回流的关键。

ambcrypto20分钟前

Edel Finance 因闪电贷预言机攻击损失 40.3 万美元，xStock 借贷储备受影响

ambcrypto20分钟前

月成交 15 亿美元的加密支付卡，困在 1990 年代

加密货币支付卡目前月交易额已达15亿美元，但其发展状况类似于1990年代前的借记卡，尚未建立起以银行主账户为核心的日常财务关系（如工资入账、定期扣费）。数据显示，加密支付卡年化交易规模约180亿美元，但高度集中于新兴市场（如孟加拉国、印度），且头部服务商RedotPay占据过半份额，在发达市场尚未形成普遍需求。与Visa、万事达数十万亿美元的支付规模相比，加密支付卡仍处早期阶段，稳定币的流通速度也远低于传统货币。目前行业主要有四种商业模式：1. 发卡基础设施商（如Rain），提供底层技术支持；2. 交易所配套支付卡（如币安卡），主要用于用户留存；3. 去中心化钱包DeFi卡（如MetaMask Card），强调资产自托管但用户体验门槛高；4. 稳定币数字银行（如RedotPay），整合汇款、理财等功能，在新兴市场较有竞争力。然而，仅依靠支付功能难以实现长期发展，行业面临监管限制（如美国《GENIUS法案》禁止稳定币计息）。未来成功的关键在于：掌控资金流转链路、深耕新兴市场特定场景、以及构建不可替代的用户核心账户体系。否则，加密支付卡可能仅能作为预充值卡存在，无法成为主流金融基础设施。

Foresight News21分钟前

Foresight News21分钟前

7.8 亿盗损揭示真相：安全成本已成 DeFi 无法规避的流动性税

根据DeFiLlama数据，2026年第二季度共发生88起可统计金额的黑客攻击事件，总损失达7.803亿美元。分析显示，安全损耗已成为DeFi不可忽视的“隐性成本”，直接影响用户收益和流动性布局。本季度损失主要源于两类风险：基础设施类漏洞（如跨链桥）单笔损失巨大，合计6.514亿美元；合约逻辑漏洞发生频次最高，达73起。这标志着市场逻辑转变：参与者开始将安全风险作为“事前风险溢价”计入决策，而不仅仅是事后复盘。跨链桥风险尤为突出，其安全可信度本身已成为交易风险的一部分。用户和做市商更倾向于选择路径清晰、风险更低的资产路由。市场通过流动性萎缩、价差扩大等方式，对高风险通道索要补偿，这构成了未标准化的风险溢价。与此同时，协议方的安全投入性质也在变化，正从单纯的防御支出转变为吸引流动性的必要“分销成本”。用户日益要求平台透明披露资金流转路径、跨链风险及风控措施。下一阶段的行业竞争关键，在于平台能否清晰管理并披露这些隐性风险，从而在安全与效率间取得平衡。整个二季度的安全危机，可能正推动一次完整的DeFi资产风险重定价。

Foresight News50分钟前