刚刚，Anthropic发布Sonnet 5，性能接近Opus 4.8，但不一定更便宜

marsbit发布于2026-07-01更新于2026-07-01

文章摘要

Anthropic 正式发布了 Claude Sonnet 5 模型，称其为迄今为止最具 Agent 属性的 Sonnet 模型，能够在制定计划、使用工具（如浏览器、终端）方面自主运行，其能力水平接近数月前需要更大、更昂贵模型（如 Opus 4.8）才能达到的程度。相比前代 Sonnet 4.6，Sonnet 5 在推理、工具使用、编程和知识工作等关键维度性能有显著提升。在智能体搜索和计算机使用评测中，其性能曲线表明，在中等努力程度下成本效率显著提升，在更高努力程度下某些任务性能可媲美 Opus 4.8。用户可根据任务需求灵活调整“努力程度”以平衡成本与性能。安全评估显示，Sonnet 5 在拒绝恶意请求、抵御提示注入攻击、降低幻觉和谄媚行为率方面整体优于 Sonnet 4.6，但失当行为率仍略高于 Opus 4.8 和 Mythos Preview。该模型未针对网络安全任务专门训练，其开发软件漏洞等危险网络能力显著弱于 Opus 4.8，因此 Anthropic 为其默认启用了网络安全护栏。定价方面，即日起至2026年8月31日提供尝鲜价：输入每百万token 2美元，输出每百万token 10美元。之后恢复为标准定价：输入3美元，输出15美元。Anthropic 同步上调了各平台的速率限制以适应更高“努力程度”模式。需注意，Sonnet 5 采用了新tokenizer，相同内容映射的token数量约为以前的1.0-1.35倍，尝鲜价旨在使过渡期整体使用成本大致持平。开发者上手反馈称其速度很快且针对Agent优化，在浏览器使用场景下抵御提示注入攻击的能力（成功率仅0.93%）显著优于Opus 4.8（31.5%）和Sonnet 4.6（50.7%）。但也有分析指出，由于token使用量增加，其每项任务运行成本约为2.29美元，比Sonnet 4.6高约2倍，也比Opus 4.8高出约15%，成为运行成本最高的模型之一。

刚刚,Anthropic 正式发布了全新的模型Claude Sonnet 5,称其为「迄今为止最具 Agent 属性的 Sonnet 模型」,可以制定计划,使用浏览器、终端等工具,并以数月前还需要更大、更昂贵模型才能达到的水平自主运行。

Sonnet 5 在推理、工具使用、编程和知识工作方面,相比 Sonnet 4.6 性能有显著提升,更接近 Opus 4.8,但价格更低。

官方表示,对于开发者来说,AI Agent 时代正是从 Sonnet 级模型开始的:Claude Sonnet 3.5、3.6 和 3.7 是最早在编程和工具使用上展现出亮眼能力的一批模型。不过最近一段时间,Agent 能力最明显的提升主要出现在 Opus 级模型上。

而 Claude Sonnet 5 明显缩小了这一差距:它的性能已经接近 Opus 4.8,但价格更低。相比上一代 Sonnet 4.6,它在推理、工具使用、编程和知识工作等智能体性能关键维度上都有显著提升。具体对比如下图所示:

下图对比了 Sonnet 5 与 Sonnet 4.6、Opus 4.8 在智能体搜索评测 BrowseComp 和 computer use 评测 OSWorld‐Verified 上、于不同「努力程度」下的表现:

Sonnet 5(橙色线) 相比 Sonnet 4.6(灰色线)具有明确的性能提升,且覆盖的成本‐性能选项范围比 Opus 4.8(黄色线)更广。
在中等努力程度下,Sonnet 5 显著提升了成本效率;在更高努力程度下,其性能在某些任务上可媲美 Opus 4.8。
在 Sonnet 5 和 Opus 4.8 之间,用户可根据具体任务灵活调整努力程度,找到最适合自身需求的成本与性能平衡点。

不同努力程度下的成本 - 性能曲线如上图所示。此前最好的 Sonnet 模型(Sonnet 4.6)远不及 Opus 4.8。Sonnet 5 提供了比 Sonnet 4.6 更广泛的成本 - 性能选项,在某些情况下可达到 Opus 4.8 的能力水平。图表中展示的 Sonnet 5 定价为输入 $3 / 百万 token,输出 $15 / 百万 token。通过 8 月 31 日前的尝鲜价(输入 $2 / 百万 token、输出 $10 / 百万 token),Sonnet 5 的实际成本甚至比图中显示的更低。Opus 4.8 的定价为输入 $5 / 百万 token、输出 $25 / 百万 token。

来自 Anthropic 早期访问合作伙伴的反馈始终一致:Sonnet 5 比其前代模型更具自主智能体能力(agentic)。测试者描述说,它能完成复杂任务 —— 而之前的 Sonnet 模型会在这些任务上中途止步;它会主动检查自己的输出,无需明确提示;而且它以极具吸引力的价格完成所有这些智能体工作:

安全评估

Anthropic 的部署前安全评估发现,Sonnet 5 整体上相比 Sonnet 4.6 有所改善。在自主智能体安全性方面,该模型在拒绝恶意请求和抵御提示注入攻击中的劫持尝试方面表现更好。模型的幻觉率和谄媚行为率均低于 Sonnet 4.6。在自动化行为审计(测试范围广泛的失当行为,如协助滥用和欺骗)中,Sonnet 5 得分更低(即更安全)。

不过,与能力更强的 Opus 4.8 和 Claude Mythos Preview 相比,它在该评估中确实表现出略高的失当行为率。

上图展示了自动化行为审计中的失当行为率,该审计在多种情境和背景下测试大量不良行为(完整列表及各项行为结果见 Sonnet 5 系统卡第 6.4 节)。Sonnet 5 的失当行为率整体低于 Sonnet 4.6,但高于 Mythos Preview 和 Opus 4.8。

Anthropic 表示,他们并未刻意针对网络安全任务训练 Sonnet 5。它可以执行一些常规、无害的网络任务,但在评估潜在危险网络技能(如开发软件漏洞利用程序)时,其表现显著逊于 Opus 4.8 和 Mythos 5 等模型。

下图展示了其中一项评估的得分,该评估测试了模型针对 Firefox 浏览器漏洞开发利用程序的能力。Sonnet 5 始终未能开发出完整可用的漏洞利用程序,但其部分成功率略高于 Sonnet 4.6。后者的提升可能源于通用智能的改进,而非特定训练。

上图展示了模型针对 Firefox 147 中软件漏洞成功开发利用程序的得分(该评估与 Mozilla 合作开发;所有漏洞已在 Firefox 148 中修复)。对于每个模型,左侧柱状图表示模型(在无安全护栏情况下)开发出可利用程序的频率,右侧柱状图表示部分成功的频率。两款 Sonnet 模型均未能成功开发出可利用程序(得分均为 0.0%);Sonnet 5 的部分成功率略高于 Sonnet 4.6。两款 Sonnet 模型的网络能力均显著弱于 Opus 4.8 和 Mythos 5。

由于 Sonnet 5 在这些任务上比其前代略有增强,Anthropic 已默认启用了网络安全护栏。这些护栏 —— 能够实时检测并阻止危险的网络使用 —— 与 Claude Opus 4.7 和 4.8 中的相同(因为 Anthropic 判断 Sonnet 5 的整体网络安全风险较低,其护栏严格程度低于 Fable 5 所启用的 —— 后者会阻止更广泛的网络安全任务)。

Anthropic 对 Sonnet 5 在多项安全和能力评估上的完整评估报告,详见《Claude Sonnet 5 系统卡》。

定价

今天起,Claude Sonnet 5 已在所有渠道正式可用。为庆祝发布,Anthropic 推出限时优惠首发价:

即日起至 2026 年 8 月 31 日:输入为 $2 / 百万 token,输出为 $10 / 百万 token
之后恢复标准定价:输入 $3 / 百万 token,输出 $15 / 百万 token

与此同时,他们宣布全面上调 Chat、Cowork、Claude Code 以及 Claude 平台的速率限制(rate limits),以适配更高「努力程度」模式带来的更大 token 消耗。

注意事项

网络安全验证

Sonnet 5 已纳入 Anthropic 的「网络安全验证计划」。该计划现已在以下平台开放使用:

Claude 原生平台
AWS 上的 Claude 平台
Microsoft Foundry 中的 Claude(托管于 Azure 和 Anthropic)

Google Vertex 上的 Claude 也将很快支持。

已加入该计划的组织,在 Sonnet 5 上自动获得同等访问权限,无需重新申请。如果你的网络安全工作需要更少的安全护栏限制,Anthropic 推荐使用 Claude Opus 4.8。

tokenizer 更新与定价说明

Sonnet 5 是 Sonnet 4.6 的升级版,但采用了全新的 tokenizer,以优化文本处理性能(这与 Claude Opus 4.7 引入的 tokenizer 变更类似)。

带来的变化是:相同输入内容,现在会映射为更多 token,具体增幅约为 1.0~1.35 倍,视内容类型而定。

为此,Anthropic 设定的尝鲜价,正是为了让用户过渡到 Sonnet 5 时,整体使用成本大致保持不变。

速率限制调整说明

早在 2026 年 4 月 26 日,Anthropic 已针对 Sonnet 和 Haiku 模型,在所有使用层级上调高了速率限制,并将原生 Claude 平台的套餐简化为三个层级:Start、Build、Scale。

本次更新,Anthropic 进一步上调了 Chat、Cowork、Claude Code 及 Claude 平台的速率限制,以配合更高「努力程度」模式带来的更大 token 消耗。

您可以在 Claude Console 中查看当前层级和具体限制,或查阅文档获取更多详情。

评测分数更正说明(补充)

Humanity’s Last Exam:Anthropic 更新了该评测的评分模型,并据此将 Sonnet 4.6 的分数修正为 34.6%(无工具) 和 46.8%(有工具)。因此,该分数与 Sonnet 4.6 发布博客中报告的数据有所不同,特此说明。
OSWorld‐Verified:Anthropic 优化了该评测的运行方式,以更真实地反映模型在实际场景中的表现,并将 Sonnet 4.6 的分数修正为 78.5%。这也是该分数与 Sonnet 4.6 发布博客中数据不一致的原因。

开发者上手反馈

Claude Sonnet 5 一经发布,大家也已经开始上手测评。

网友 Nicolas Bustamante 表示,自己很喜欢 Sonnet 5 的一点在于,它速度很快,而且针对 Agent 做了优化。「我最喜欢的例子是浏览器使用:又快,又安全。」

根据 system card 结果表明,浏览器使用场景下的提示注入攻击成功率,Sonnet 5 只有 0.93%,而 Opus 4.8 是 31.5%,Sonnet 4.6 是 50.7%。

不过也有网友表示,「太贵了。」

而据 Artificial Analysis 分析,在 Intelligence Index 上,Claude Sonnet 5 的运行成本为每项任务 2.29 美元,相比 Sonnet 4.6 增加约 2 倍,也比 Claude Opus 4.8 高出约 15%。这一成本上升完全由 token 使用量增加所驱动,使 Claude Sonnet 5 成为运行成本最高的模型之一,仅次于 Claude Fable 5。

那么你呢,觉得新模型如何,欢迎评论区留言、交流!

参考链接:

https://x.com/claudeai/status/2072017450611142835

https://www.anthropic.com/news/claude-sonnet-5

https://x.com/ArtificialAnlys/status/2072062595482456431

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:关注AI的

你可能也喜欢

Ansem空投让名人喊单效应回归：当大盘横盘时，聪明钱都在盯着KOL的推特

在加密市场整体横盘、缺乏新叙事和增量资金的背景下，名人喊单驱动的局部行情成为市场焦点。近期，知名交易员Ansem宣布对其关联的Solana生态meme币$ANSEM进行空投，导致该代币在7天内暴涨近19,878%，并吸引了大量投机资金。空投通过社交任务随机分发，但链上数据显示代币分配高度集中，少数钱包获得了大部分份额，引发社区关于“洗钱”的质疑。与此同时，BitMEX联合创始人Arthur Hayes也通过研究报告和公开表态，推动了Collector Crypt($CARDS)和Hyperliquid生态代币$SYN的价格显著上涨，其中$SYN在6月已上涨超10倍。这些案例表明，在当前市场环境下，具有影响力的KOL的言论和动作能够迅速制造热点、吸引流动性，形成短暂的投机机会。尽管这类行情充满风险且可能伴随内幕操作，但在市场整体缺乏方向时，它们成为了少数可见的机会。投资者仍需保持警惕，结合链上数据、筹码分布和情绪分析来评估风险，方能在波动中寻找潜在收益。

marsbit39分钟前

marsbit39分钟前

PA图说 | 一图了解2026年7月Web3大事件

2026年7月，Web3与加密市场将迎来一系列关键事件。宏观层面，美国将公布6月非农、CPI等经济数据，美联储也将发布FOMC会议纪要和经济状况褐皮书，影响市场流动性预期。监管合规方面迎来重要节点：欧盟的MiCA法规过渡期结束，美国市场结构法案也迎来目标截止日，相关监管讨论将持续进行。市场需关注代币解锁带来的波动，ENA、PUMP等项目代币将在7月陆续解锁。生态发展方面，Robinhood或公布代币化金融新产品，预示“加密新时代”；Securitize计划以代码SECZ在纽交所上市。同时，Botanix、Legend等多个项目将陆续关闭服务或终止支持，用户需留意资产迁移安排。此外，上海国际具身智能产业博览会、WebX 2026等行业盛会以及世界杯决赛将相继举行。科技领域，SpaceX将被纳入纳斯达克100指数，ASML与台积电将发布第二季度财报。总体来看，7月市场将在宏观政策、监管落地与生态轮动中探寻新的方向。

marsbit1小时前

marsbit1小时前

XRP活跃地址激增72%，衍生品市场杠杆率下降

XRP（瑞波币）的链上信号近日显得更为清晰。数据显示，在短短两周内，XRP的每日活跃地址数激增约72%，与此同时，衍生品市场的未平仓合约和投机性杠杆有所降温。这种活跃地址增长与杠杆减少的组合值得关注，因为它可能意味着市场价格走势对高杠杆头寸的依赖降低，而更多反映了真实的网络使用需求。活跃地址数增加可能意味着更多用户与网络交互、链上交易增多，或是沉寂的钱包重新活跃。这对于XRP尤为重要，因为它常受法律、机构、支付等多重叙事影响，链上数据为此提供了更具体的衡量依据。不过，分析师也谨慎指出，地址数激增也可能包含钱包维护、交易所内部转账等非需求驱动的活动，不一定直接转化为持续的购买力。关键点在于，此次地址增长伴随着杠杆下降，这与活动与杠杆同时飙升的情况不同。它表明市场可能去除了一些泡沫，让交易者能更专注于评估网络实际活跃度。然而，两周的数据增长虽具建设性，但并非决定性信号。市场仍需观察活跃地址的上升趋势能否持续，交易量是否会跟进，以及现货需求能否在不依赖高杠杆的情况下改善。目前，市场结构向好但尚未定论。多头希望看到链上活动持续，空头则认为除非地址增长能转化为更强的价格走势和流动性，否则意义有限。接下来的市场表现对XRP的短期走向至关重要。

bitcoinist2小时前

bitcoinist2小时前

Solana网络活动激增如何推动SOL突破82美元关口

Solana链上活动近期急剧加速，网络参与度达到数月来的最强水平。每日活跃钱包数量攀升至451万的历史新高，且这一峰值持续时间自2月以来最为持久。活动增长主要归因于代币化股权的快速发展、xStocks活动激增以及DeFi活动的复苏。随着用户回归，SOL收复了重要的技术点位。这表明Solana网络正通过实际使用增长来支撑价格，而非仅靠价格上涨。然而，网络的持续采用将取决于涨势消退后新用户是否会继续使用该平台。网络活动的复兴日益得到现实世界金融应用扩展的支持，而不仅仅是投机交易。Solana上的代币化股权用户正在增加。稳定币供应量保持高位，跨链桥净流入、总锁定价值（TVL）和去中心化交易所（DEX）交易量的持续增长表明，流入Solana生态的资金正在留存，而非快速流出。 SOL在6月29日上涨7.48%，从69.74美元升至时段高点76.49美元，随后回落至73美元附近。此次反弹使Solana有望在连续九个月收跌后首次录得月度阳线，买家信心有所改善。但78-82美元的阻力区仍是市场面临的最大考验，此前已数次阻止上涨。若能突破该区间，可能为涨向92美元打开道路。然而，多头必须守住72美元支撑位，以维护正在形成的“高点更高、低点更高”结构。若再次遇阻回落，则可能表明更广泛的复苏仍然缺乏持久信念。

ambcrypto2小时前

ambcrypto2小时前

SUI、ENA与EIGEN引领本周价值7300万美元的代币解锁潮

本周，SUI、ENA和EIGEN将引领一轮价值7300万美元的代币解锁浪潮。SUI（约1372万枚，价值约940万美元）和EIGEN（约3682万枚，价值约870万美元）的解锁定于2026年7月1日，而ENA（约312万美元）的解锁则在2026年7月3日。文章强调，解锁事件并非直接的抛售信号，做市商通常会提前对冲这些供应事件。对于交易者而言，此类事件会影响短期头寸、对冲策略和流动性分布，但其影响应置于更广泛的市场背景中评估，包括ETF资金流、杠杆情况和山寨币流动性轮动。当前关键在于观察数据是否持续印证这一趋势，以判断这是短期波动还是结构性转变。报告提醒避免将单一数据点过度解读为市场全貌，而应结合整体流动性、宏观条件和衍生品状况进行综合分析。

bitcoinist2小时前

bitcoinist2小时前

交易

现货

刚刚，Anthropic发布Sonnet 5，性能接近Opus 4.8，但不一定更便宜

文章摘要

安全评估

定价

注意事项

网络安全验证

tokenizer 更新与定价说明

速率限制调整说明

评测分数更正说明(补充)

开发者上手反馈

参考链接:

相关问答

你可能也喜欢

Ansem空投让名人喊单效应回归：当大盘横盘时，聪明钱都在盯着KOL的推特

PA图说 | 一图了解2026年7月Web3大事件

XRP活跃地址激增72%，衍生品市场杠杆率下降

Solana网络活动激增如何推动SOL突破82美元关口

SUI、ENA与EIGEN引领本周价值7300万美元的代币解锁潮

交易

热门分类

热门标签