刚刚,Anthropic发布Sonnet 5,性能接近Opus 4.8,但不一定更便宜

marsbit发布于2026-07-01更新于2026-07-01

文章摘要

Anthropic 正式发布了 Claude Sonnet 5 模型,称其为迄今为止最具 Agent 属性的 Sonnet 模型,能够在制定计划、使用工具(如浏览器、终端)方面自主运行,其能力水平接近数月前需要更大、更昂贵模型(如 Opus 4.8)才能达到的程度。 相比前代 Sonnet 4.6,Sonnet 5 在推理、工具使用、编程和知识工作等关键维度性能有显著提升。在智能体搜索和计算机使用评测中,其性能曲线表明,在中等努力程度下成本效率显著提升,在更高努力程度下某些任务性能可媲美 Opus 4.8。用户可根据任务需求灵活调整“努力程度”以平衡成本与性能。 安全评估显示,Sonnet 5 在拒绝恶意请求、抵御提示注入攻击、降低幻觉和谄媚行为率方面整体优于 Sonnet 4.6,但失当行为率仍略高于 Opus 4.8 和 Mythos Preview。该模型未针对网络安全任务专门训练,其开发软件漏洞等危险网络能力显著弱于 Opus 4.8,因此 Anthropic 为其默认启用了网络安全护栏。 定价方面,即日起至2026年8月31日提供尝鲜价:输入每百万token 2美元,输出每百万token 10美元。之后恢复为标准定价:输入3美元,输出15美元。Anthropic 同步上调了各平台的速率限制以适应更高“努力程度”模式。需注意,Sonnet 5 采用了新tokenizer,相同内容映射的token数量约为以前的1.0-1.35倍,尝鲜价旨在使过渡期整体使用成本大致持平。 开发者上手反馈称其速度很快且针对Agent优化,在浏览器使用场景下抵御提示注入攻击的能力(成功率仅0.93%)显著优于Opus 4.8(31.5%)和Sonnet 4.6(50.7%)。但也有分析指出,由于token使用量增加,其每项任务运行成本约为2.29美元,比Sonnet 4.6高约2倍,也比Opus 4.8高出约15%,成为运行成本最高的模型之一。

刚刚,Anthropic 正式发布了全新的模型Claude Sonnet 5,称其为「迄今为止最具 Agent 属性的 Sonnet 模型」,可以制定计划,使用浏览器、终端等工具,并以数月前还需要更大、更昂贵模型才能达到的水平自主运行。

Sonnet 5 在推理、工具使用、编程和知识工作方面,相比 Sonnet 4.6 性能有显著提升,更接近 Opus 4.8,但价格更低。

官方表示,对于开发者来说,AI Agent 时代正是从 Sonnet 级模型开始的:Claude Sonnet 3.5、3.6 和 3.7 是最早在编程和工具使用上展现出亮眼能力的一批模型。不过最近一段时间,Agent 能力最明显的提升主要出现在 Opus 级模型上。

而 Claude Sonnet 5 明显缩小了这一差距:它的性能已经接近 Opus 4.8,但价格更低。相比上一代 Sonnet 4.6,它在推理、工具使用、编程和知识工作等智能体性能关键维度上都有显著提升。具体对比如下图所示:

下图对比了 Sonnet 5 与 Sonnet 4.6、Opus 4.8 在智能体搜索评测 BrowseComp 和 computer use 评测 OSWorld‐Verified 上、于不同「努力程度」下的表现:

  • Sonnet 5(橙色线) 相比 Sonnet 4.6(灰色线)具有明确的性能提升,且覆盖的成本‐性能选项范围比 Opus 4.8(黄色线)更广。
  • 在中等努力程度下,Sonnet 5 显著提升了成本效率;在更高努力程度下,其性能在某些任务上可媲美 Opus 4.8。
  • 在 Sonnet 5 和 Opus 4.8 之间,用户可根据具体任务灵活调整努力程度,找到最适合自身需求的成本与性能平衡点。

不同努力程度下的成本 - 性能曲线如上图所示。此前最好的 Sonnet 模型(Sonnet 4.6)远不及 Opus 4.8。Sonnet 5 提供了比 Sonnet 4.6 更广泛的成本 - 性能选项,在某些情况下可达到 Opus 4.8 的能力水平。图表中展示的 Sonnet 5 定价为输入 $3 / 百万 token,输出 $15 / 百万 token。通过 8 月 31 日前的尝鲜价(输入 $2 / 百万 token、输出 $10 / 百万 token),Sonnet 5 的实际成本甚至比图中显示的更低。Opus 4.8 的定价为输入 $5 / 百万 token、输出 $25 / 百万 token。

来自 Anthropic 早期访问合作伙伴的反馈始终一致:Sonnet 5 比其前代模型更具自主智能体能力(agentic)。测试者描述说,它能完成复杂任务 —— 而之前的 Sonnet 模型会在这些任务上中途止步;它会主动检查自己的输出,无需明确提示;而且它以极具吸引力的价格完成所有这些智能体工作:

安全评估

Anthropic 的部署前安全评估发现,Sonnet 5 整体上相比 Sonnet 4.6 有所改善。在自主智能体安全性方面,该模型在拒绝恶意请求和抵御提示注入攻击中的劫持尝试方面表现更好。模型的幻觉率和谄媚行为率均低于 Sonnet 4.6。在自动化行为审计(测试范围广泛的失当行为,如协助滥用和欺骗)中,Sonnet 5 得分更低(即更安全)。

不过,与能力更强的 Opus 4.8 和 Claude Mythos Preview 相比,它在该评估中确实表现出略高的失当行为率。

上图展示了自动化行为审计中的失当行为率,该审计在多种情境和背景下测试大量不良行为(完整列表及各项行为结果见 Sonnet 5 系统卡第 6.4 节)。Sonnet 5 的失当行为率整体低于 Sonnet 4.6,但高于 Mythos Preview 和 Opus 4.8。

Anthropic 表示,他们并未刻意针对网络安全任务训练 Sonnet 5。它可以执行一些常规、无害的网络任务,但在评估潜在危险网络技能(如开发软件漏洞利用程序)时,其表现显著逊于 Opus 4.8 和 Mythos 5 等模型。

下图展示了其中一项评估的得分,该评估测试了模型针对 Firefox 浏览器漏洞开发利用程序的能力。Sonnet 5 始终未能开发出完整可用的漏洞利用程序,但其部分成功率略高于 Sonnet 4.6。后者的提升可能源于通用智能的改进,而非特定训练。

上图展示了模型针对 Firefox 147 中软件漏洞成功开发利用程序的得分(该评估与 Mozilla 合作开发;所有漏洞已在 Firefox 148 中修复)。对于每个模型,左侧柱状图表示模型(在无安全护栏情况下)开发出可利用程序的频率,右侧柱状图表示部分成功的频率。两款 Sonnet 模型均未能成功开发出可利用程序(得分均为 0.0%);Sonnet 5 的部分成功率略高于 Sonnet 4.6。两款 Sonnet 模型的网络能力均显著弱于 Opus 4.8 和 Mythos 5。

由于 Sonnet 5 在这些任务上比其前代略有增强,Anthropic 已默认启用了网络安全护栏。这些护栏 —— 能够实时检测并阻止危险的网络使用 —— 与 Claude Opus 4.7 和 4.8 中的相同(因为 Anthropic 判断 Sonnet 5 的整体网络安全风险较低,其护栏严格程度低于 Fable 5 所启用的 —— 后者会阻止更广泛的网络安全任务)。

Anthropic 对 Sonnet 5 在多项安全和能力评估上的完整评估报告,详见 《Claude Sonnet 5 系统卡》。

定价

今天起,Claude Sonnet 5 已在所有渠道正式可用。为庆祝发布,Anthropic 推出限时优惠首发价:

  • 即日起至 2026 年 8 月 31 日:输入为 $2 / 百万 token,输出为 $10 / 百万 token
  • 之后恢复标准定价:输入 $3 / 百万 token,输出 $15 / 百万 token

与此同时,他们宣布全面上调 Chat、Cowork、Claude Code 以及 Claude 平台的速率限制(rate limits),以适配更高「努力程度」模式带来的更大 token 消耗。

注意事项

网络安全验证

Sonnet 5 已纳入 Anthropic 的「网络安全验证计划」。该计划现已在以下平台开放使用:

  • Claude 原生平台
  • AWS 上的 Claude 平台
  • Microsoft Foundry 中的 Claude(托管于 Azure 和 Anthropic)

Google Vertex 上的 Claude 也将很快支持。

已加入该计划的组织,在 Sonnet 5 上自动获得同等访问权限,无需重新申请。如果你的网络安全工作需要更少的安全护栏限制,Anthropic 推荐使用 Claude Opus 4.8。

tokenizer 更新与定价说明

Sonnet 5 是 Sonnet 4.6 的升级版,但采用了全新的 tokenizer,以优化文本处理性能(这与 Claude Opus 4.7 引入的 tokenizer 变更类似)。

带来的变化是:相同输入内容,现在会映射为更多 token,具体增幅约为 1.0~1.35 倍,视内容类型而定。

为此,Anthropic 设定的尝鲜价,正是为了让用户过渡到 Sonnet 5 时,整体使用成本大致保持不变。

速率限制调整说明

早在 2026 年 4 月 26 日,Anthropic 已针对 Sonnet 和 Haiku 模型,在所有使用层级上调高了速率限制,并将原生 Claude 平台的套餐简化为三个层级:Start、Build、Scale。

本次更新,Anthropic 进一步上调了 Chat、Cowork、Claude Code 及 Claude 平台的速率限制,以配合更高「努力程度」模式带来的更大 token 消耗。

您可以在 Claude Console 中查看当前层级和具体限制,或查阅文档获取更多详情。

评测分数更正说明(补充)

  • Humanity’s Last Exam:Anthropic 更新了该评测的评分模型,并据此将 Sonnet 4.6 的分数修正为 34.6%(无工具) 和 46.8%(有工具)。因此,该分数与 Sonnet 4.6 发布博客中报告的数据有所不同,特此说明。
  • OSWorld‐Verified:Anthropic 优化了该评测的运行方式,以更真实地反映模型在实际场景中的表现,并将 Sonnet 4.6 的分数修正为 78.5%。这也是该分数与 Sonnet 4.6 发布博客中数据不一致的原因。

开发者上手反馈

Claude Sonnet 5 一经发布,大家也已经开始上手测评。

网友 Nicolas Bustamante 表示,自己很喜欢 Sonnet 5 的一点在于,它速度很快,而且针对 Agent 做了优化。「我最喜欢的例子是浏览器使用:又快,又安全。」

根据 system card 结果表明,浏览器使用场景下的提示注入攻击成功率,Sonnet 5 只有 0.93%,而 Opus 4.8 是 31.5%,Sonnet 4.6 是 50.7%。

不过也有网友表示,「太贵了。」

而据 Artificial Analysis 分析,在 Intelligence Index 上,Claude Sonnet 5 的运行成本为每项任务 2.29 美元,相比 Sonnet 4.6 增加约 2 倍,也比 Claude Opus 4.8 高出约 15%。这一成本上升完全由 token 使用量增加所驱动,使 Claude Sonnet 5 成为运行成本最高的模型之一,仅次于 Claude Fable 5。

那么你呢,觉得新模型如何,欢迎评论区留言、交流!

参考链接:

https://x.com/claudeai/status/2072017450611142835

https://www.anthropic.com/news/claude-sonnet-5

https://x.com/ArtificialAnlys/status/2072062595482456431

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:关注AI的

相关问答

QAnthropic发布的新模型Claude Sonnet 5,在性能上与上一代Sonnet 4.6相比有哪些提升?

AClaude Sonnet 5在推理、工具使用、编程和知识工作等智能体性能关键维度上相比Sonnet 4.6有显著提升,其整体性能已接近更高阶的Opus 4.8模型。尤其是在Agent能力(如自主制定计划、使用工具)方面,Sonnet 5被描述为迄今为止最具Agent属性的Sonnet模型。

QClaude Sonnet 5在定价方面有什么特点?是否比Opus 4.8更便宜?

A是的,根据官方信息,Sonnet 5的标准定价为输入3美元/百万tokens、输出15美元/百万tokens,相比Opus 4.8(输入5美元/百万tokens、输出25美元/百万tokens)更低。但在2026年8月31日前有尝鲜价(输入2美元/百万tokens、输出10美元/百万tokens),使初期使用成本更具吸引力。然而,有第三方分析指出,因其token使用量增加,Sonnet 5在某些综合基准测试中的单任务运行成本可能高于Opus 4.8。

Q文章提到Sonnet 5采用了新的tokenizer,这给用户带来了什么直接影响?

ASonnet 5采用了全新的tokenizer以优化文本处理性能。这导致相同内容的输入会被映射为更多的tokens,具体增幅约为1.0到1.35倍(依内容类型而定)。这意味着,在处理相同数量的字符或任务时,用户实际消耗的计费tokens可能会增加。为此,Anthropic设定了尝鲜价,旨在让用户过渡到Sonnet 5时的整体使用成本大致保持不变。

Q在安全性方面,Claude Sonnet 5相比前代Sonnet 4.6有何改进?

ASonnet 5在安全性方面整体相比Sonnet 4.6有所改善。具体包括:在拒绝恶意请求、抵御提示注入攻击方面表现更好;模型的幻觉率和谄媚行为率更低;在自动化行为审计(测试失当行为)中得分更低(即更安全)。不过,其失当行为率仍略高于能力更强的Opus 4.8和Claude Mythos Preview模型。

Q针对网络安全任务,Claude Sonnet 5的表现和策略是怎样的?

AAnthropic表示并未刻意针对网络安全任务训练Sonnet 5。它可以执行一些常规、无害的网络任务,但在评估开发软件漏洞等危险网络技能时,其能力显著弱于Opus 4.8和Mythos 5等模型。由于Sonnet 5在此类任务上的能力相比前代略有增强,Anthropic已默认启用了与Opus 4.7/4.8相同的网络安全护栏,以实时检测并阻止危险的网络使用。但对于需要更少安全护栏限制的网络安全工作,官方推荐使用Claude Opus 4.8。

你可能也喜欢

XRP活跃地址激增72%,衍生品市场杠杆率下降

XRP(瑞波币)的链上信号近日显得更为清晰。数据显示,在短短两周内,XRP的每日活跃地址数激增约72%,与此同时,衍生品市场的未平仓合约和投机性杠杆有所降温。这种活跃地址增长与杠杆减少的组合值得关注,因为它可能意味着市场价格走势对高杠杆头寸的依赖降低,而更多反映了真实的网络使用需求。 活跃地址数增加可能意味着更多用户与网络交互、链上交易增多,或是沉寂的钱包重新活跃。这对于XRP尤为重要,因为它常受法律、机构、支付等多重叙事影响,链上数据为此提供了更具体的衡量依据。不过,分析师也谨慎指出,地址数激增也可能包含钱包维护、交易所内部转账等非需求驱动的活动,不一定直接转化为持续的购买力。 关键点在于,此次地址增长伴随着杠杆下降,这与活动与杠杆同时飙升的情况不同。它表明市场可能去除了一些泡沫,让交易者能更专注于评估网络实际活跃度。然而,两周的数据增长虽具建设性,但并非决定性信号。市场仍需观察活跃地址的上升趋势能否持续,交易量是否会跟进,以及现货需求能否在不依赖高杠杆的情况下改善。 目前,市场结构向好但尚未定论。多头希望看到链上活动持续,空头则认为除非地址增长能转化为更强的价格走势和流动性,否则意义有限。接下来的市场表现对XRP的短期走向至关重要。

bitcoinist2小时前

XRP活跃地址激增72%,衍生品市场杠杆率下降

bitcoinist2小时前

Solana网络活动激增如何推动SOL突破82美元关口

Solana链上活动近期急剧加速,网络参与度达到数月来的最强水平。每日活跃钱包数量攀升至451万的历史新高,且这一峰值持续时间自2月以来最为持久。 活动增长主要归因于代币化股权的快速发展、xStocks活动激增以及DeFi活动的复苏。随着用户回归,SOL收复了重要的技术点位。这表明Solana网络正通过实际使用增长来支撑价格,而非仅靠价格上涨。然而,网络的持续采用将取决于涨势消退后新用户是否会继续使用该平台。 网络活动的复兴日益得到现实世界金融应用扩展的支持,而不仅仅是投机交易。Solana上的代币化股权用户正在增加。稳定币供应量保持高位,跨链桥净流入、总锁定价值(TVL)和去中心化交易所(DEX)交易量的持续增长表明,流入Solana生态的资金正在留存,而非快速流出。 SOL在6月29日上涨7.48%,从69.74美元升至时段高点76.49美元,随后回落至73美元附近。此次反弹使Solana有望在连续九个月收跌后首次录得月度阳线,买家信心有所改善。但78-82美元的阻力区仍是市场面临的最大考验,此前已数次阻止上涨。 若能突破该区间,可能为涨向92美元打开道路。然而,多头必须守住72美元支撑位,以维护正在形成的“高点更高、低点更高”结构。若再次遇阻回落,则可能表明更广泛的复苏仍然缺乏持久信念。

ambcrypto2小时前

Solana网络活动激增如何推动SOL突破82美元关口

ambcrypto2小时前

交易

现货
活动图片