刚刚,Anthropic发布Sonnet 5,性能接近Opus 4.8,但不一定更便宜
Anthropic 正式发布了 Claude Sonnet 5 模型,称其为迄今为止最具 Agent 属性的 Sonnet 模型,能够在制定计划、使用工具(如浏览器、终端)方面自主运行,其能力水平接近数月前需要更大、更昂贵模型(如 Opus 4.8)才能达到的程度。
相比前代 Sonnet 4.6,Sonnet 5 在推理、工具使用、编程和知识工作等关键维度性能有显著提升。在智能体搜索和计算机使用评测中,其性能曲线表明,在中等努力程度下成本效率显著提升,在更高努力程度下某些任务性能可媲美 Opus 4.8。用户可根据任务需求灵活调整“努力程度”以平衡成本与性能。
安全评估显示,Sonnet 5 在拒绝恶意请求、抵御提示注入攻击、降低幻觉和谄媚行为率方面整体优于 Sonnet 4.6,但失当行为率仍略高于 Opus 4.8 和 Mythos Preview。该模型未针对网络安全任务专门训练,其开发软件漏洞等危险网络能力显著弱于 Opus 4.8,因此 Anthropic 为其默认启用了网络安全护栏。
定价方面,即日起至2026年8月31日提供尝鲜价:输入每百万token 2美元,输出每百万token 10美元。之后恢复为标准定价:输入3美元,输出15美元。Anthropic 同步上调了各平台的速率限制以适应更高“努力程度”模式。需注意,Sonnet 5 采用了新tokenizer,相同内容映射的token数量约为以前的1.0-1.35倍,尝鲜价旨在使过渡期整体使用成本大致持平。
开发者上手反馈称其速度很快且针对Agent优化,在浏览器使用场景下抵御提示注入攻击的能力(成功率仅0.93%)显著优于Opus 4.8(31.5%)和Sonnet 4.6(50.7%)。但也有分析指出,由于token使用量增加,其每项任务运行成本约为2.29美元,比Sonnet 4.6高约2倍,也比Opus 4.8高出约15%,成为运行成本最高的模型之一。
marsbit8 分鐘前