Claude Opus4.8发布,Anthropic开始把「可信」做成产品卖点

marsbit发布于2026-05-29更新于2026-05-29

文章摘要

Anthropic发布了Claude Opus 4.8模型,在六项核心基准测试中取得五项第一,价格维持不变。此次发布的核心卖点并非单纯性能提升,而是显著增强了模型的“可信度”。在代码诚实度测试中,模型对自身错误的漏报率从19.7%大幅降至3.7%。它更擅长暴露不确定性,减少“过度自信的错误回答”,降低了用户因收到看似完整流畅实则错误的答案而带来的风险。 Claude Code功能新增了动态工作流(研究预览版),能自动调度多个子Agent并行工作,并引入对抗性自检机制在交付结果前进行验证,进一步提升了复杂任务输出的可靠性。 模型在数学(USAMO 2026得分提升27%)、长上下文推理和多Agent协作等任务上表现突出。不过,在终端操作任务上仍稍逊于GPT-5.5,且在少数领域(如抗提示注入能力)存在退步。 文章指出,前沿模型的竞争正从追逐基准分数转向对可靠性、可验证性的争夺。同时,Opus 4.8被定位为通往更强大、受限访问的“Mythos”级模型的公开入口,该模型预计将在未来几周内推出。对于用户而言,此次升级意味着可以将更多重要、复杂的工作委托给AI,推动“可委托”成为下一代AI的核心门槛。

编者按:Anthropic 发布 Claude Opus 4.8,六项核心基准拿下五项第一,价格维持不变;Claude Code 加入动态工作流,下一代 Mythos 级模型也已进入市场预期。

相比单纯的性能提升,这次发布更值得关注的是,Anthropic 开始将「可信」塑造成前沿模型的核心卖点。

在代码诚实度测试中,Opus 4.8 对自身错误的漏报率大幅下降;在 Claude Code 中,它可以调度多个子 Agent,并在结果交付前引入对抗式自检。这些变化共同指向一个现实问题:当 AI 从聊天窗口进入真实工作流,用户最担心的往往不是模型无法完成任务,而是它在出错时依然给出一份看似完整、流畅且自洽的答案。

因此,Opus 4.8 的意义不止于一次模型升级,也释放出一个清晰的行业信号:前沿模型的竞争正在从单纯追逐 benchmark,转向对可靠性、可验证性和错误暴露能力的争夺。对于企业和专业用户来说,下一阶段 AI 的核心门槛,将越来越取决于模型是否值得被委托。

这也是 Agent 真正走向可用的前提。模型需要完成更多任务,也需要让人敢于把更重要、更复杂的任务交给它。

以下为原文:

Anthropic 今天发布了 Claude Opus 4.8。在发布卡列出的六项基准测试中,它拿下了其中五项第一。

我最关注的关键变化是:在 Anthropic 的代码总结诚实度测试中,Opus 4.7 有 19.7% 的情况下没有标出自己的错误;而 Opus 4.8 这一比例降到了 3.7%。同样的任务,它对自身工作的错误识别能力提升了大约五倍。Anthropic 在公告中将其概括为「4 倍」。不管怎么算,这都是决定你能否把真实工作交给这个模型、然后放心离开的关键,也比发布卡上的任何一个基准分数都更重要。

实际发布了什么

先说简版,再进入具体数字:

可靠性真正提升了。 除了上面提到的代码诚实度数据之外,Opus 4.8 也是首个在两项尽职测试中拿到「字面意义上的零」的 Claude 模型:它将「错误汇报有缺陷结果」的频率从 0.25 降到了 0.00,将「懒惰调查」的发生率从 25% 降到了 0%。过度自信的错误回答下降了约 11 倍。它偏袒自身工作的倾向,也就是 4.7 中可测量到的一种偏差,已经消失。

Claude Code 中加入了动态工作流,目前是研究预览版。 Claude 现在会自己编写编排脚本,在一次会话中并行调度数十到数百个子 Agent,并运行独立的对抗性 Agent,在结果呈现给你之前尝试反驳这些结果。这是 Opus 4.6 中提出的「Agent 团队」思路,如今变成了自动化能力。

它在自己的发布卡上领先,但并非全面领先。 六项中赢了五项。GPT-5.5 在终端操作任务上仍然领先。而且在系统卡里,还藏着一些 Anthropic 没放到展示幻灯片上的诚实退步,下文会展开。

价格没有变化。 仍然是每百万输入 token 5 美元、每百万输出 token 25 美元,与 4.7 相同。不过快速模式现在比之前便宜三倍,尽管它仍然属于溢价档,价格为 10 美元 / 50 美元。

Mythos 要来了。 Anthropic 明确表示,受限访问、能力极强的 Mythos 级模型将在未来几周到来。Opus 4.8 是通往它的公开入口。

官方发布卡:基准测试图景

下面是官方发布卡,用我们的配色呈现。

其中有一项打破了横扫局面,而且这项很重要。在 Terminal-Bench 2.1 上,也就是测试模型能否通过终端完成长程 Agent 任务的基准中,GPT-5.5 仍以 78.2% 领先 Opus 4.8 的 74.6%。Anthropic 把这个失利放在了自己的发布卡上,而不是选择隐藏。我们在 GPT-5.5 发布时提到的「Agent 与工匠」分野还没有完全弥合:GPT-5.5 仍是更强的纯终端操作者,而 Opus 4.8 在大多数专业用户真正关心的工作上更像一个更强的工程师,比如真实世界编码、专家推理、计算机使用和知识工作。

发布卡之外

发布卡只展示了六项基准。244 页的系统卡报告了 40 多项测试,其中最有意思的结果并不在幻灯片上。以下几项值得注意:

数学能力提升了 27 个百分点。 在 USAMO 2026 上,也就是今年 3 月举行的美国数学奥林匹克竞赛中,Opus 4.8 拿到了 96.7%,而 4.7 是 69.3%。由于这场比赛发生在 Opus 4.8 的训练截止时间之后,因此不存在数据污染问题。这是整张卡中最大的一次代际跃升。

长上下文场景下优势拉开。 在一项百万 token 图推理测试中,Opus 4.8 得分 68.1,而 4.7 为 40.3,GPT-5.5 为 45.4。上下文越长、任务越难,它的领先幅度越明显。

多 Agent 才是它真正登顶的地方。 单个 Opus 4.8 Agent 在网页研究任务上落后于 Gemini,分别为 84.3 和 85.9。但如果让一个编排器调度一组子 Agent,它的得分可以达到 88.5%,成为已报告结果中的最高分;一个五 Agent 团队还能用五分之一的时间,达到单个 Agent 最佳成绩。这正是动态工作流功能在基准测试中的体现。

token 效率出现质变。 在最难的编码测试中,Opus 4.8 在最低努力设置下,就能达到 Opus 4.7 在最高努力设置下的表现。也就是说,你可以用更少的 token 成本拿到过去的峰值表现。

它跨过了此前没有模型跨过的门槛。 在 Harvey 的 Legal Agent Benchmark 上,只有当任务中的每一项评分标准全部通过,任务才算成功。Opus 4.8 是第一个在这种「全通过」标准上排名第一的模型。它通过了 89% 的单项标准,但完整任务通过率只有 9.6%,这也说明真实法律工作的要求有多严苛。

也有诚实呈现的退步。 有三件事确实比 4.7 更差,Anthropic 在系统卡中也承认了。GPQA Diamond,也就是专家科学测试,从 94.2 滑落到 93.6。计算机使用场景下的拒答能力和抵抗提示注入的能力都有所退步,因此 4.8 在 Agent 场景中更容易被操纵。另外,在一项为期一年的模拟商业测试中,它最终剩下的现金只有 4.7 的三分之一。这些都没有出现在发布卡上,也正因如此,才更值得被指出来。

与开源权重模型相比,它处在什么位置

发布卡只把 Opus 4.8 与其他闭源前沿模型进行比较。如果把视野扩展到现在许多团队正在测试的廉价开源权重模型,图景几乎就是 2026 年 AI 产业的缩影:Opus 4.8 在能力上领先,但与免费、可自托管模型之间的差距已经只剩几个百分点,而价格差距却极其巨大。

上图包含了八个模型的完整比较。DeepSeek 的价格反映了其永久性 75% 降价;Qwen Max 的价格尚未公布。

Opus 4.8 在编码基准上直接获胜。但 Qwen3.7-Max 这个你可以自行运行的开源模型,得分达到 60.6,只落后约 9 分。DeepSeek V4-Pro 得分 55.4,而其输出价格大约只有 Opus 的三十分之一。对于最高风险的工程任务来说,每百万输出 token 25 美元的差距是值得付的。对于大量日常工作来说,这个差距越来越不值得。而这正是每个严肃团队现在都在计算的账。

这对你意味着什么

如果你正在使用 Opus 4.7,那么这就是一次免费升级。价格不变,数据更好,对自身输出的判断也明显更可靠。切换过去就可以了。

更有意思的问题是:现在你愿意把哪些工作交给它?每个读者心里都有一条线,区分「我可以让 AI 做的任务」和「我必须亲自做的任务,因为我还不能信任交接」。4.8 的可靠性提升,意味着你可以把这条线往前推一步。模型更擅长标出自己的不确定性,这降低了「无声错误交接」的成本,也扩大了值得委托给模型的任务范围。这就是诚实度数据在实际使用中的含义,它比任何单项分数都更重要。

这也和我们上周写过的内容相呼应。Anthropic 自己的 AI Fluency 研究发现,当模型产出看起来很 polished、很完整时,人们会显著更不容易注意到缺失的上下文。答案看起来已经完成了,于是我们就停止检查。Opus 4.8 是从模型侧去攻击这个失败模式:它更擅长告诉你,一个看起来干净完整的答案哪里可能还有软肋。它不能替代你的判断力,但它能给你的判断力提供抓手。

如果你使用 Claude Code,本周可以拿一个真正的大任务试试动态工作流,比如一次迁移,或者对大量文件进行全面检查,同时留意 token 计量器。这个能力是真实的,对抗式自检也是让输出更可信的关键。但成本也是真实的。这是为那些单个 Agent 难以完成的大任务准备的工具,不应成为你的日常默认选项。

接下来:Mythos,几周内到来

这次发布中最具前瞻性的表述,其实并不关于 4.8。Anthropic 表示 Mythos 级模型将在未来几周到来,并把 Opus 4.8 定位为通往它的公开一步。

你需要理解这意味着什么。Mythos 是 Anthropic 内部一直在进行基准测试的受限前沿模型,它在几乎所有指标上都超过已发布的 Opus 4.8:在 SWE-bench Verified 上达到 93.9%;在网络安全测试中,它能针对当前浏览器中大多数目标生成可运行漏洞利用,而 Opus 4.8 的成功率不到 10%。它此前大约只开放给 52 家经过审核的机构,价格是标准 Opus 的五倍,被当作基础设施,而不是普通产品。

因此,当一个更强大的 Mythos 级模型在未来几周落地时,应该用「两类市场」的框架来理解它:一类是商品化层,也就是 Opus 4.8,广泛开放、价格不变、越来越受到免费开源模型追赶;另一类是受控前沿层,也就是 Mythos,昂贵、访问受限。这两者并不是割裂的产品,而是在同一条连续能力线上的不同层级。4.8 中的可靠性工作,正是你在真正目标是「让模型在更少监督下运行」之前必须先构建的东西。而这个目标现在距离我们不是几个季度,而是几周。

背景:这条线是怎么走到这里的

如果你已经跟丢了过去四个月的节奏,可以这样理解:Opus 4.6 在 2 月带来了 Agent 团队,Sonnet 4.6 带来了价格坍缩,Opus 4.7 在 4 月带来了推理跃升,而 Mythos 则是旁边隐约可见的受限天花板。Opus 4.8 把其中两条线索接了起来:它接续了 4.6 的编排叙事,同时也是通向 Mythos 的入口。

这种发布节奏本身,就是隐藏在所有表面变化之下的关键事实。旗舰模型在几个月内从 4.5、4.6、4.7 走到 4.8,而你今天为团队标准化采用的模型,到秋天可能已经不是你实际运行的那个模型。这也是为什么,比起投资某个具体模型的使用技巧,更应该投资那些能跨模型迁移的能力,比如清晰委托和严格验证。

基准测试横扫会获得截图传播。但真正发生变化的地方更小,也更重要:这是第一个 Claude 版本,其核心卖点不再只是「它更聪明」,而是「你可以把更多事情托付给它」。在 Agent 真正变得有用之前,整个行业都必须朝这个方向走;而这部分能力,也最难被放进一张图表里。

你现在的界线在哪里?哪些工作你愿意交给模型,哪些仍然必须自己做?又需要发生什么,才会让你愿意把这条线再往前推一步?

相关问答

QClaude Opus 4.8在哪些方面提升了其可靠性,使其成为可信的核心卖点?

AClaude Opus 4.8在可靠性方面有多项关键提升:1. 在代码诚实度测试中,对自身错误的漏报率从Opus 4.7的19.7%大幅降至3.7%,错误识别能力提升约5倍。2. 在两项尽职测试中首次实现零失误(‘错误汇报有缺陷结果’和‘懒惰调查’)。3. 过度自信的错误回答下降约11倍,且模型偏袒自身工作的倾向已消失。这些改进旨在解决用户最担心的‘无声错误交接’问题,即模型在出错时仍给出看似完整流畅的错误答案。

QClaude Code新加入的‘动态工作流’功能具体是如何工作的?

AClaude Code新加入的‘动态工作流’功能目前处于研究预览版。其核心机制是:模型可以自己编写编排脚本,在一次会话中并行调度数十到数百个子Agent来协同完成任务。关键创新点在于引入了独立的对抗性Agent(对抗式自检),这些Agent会在最终结果呈现给用户之前,尝试对主Agent或其它子Agent产生的结果进行反驳或校验,从而提高最终输出的可信度和质量。这是对Opus 4.6中提出的‘Agent团队’思路的自动化实现。

Q根据文章,Opus 4.8在基准测试上表现如何?是否有不足之处?

AOpus 4.8在官方发布卡列出的六项核心基准测试中,赢得了五项第一,表现优异。其在数学能力(USAMO 2026提升27个百分点)、长上下文推理、多Agent协作及token效率方面均有显著进步。然而,它并非全面领先:在终端操作任务基准(Terminal-Bench 2.1)上仍落后于GPT-5.5。此外,根据更详细的系统卡,它也存在一些退步:GPQA Diamond专家科学测试分数略有下滑;在计算机使用场景下的拒答能力和抵抗提示注入的能力有所退步;在一项模拟商业测试中,最终剩余现金仅为4.7的三分之一。

Q文章提到‘Mythos级模型’即将到来,它是什么?与Opus 4.8有何关系?

AMythos是Anthropic内部基准测试中能力极强的受限前沿模型,其性能在几乎所有指标上都超过已发布的Opus 4.8(例如在SWE-bench Verified上达到93.9%)。此前它仅开放给少数经过审核的机构,价格昂贵,被视作基础设施而非普通产品。Anthropic明确表示,Mythos级模型将在未来几周内到来,而Opus 4.8被定位为通往它的‘公开入口’和‘商品化层’。两者代表同一条能力线上的不同层级:Opus 4.8广泛开放、价格稳定;Mythos则昂贵、访问受限,旨在‘让模型在更少监督下运行’。

Q对于普通用户和企业团队,Claude Opus 4.8的发布意味着什么?应该如何调整使用策略?

A对于现有Opus 4.7用户,这是一次免费升级,建议直接切换以获得更好的性能和可靠性。此次发布的核心意义在于,用户可以将‘信任边界’向前推移,把更多之前因担心‘无声错误’而必须亲力亲为的重要、复杂任务委托给模型。对于使用Claude Code的用户,可以利用新的动态工作流功能处理大型任务(如代码迁移、全面审查),但需注意其较高的token成本,不应作为日常默认选项。更宏观的策略启示是:鉴于模型迭代速度极快,与其过度投资某个具体模型的使用技巧,不如培养‘清晰委托’和‘严格验证’等能跨模型迁移的核心能力,并关注开源模型与闭源模型在成本与性能之间的权衡。

你可能也喜欢

比特币威科夫吸筹模式即将做出无人预料的举动

一位加密货币分析师警告称,比特币目前正在演绎其整个市场历史上最痛苦的模式之一。专家指出,比特币已形成经典的“威科夫吸筹模式”。该百年市场理论描述了大机构和富豪在重大上涨前于低位秘密买入资产的行为。分析师预测,在出现任何重大价格上涨之前,此模式可能引发比特币价格严重暴跌。 分析师NoName指出,比特币目前处于关键阶段,其市场结构闪现出潜在价格崩盘的警告信号。他表示,威科夫吸筹模式的出现表明,大型机构参与者和鲸鱼可能正在故意压制价格、制造混乱。此模式的唯一目的是在重大价格反弹前,震出尽可能多的普通投资者。 根据其分析图表,比特币已在周线图上完成了该痛苦模式的早期阶段,初步支撑、抛售高潮和二次测试均已完成,意味着威科夫吸筹结构的基础已牢固确立。分析师呼吁比特币价格最终再跌一程至52,000美元,以完成结构的完全重置。此低位与威科夫吸筹理论的“弹簧”阶段相符,通常旨在触发止损、引发恐慌性抛售,让多数投资者相信比特币将跌得更低。 NoName的分析认为,跌向52,000美元周期底部的过程将是“聪明钱”可能大举介入的区域,也是极佳的买入机会。若威科夫吸筹结构按其图表所示完整演绎,比特币后续可能突破约76,000美元的最后支撑点,进入“强势信号”突破阶段,价格或飙升至110,000美元。

bitcoinist3小时前

比特币威科夫吸筹模式即将做出无人预料的举动

bitcoinist3小时前

交易

现货
合约
活动图片