Claude Opus4.8发布，Anthropic开始把「可信」做成产品卖点

marsbit发布于2026-05-29更新于2026-05-29

文章摘要

Anthropic发布了Claude Opus 4.8模型，在六项核心基准测试中取得五项第一，价格维持不变。此次发布的核心卖点并非单纯性能提升，而是显著增强了模型的“可信度”。在代码诚实度测试中，模型对自身错误的漏报率从19.7%大幅降至3.7%。它更擅长暴露不确定性，减少“过度自信的错误回答”，降低了用户因收到看似完整流畅实则错误的答案而带来的风险。 Claude Code功能新增了动态工作流（研究预览版），能自动调度多个子Agent并行工作，并引入对抗性自检机制在交付结果前进行验证，进一步提升了复杂任务输出的可靠性。模型在数学（USAMO 2026得分提升27%）、长上下文推理和多Agent协作等任务上表现突出。不过，在终端操作任务上仍稍逊于GPT-5.5，且在少数领域（如抗提示注入能力）存在退步。文章指出，前沿模型的竞争正从追逐基准分数转向对可靠性、可验证性的争夺。同时，Opus 4.8被定位为通往更强大、受限访问的“Mythos”级模型的公开入口，该模型预计将在未来几周内推出。对于用户而言，此次升级意味着可以将更多重要、复杂的工作委托给AI，推动“可委托”成为下一代AI的核心门槛。

编者按:Anthropic 发布 Claude Opus 4.8,六项核心基准拿下五项第一,价格维持不变;Claude Code 加入动态工作流,下一代 Mythos 级模型也已进入市场预期。

相比单纯的性能提升,这次发布更值得关注的是,Anthropic 开始将「可信」塑造成前沿模型的核心卖点。

在代码诚实度测试中,Opus 4.8 对自身错误的漏报率大幅下降;在 Claude Code 中,它可以调度多个子 Agent,并在结果交付前引入对抗式自检。这些变化共同指向一个现实问题:当 AI 从聊天窗口进入真实工作流,用户最担心的往往不是模型无法完成任务,而是它在出错时依然给出一份看似完整、流畅且自洽的答案。

因此,Opus 4.8 的意义不止于一次模型升级,也释放出一个清晰的行业信号:前沿模型的竞争正在从单纯追逐 benchmark,转向对可靠性、可验证性和错误暴露能力的争夺。对于企业和专业用户来说,下一阶段 AI 的核心门槛,将越来越取决于模型是否值得被委托。

这也是 Agent 真正走向可用的前提。模型需要完成更多任务,也需要让人敢于把更重要、更复杂的任务交给它。

以下为原文:

Anthropic 今天发布了 Claude Opus 4.8。在发布卡列出的六项基准测试中,它拿下了其中五项第一。

我最关注的关键变化是:在 Anthropic 的代码总结诚实度测试中,Opus 4.7 有 19.7% 的情况下没有标出自己的错误;而 Opus 4.8 这一比例降到了 3.7%。同样的任务,它对自身工作的错误识别能力提升了大约五倍。Anthropic 在公告中将其概括为「4 倍」。不管怎么算,这都是决定你能否把真实工作交给这个模型、然后放心离开的关键,也比发布卡上的任何一个基准分数都更重要。

实际发布了什么

先说简版,再进入具体数字:

可靠性真正提升了。除了上面提到的代码诚实度数据之外,Opus 4.8 也是首个在两项尽职测试中拿到「字面意义上的零」的 Claude 模型:它将「错误汇报有缺陷结果」的频率从 0.25 降到了 0.00,将「懒惰调查」的发生率从 25% 降到了 0%。过度自信的错误回答下降了约 11 倍。它偏袒自身工作的倾向,也就是 4.7 中可测量到的一种偏差,已经消失。

Claude Code 中加入了动态工作流,目前是研究预览版。 Claude 现在会自己编写编排脚本,在一次会话中并行调度数十到数百个子 Agent,并运行独立的对抗性 Agent,在结果呈现给你之前尝试反驳这些结果。这是 Opus 4.6 中提出的「Agent 团队」思路,如今变成了自动化能力。

它在自己的发布卡上领先,但并非全面领先。六项中赢了五项。GPT-5.5 在终端操作任务上仍然领先。而且在系统卡里,还藏着一些 Anthropic 没放到展示幻灯片上的诚实退步,下文会展开。

价格没有变化。仍然是每百万输入 token 5 美元、每百万输出 token 25 美元,与 4.7 相同。不过快速模式现在比之前便宜三倍,尽管它仍然属于溢价档,价格为 10 美元 / 50 美元。

Mythos 要来了。 Anthropic 明确表示,受限访问、能力极强的 Mythos 级模型将在未来几周到来。Opus 4.8 是通往它的公开入口。

官方发布卡:基准测试图景

下面是官方发布卡,用我们的配色呈现。

其中有一项打破了横扫局面,而且这项很重要。在 Terminal-Bench 2.1 上,也就是测试模型能否通过终端完成长程 Agent 任务的基准中,GPT-5.5 仍以 78.2% 领先 Opus 4.8 的 74.6%。Anthropic 把这个失利放在了自己的发布卡上,而不是选择隐藏。我们在 GPT-5.5 发布时提到的「Agent 与工匠」分野还没有完全弥合:GPT-5.5 仍是更强的纯终端操作者,而 Opus 4.8 在大多数专业用户真正关心的工作上更像一个更强的工程师,比如真实世界编码、专家推理、计算机使用和知识工作。

发布卡之外

发布卡只展示了六项基准。244 页的系统卡报告了 40 多项测试,其中最有意思的结果并不在幻灯片上。以下几项值得注意:

数学能力提升了 27 个百分点。在 USAMO 2026 上,也就是今年 3 月举行的美国数学奥林匹克竞赛中,Opus 4.8 拿到了 96.7%,而 4.7 是 69.3%。由于这场比赛发生在 Opus 4.8 的训练截止时间之后,因此不存在数据污染问题。这是整张卡中最大的一次代际跃升。

长上下文场景下优势拉开。在一项百万 token 图推理测试中,Opus 4.8 得分 68.1,而 4.7 为 40.3,GPT-5.5 为 45.4。上下文越长、任务越难,它的领先幅度越明显。

多 Agent 才是它真正登顶的地方。单个 Opus 4.8 Agent 在网页研究任务上落后于 Gemini,分别为 84.3 和 85.9。但如果让一个编排器调度一组子 Agent,它的得分可以达到 88.5%,成为已报告结果中的最高分;一个五 Agent 团队还能用五分之一的时间,达到单个 Agent 最佳成绩。这正是动态工作流功能在基准测试中的体现。

token 效率出现质变。在最难的编码测试中,Opus 4.8 在最低努力设置下,就能达到 Opus 4.7 在最高努力设置下的表现。也就是说,你可以用更少的 token 成本拿到过去的峰值表现。

它跨过了此前没有模型跨过的门槛。在 Harvey 的 Legal Agent Benchmark 上,只有当任务中的每一项评分标准全部通过,任务才算成功。Opus 4.8 是第一个在这种「全通过」标准上排名第一的模型。它通过了 89% 的单项标准,但完整任务通过率只有 9.6%,这也说明真实法律工作的要求有多严苛。

也有诚实呈现的退步。有三件事确实比 4.7 更差,Anthropic 在系统卡中也承认了。GPQA Diamond,也就是专家科学测试,从 94.2 滑落到 93.6。计算机使用场景下的拒答能力和抵抗提示注入的能力都有所退步,因此 4.8 在 Agent 场景中更容易被操纵。另外,在一项为期一年的模拟商业测试中,它最终剩下的现金只有 4.7 的三分之一。这些都没有出现在发布卡上,也正因如此,才更值得被指出来。

与开源权重模型相比,它处在什么位置

发布卡只把 Opus 4.8 与其他闭源前沿模型进行比较。如果把视野扩展到现在许多团队正在测试的廉价开源权重模型,图景几乎就是 2026 年 AI 产业的缩影:Opus 4.8 在能力上领先,但与免费、可自托管模型之间的差距已经只剩几个百分点,而价格差距却极其巨大。

上图包含了八个模型的完整比较。DeepSeek 的价格反映了其永久性 75% 降价;Qwen Max 的价格尚未公布。

Opus 4.8 在编码基准上直接获胜。但 Qwen3.7-Max 这个你可以自行运行的开源模型,得分达到 60.6,只落后约 9 分。DeepSeek V4-Pro 得分 55.4,而其输出价格大约只有 Opus 的三十分之一。对于最高风险的工程任务来说,每百万输出 token 25 美元的差距是值得付的。对于大量日常工作来说,这个差距越来越不值得。而这正是每个严肃团队现在都在计算的账。

这对你意味着什么

如果你正在使用 Opus 4.7,那么这就是一次免费升级。价格不变,数据更好,对自身输出的判断也明显更可靠。切换过去就可以了。

更有意思的问题是:现在你愿意把哪些工作交给它?每个读者心里都有一条线,区分「我可以让 AI 做的任务」和「我必须亲自做的任务,因为我还不能信任交接」。4.8 的可靠性提升,意味着你可以把这条线往前推一步。模型更擅长标出自己的不确定性,这降低了「无声错误交接」的成本,也扩大了值得委托给模型的任务范围。这就是诚实度数据在实际使用中的含义,它比任何单项分数都更重要。

这也和我们上周写过的内容相呼应。Anthropic 自己的 AI Fluency 研究发现,当模型产出看起来很 polished、很完整时,人们会显著更不容易注意到缺失的上下文。答案看起来已经完成了,于是我们就停止检查。Opus 4.8 是从模型侧去攻击这个失败模式:它更擅长告诉你,一个看起来干净完整的答案哪里可能还有软肋。它不能替代你的判断力,但它能给你的判断力提供抓手。

如果你使用 Claude Code,本周可以拿一个真正的大任务试试动态工作流,比如一次迁移,或者对大量文件进行全面检查,同时留意 token 计量器。这个能力是真实的,对抗式自检也是让输出更可信的关键。但成本也是真实的。这是为那些单个 Agent 难以完成的大任务准备的工具,不应成为你的日常默认选项。

接下来:Mythos,几周内到来

这次发布中最具前瞻性的表述,其实并不关于 4.8。Anthropic 表示 Mythos 级模型将在未来几周到来,并把 Opus 4.8 定位为通往它的公开一步。

你需要理解这意味着什么。Mythos 是 Anthropic 内部一直在进行基准测试的受限前沿模型,它在几乎所有指标上都超过已发布的 Opus 4.8:在 SWE-bench Verified 上达到 93.9%;在网络安全测试中,它能针对当前浏览器中大多数目标生成可运行漏洞利用,而 Opus 4.8 的成功率不到 10%。它此前大约只开放给 52 家经过审核的机构,价格是标准 Opus 的五倍,被当作基础设施,而不是普通产品。

因此,当一个更强大的 Mythos 级模型在未来几周落地时,应该用「两类市场」的框架来理解它:一类是商品化层,也就是 Opus 4.8,广泛开放、价格不变、越来越受到免费开源模型追赶;另一类是受控前沿层,也就是 Mythos,昂贵、访问受限。这两者并不是割裂的产品,而是在同一条连续能力线上的不同层级。4.8 中的可靠性工作,正是你在真正目标是「让模型在更少监督下运行」之前必须先构建的东西。而这个目标现在距离我们不是几个季度,而是几周。

背景:这条线是怎么走到这里的

如果你已经跟丢了过去四个月的节奏,可以这样理解:Opus 4.6 在 2 月带来了 Agent 团队,Sonnet 4.6 带来了价格坍缩,Opus 4.7 在 4 月带来了推理跃升,而 Mythos 则是旁边隐约可见的受限天花板。Opus 4.8 把其中两条线索接了起来:它接续了 4.6 的编排叙事,同时也是通向 Mythos 的入口。

这种发布节奏本身,就是隐藏在所有表面变化之下的关键事实。旗舰模型在几个月内从 4.5、4.6、4.7 走到 4.8,而你今天为团队标准化采用的模型,到秋天可能已经不是你实际运行的那个模型。这也是为什么,比起投资某个具体模型的使用技巧,更应该投资那些能跨模型迁移的能力,比如清晰委托和严格验证。

基准测试横扫会获得截图传播。但真正发生变化的地方更小,也更重要:这是第一个 Claude 版本,其核心卖点不再只是「它更聪明」,而是「你可以把更多事情托付给它」。在 Agent 真正变得有用之前,整个行业都必须朝这个方向走;而这部分能力,也最难被放进一张图表里。

你现在的界线在哪里?哪些工作你愿意交给模型,哪些仍然必须自己做?又需要发生什么,才会让你愿意把这条线再往前推一步?

你可能也喜欢

TradFi一分钟科普：什么是 TradFi？

了解 TradFi（传统金融）的真正含义：它是驱动资金流动与市场运转的底层系统，甚至加密市场也无法脱离其规则。传统金融构成了全球经济的基础架构。在相关解析内容中，将深度探讨传统金融系统的核心逻辑，并阐述为何连加密货币领域也必须遵循其既定规则。

marsbit1小时前

marsbit1小时前

美伊战火重燃，对冲基金凶猛加仓原油，速度创十年来最快

美伊冲突升级导致全球原油市场格局剧变。对冲基金以近十年来最快速度大举押注布伦特原油上涨，截至7月14日当周，其纯多头头寸增加逾7.5万手，创2016年12月以来最大单周增幅，持仓从七个月低点大幅反弹。油价在过去10天内飙升至约一个月高位。冲突的直接导火索是美国恢复对伊朗军事打击，伊朗随后对霍尔木兹海峡船只发动袭击，严重压缩了这一关键航道的通行量，市场情绪由此前的供应过剩担忧迅速转向空头回补和多头加仓。此外，霍尔木兹海峡受阻收紧了全球柴油、汽油等成品油供应，推动炼油利润率升至历史高位。资金也同步增持取暖油和柴油的纯多头头寸至数月高点。另一方面，乌克兰对俄罗斯炼油厂的持续袭击导致俄罗斯成品油出口大幅下滑，莫斯科随后禁止柴油出口，进一步加剧了全球燃料供应紧张。中东与欧洲两地的供应冲击叠加，共同推高了油价和炼油利润，吸引资金凶猛涌入原油及相关产品多头。

链捕手1小时前

链捕手1小时前

从“国运ETF”到“血色七月”，韩国股市杠杆危机如何拆弹？

韩国股市在7月经历了一场由杠杆ETF引发的史诗级“去杠杆”危机。此前，三星电子和SK海力士的2倍杠杆ETF被包装为“国运”投资品，吸引大量散户涌入。然而，随着半导体产业预期转向、市场回调，这些杠杆工具迅速变成“绞肉机”。在短短9个交易日内，散户扎堆的个股杠杆ETF浮亏超8.8万亿韩元，个人投资者持仓占比高达60%。过去一个月，散户损失约14.5亿美元，超过120万个账户触发追加保证金通知，其中46万个账户因无法补足而被强平，超六成为20-30岁年轻人，部分甚至出现负债。危机在7月中旬达到顶峰，SK海力士单日暴跌超15%，相关2倍做多ETF跌30%，KOSPI指数重挫近9%并触发熔断。杠杆ETF内置的每日再平衡机制放大了下跌，形成踩踏。同时，韩国商业银行受限于全年家庭贷款增速硬顶，下半年信贷近乎枯竭，散户在暴跌中无处融资补仓。韩国央行意外加息25基点至2.75%，进一步加剧市场恐慌。面对舆论压力，总统李在明紧急介入。金融监管部门联合推出七项紧急措施，包括暂停新开个股杠杆账户、提高保证金比例、限制高风险产品销售等。监管策略并非强行刺破泡沫，而是通过抬高门槛、切断新增资金，让市场被动缓慢出清。目前，韩国股市仍有超35万亿韩元信用融资余额悬顶。这场危机警示，脱离真实收入与严密监管的杠杆创新，终将堆砌泡沫，而代价往往由最弱势的散户承担。

marsbit1小时前

marsbit1小时前

10万美元一个月，特朗普开始卖“Alpha”了

特朗普的母公司TMTG计划将Truth Social平台上的特朗普实时发帖信息，以每月10万美元的高价出售给金融机构。购买此服务的机构能比公众提前几秒获取特朗普的政策表态等动态，用于捕捉市场交易机会。金融市场中，信息的时间差极具价值。特朗普的言论常引发股市、汇市及加密市场的剧烈波动，因此这几秒的先机对量化基金等机构意味着潜在的巨大盈利。这本质上是在出售一种“总统Alpha”。此前，彭博等终端也出售实时数据，但其信息是聚合而来的二手情报。而特朗普作为直接信息源，提供的是独家一手信息，形成了独特的“Trump Terminal”商业模式。这种将总统影响力直接商业化的做法，特朗普堪称首创。其底层逻辑是持续将“特朗普”IP转化为NFT、社交平台乃至数据服务等可售卖产品。在他看来，政治影响力本身就是一种可定价、可出售的资产。

Odaily星球日报1小时前

Odaily星球日报1小时前

全面解析XRP价格闪现2024式看涨信号及其当前意义

XRP近期出现与2024年大涨前相似的市场结构。数据显示，其预估杠杆率（ELR）已降至低位，类似于2024年大涨前的去杠杆阶段，当时该阶段后价格飙升了790%。目前，XRP未平仓合约量在过去一年从109.4亿美元降至23.9亿美元，约78%的杠杆资金已流出市场。与此同时，链上数据表明鲸鱼可能在持续积累XRP。交易所储备从7月10日起出现下降，约5700万美元的XRP从交易所流出至私人钱包，这通常被视为积累信号。此外，网络价值与交易量比率（NVT）读数较低，表明XRP网络交易活动相对低迷，资产可能处于低估状态。综合来看，XRP市场经历了显著的杠杆清理，同时有大资金在低位吸纳，部分指标重现了2024年牛市前的格局。但分析指出，这并非价格必然上涨的保证，市场仍需要网络活动出现明确增长来确认趋势。

ambcrypto3小时前

ambcrypto3小时前

交易

现货

Claude Opus4.8发布，Anthropic开始把「可信」做成产品卖点

文章摘要

实际发布了什么

官方发布卡:基准测试图景

发布卡之外

与开源权重模型相比,它处在什么位置

这对你意味着什么

接下来:Mythos,几周内到来

背景:这条线是怎么走到这里的

相关问答

你可能也喜欢

TradFi一分钟科普：什么是 TradFi？

美伊战火重燃，对冲基金凶猛加仓原油，速度创十年来最快

从“国运ETF”到“血色七月”，韩国股市杠杆危机如何拆弹？

10万美元一个月，特朗普开始卖“Alpha”了

全面解析XRP价格闪现2024式看涨信号及其当前意义

交易

热门分类

热门标签