刚刚,Claude Opus 4.8 上线,张口就说自己是 DeepSeek、Qwen

marsbit發佈於 2026-05-28更新於 2026-05-28

文章摘要

刚刚,Anthropic发布了旗舰模型Claude Opus 4.8,并宣布完成650亿美元的H轮融资,投后估值达9650亿美元,逼近万亿美元关口。 Opus 4.8在编码、智能体任务、推理和知识工作等方面均有提升,价格保持不变。新模型在长任务和复杂协作中表现更可靠,诚实性提升,更愿意说明不确定性,代码缺陷漏报率约为前代的四分之一。有趣的是,有网友测试发现,Opus 4.8有时会错误地自称是DeepSeek或Qwen,疑似存在模型蒸馏行为。 同时上线的还有多项产品功能,包括可调节模型推理强度的“思考强度控制”,以及处于研究预览阶段的“动态工作流”。后者允许Claude Code处理大规模任务,通过动态编排脚本、并行运行数十到数百个子智能体,来完成如大型代码库迁移等复杂工程。Anthropic以Bun项目从Zig到Rust的迁移为例,展示了该功能在11天内生成约75万行代码的能力。 本轮巨额融资主要用于算力扩张。Anthropic与亚马逊、谷歌、博通、SpaceX等签署了基础设施协议,以获得下一代TPU和GPU容量,支撑其训练和推理需求。公司强调,Claude已成为首个同时登陆AWS、Google Cloud和Microsoft Azure三大云的前沿模型。 综上,Anthropic正从单纯的模型提供商,转向构建集智能模型、开发工具、云平台和算力资源于一体的企业AI工作系统。Opus 4.8是新的模型底座,动态工作流代表产品形态的进化,而巨额融资则为服务更大规模客户提供了基础设施保障。

伴随着 IPO 预期升温,Anthropic 产品模型的节奏也愈发加快。

就在刚刚,Anthropic 接连发布两条重磅消息:一是将旗舰模型升级为 Claude Opus 4.8,二是完成 650 亿美元的 H 轮融资,投后估值达到 9650 亿美元,已逼近万亿美元关口。

对于一家估值已经逼近万亿美元的 AI 公司来说,市场要看的也不再只是模型跑分,而是它能否把智能、工具、开发环境、云平台和算力资源变成一套可规模化交付的基础设施。

换句话说,Anthropic 必须从一家交付好模型的公司,逐渐转向为一家试图重塑企业 AI 工作方式的公司。

加量不加价,Claude Opus 4.8 正式登场

此次发布的 Claude Opus 4.8,是 Anthropic 对旗舰模型 Opus 系列的一次升级。照目前这个模型发布节奏,用网友调侃的话来说,我们大概率能在 GTA 6 发布(不跳票的话,11 月)之前,率先看到 Claude Opus 6。

Anthropic 称,Opus 4.8 建立在 Opus 4.7 基础上,在编码、智能体任务、推理和知识工作等方面均有提升,并且已经面向用户开放,标准使用价格保持不变,仍为每百万输入 token 5 美元、每百万输出 token 25 美元。

开发者也可以通过 Claude API 使用 claude-opus-4-8。

API 价格对比 https://platform.claude.com/docs/en/about-claude/models/overview

从官方披露的信息看,Opus 4.8 的改进覆盖编码、智能体能力、推理能力和实际知识工作任务。

Anthropic 在发布材料中用一张对比表展示了 Opus 4.8 与前代 Opus 4.7 以及其他模型在多项测试中的表现,当然,比起单次回答质量,模型的升级重点还是在长任务和复杂协作中的表现。

真实工作流里,模型往往需要连续处理多步任务,调用工具,检查中间结果,并根据反馈继续推进。Anthropic 表示,早期测试者认为 Opus 4.8 在执行智能体任务时更可靠,判断也更清晰。

Opus 4.8 在诚实性上的提升是一大亮点。

AI 模型常见的问题,是在证据不足时过早下判断,并自信声称已经取得进展。Anthropic 称,Opus 4.8 更愿意说明工作中的不确定性,也更少作出缺乏支撑的判断。

代码任务尤其能体现这种变化。

内部评估显示,Opus 4.8 让自己写出的代码缺陷未经说明地通过的概率, 约为前代的四分之一 。也就是说,新模型在发现风险时更可能提醒用户,而不是把问题留到后续测试或生产环境中。

在对齐和安全方面,Anthropic 延续了自己的核心叙事。Opus 4.8 在欺骗、配合滥用等不对齐行为上的发生率明显低于 Opus 4.7,并接近目前对齐表现最好的模型之一 Claude Mythos Preview。

安全、可靠、可控,仍然是 Anthropic 用来区分自身的一组关键词。随着 Claude 更深地进入企业流程,这些关键词也开始承担更多商业意义。

不过有意思的是,Opus 4.8 发布后,就被网友发现有些不对劲。

https://x.com/realNyarime/status/2060059543820963975

不少网友测试发现,当他们追问 Opus 4.8 的模型身份时,它给出的答案并不总是 Claude。

有时它会把自己认成 Qwen,有时又会报出 DeepSeek 的名字,疑似存在蒸馏的行为。

而当网友在 Claude 官方客户端里提出同样问题时,这类回答通常又不容易复现。原因大概率在于,客户端里的系统提示词和产品层约束更完整。

动态工作流上线,Claude Code 走向多 agents 协作

伴随 Claude Opus 4.8 一同上线的,还有多项产品和开发者功能。

其中,最直接影响 Claude 用户体验的当属 effort control,也就是思考强度调节。

控制项位于模型选择器旁边,顾名思义,用户可以决定 Claude 在一次任务中投入多少推理算力。较高强度下,Claude 会进行更多推理,以换取更好的回答质量;较低强度下,Claude 响应更快,使用额度消耗也更慢。

Anthropic 表示,Opus 4.8 默认采用 high effort,用户还可以选择 extra,在 Claude Code 中对应 xhigh,或者选择 max,让模型投入更多 token。Anthropic 建议,困难任务和长时间运行的异步工作流更适合使用 extra。

真正影响 Claude Code 产品形态的,是 dynamic workflows。

该功能目前处于 research preview,目标是让 Claude Code 处理过去需要更长工程周期的大规模任务。以往按季度规划的工作,现在甚至有机会在数天内完成。

dynamic workflows 的核心机制是,Claude 会根据用户任务动态编写 orchestration scripts,并在单个会话中运行数十到数百个并行 subagents。模型会先规划任务,再分配给多个 subagents,随后检查返回结果,最后向用户汇报。Opus 4.8 上线后,这些 agents 还可以运行更长时间。

该功能主要面向复杂、庞大或历史包袱较重的代码库。典型场景包括全服务范围内查找 bug、性能优化审计、安全审计、大型代码库迁移、框架替换、API 废弃迁移、语言移植,以及对关键方案进行多角度验证。

使用方式上,Anthropic 建议在 dynamic workflows 中打开 auto mode。用户可以直接要求 Claude 创建 workflow,也可以在 Claude Code 中打开 ultracode。ultracode 会把思考强度设为 xhigh,并让 Claude 自动判断当前任务是否适合使用 workflow。

dynamic workflows 当前已经在 Claude Code CLI、Desktop 和 VS Code extension 中开放,面向 Max、Team 和 Enterprise 套餐。其中 Enterprise 在发布时默认关闭,需要管理员在 Claude Code 设置中启用。

该功能也可用于 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry。对于 Max、Team 用户,以及通过 API 使用 Claude Code 的用户,dynamic workflows 默认开启。

Anthropic 用 Bun 迁移案例展示了 dynamic workflows 的上限。Jarred Sumner 使用该功能将 Bun 从 Zig 移植到 Rust,最终生成约 75 万行 Rust 代码,现有测试套件通过率达到 99.8%,从首次提交到合并约用了 11 天。

整个迁移过程由多个 workflow 完成:先为 Zig 代码库中的 struct 字段映射 Rust lifetime,再为每个 .zig 文件生成行为一致的 .rs 文件,数百个 agents 并行工作,每个文件都有两个 reviewer。之后,fix loop 持续运行 build 和 test suite,直到构建和测试通过。迁移完成后,又有 overnight workflow 处理不必要的数据复制问题,并为每类问题打开 PR,供最终审查。

除了 Claude Code,Anthropic 还更新了 Messages API。现在,Messages API 可以在 messages array 内接受 system entries。

开发者可以在任务执行过程中更新 Claude 的指令,同时不破坏 prompt cache,也不必通过 user turn 传递更新。这一能力可用于 agent 运行时更新权限、token 预算或环境上下文。

下一步,Anthropic 还计划推出一个比 Opus 智能水平更高的新模型类别。没错就是那个强的可怕的 Claude Mythos Preview,预计未来数周内可以把 Mythos class models 带给所有客户。

到时候,我们也将第一时间尝尝咸淡。

近万亿美元估值背后,Claude 需要更大的算力底座

与 Claude Opus 4.8 同日发布的另一条消息,是 Anthropic 完成 650 亿美元 H 轮融资。本轮由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 领投,投后估值达到 9650 亿美元。

本轮融资还包括 hyperscalers 的 150 亿美元既有承诺投资,其中包括亚马逊的 50 亿美元。Micron、Samsung、SK hynix 等战略基础设施伙伴也加入其中。Anthropic 称,这些公司在全球 memory、storage 和 logic chips 供应中具有关键作用,能帮助其随着 Claude 需求增长扩大计算能力。

算力扩张是本轮融资背后的关键背景。Anthropic 披露了多项基础设施协议:与亚马逊签署协议,获得最高 5 吉瓦新增容量;与 Google 和 Broadcom 签署协议,获得 5 吉瓦下一代 TPU 容量;与 SpaceX 达成协议,可使用 Colossus 1 和 Colossus 2 中的 GPU 容量。

Anthropic 还强调,Claude 是首个同时进入 AWS、Google Cloud 和 Microsoft Azure 三大云平台的前沿模型。不过,AWS 仍是 Anthropic 的主要云服务商和训练合作伙伴。

融资的背后,其实是 Anthropic 商业定位的变化。早期大模型公司比拼的是模型能力和通用聊天体验,而现在企业客户更关心的是 AI 能否进入核心流程,能否处理复杂任务,能否被接入开发环境、云平台和内部系统。

Claude Code、Cowork、effort control、dynamic workflows 和 Messages API 更新,都在围绕这个方向展开。

把产品发布和融资放在一起看,Anthropic 正在同时扩张三类能力。

第一是模型能力,Opus 4.8 提高了编码、推理、智能体任务和知识工作表现,并强化了对不确定性的表达。

第二是工作流能力,dynamic workflows 让 Claude Code 从单次代码辅助走向更复杂的工程执行和审查。

第三是基础设施能力,650 亿美元融资、超大规模云厂商承诺投资、内存和芯片伙伴加入,以及与 Amazon、Google、Broadcom、SpaceX 的算力协议,为后续模型训练和推理需求提供资源。

这也是 Anthropic 估值逼近万亿美元的核心逻辑。Claude 不再只是一个 AI 聊天窗口,而是正在成为连接模型、代码、企业流程、云平台和算力基础设施的工作系统。

Opus 4.8 是这套系统中的最新模型底座,dynamic workflows 是面向复杂工程任务的产品形态,650 亿美元融资和算力扩张则是继续把这套系统推向更大规模客户的前提条件。

AI 的潮水把 Anthropic 推到了浪尖,站在这个高度,往前是乘风,往后是沉船落水,没有第三种姿势。

本文来自微信公众号“APPSO”,作者:发现明日产品的APPSO

相關問答

QClaude Opus 4.8模型的主要改进有哪些?

AClaude Opus 4.8在编码、智能体任务、推理和知识工作等方面均有提升。重点改进在于长任务和复杂协作中的表现,在诚实性上也有显著提升,更愿意说明工作中的不确定性。在对齐和安全方面,其在欺骗、配合滥用等不对齐行为上的发生率低于前代。

Q文章中提到Claude Opus 4.8存在什么有趣的现象?

A当网友测试追问Opus 4.8的模型身份时,它有时会声称自己是Qwen或DeepSeek,疑似存在知识蒸馏或系统提示词不完整的现象。但在Claude官方客户端中,由于约束更完整,这类回答不易复现。

Q什么是“dynamic workflows”?它主要面向什么场景?

A“dynamic workflows”是伴随Opus 4.8上线的一项新功能,处于研究预览阶段。其核心机制是让Claude根据用户任务动态编写编排脚本,在单个会话中运行数十到数百个并行子智能体来规划、执行、检查任务。它主要面向复杂、庞大或历史包袱重的代码库,用于全服务查找bug、安全审计、大型代码库迁移、语言移植等复杂工程任务。

QAnthropic此次完成的H轮融资规模及估值是多少?融资主要用于什么?

AAnthropic完成了650亿美元的H轮融资,投后估值达到9650亿美元。本轮融资主要用于算力扩张,包括获得亚马逊、谷歌等云厂商的承诺投资,以及与内存、芯片供应商的战略合作,旨在为后续模型训练和推理需求提供强大的基础设施和计算资源。

Q文章认为Anthropic的商业定位正在发生什么变化?

A文章认为Anthropic正从一家单纯交付优秀AI模型的公司,转向为一家试图重塑企业AI工作方式的公司。其目标是打造一套连接智能、工具、开发环境、云平台和算力资源的可规模化交付的基础设施,让AI能深入企业核心流程,处理复杂任务,并融入开发与内部系统。

你可能也喜歡

Circle 将 Zama 协议地址列入黑名单,冻结价值 1260 万美元的用户资金 - 详情

稳定币发行商Circle已将一个与隐私协议Zama相关的智能合约列入黑名单,冻结了约1260万美元的用户资金。此次冻结首先由链上调查员ZachXBT发现,涉及Zama在以太坊上部署的保密USDC(cUSDC)合约。该合约地址在Zama的公开文档中可查,其冻结过程可被实时追踪和验证。 进一步分析显示,此次冻结可能与资产管理和收益协议Overnight Finance近期的争议及法律问题间接相关。数据显示,一个疑似与Overnight Finance相关的钱包于2026年5月11日向Zama合约存入约1240万美元USDC。Overnight Finance近期正面临治理纠纷和可能被团队“拉地毯”的指控,并因此进行了国库资产分配投票。此外,该公司还卷入一起民事诉讼,原告之一是DeFi领域以激进治理策略闻名的Patagon Management。尽管Circle的行动与这些事件之间尚无直接因果证据,但法律程序、资金流动与冻结事件的重叠,引发了人们对DeFi协议间风险传导的担忧。 Circle此次单方面行动再次引发对中心化发行商透明度的批评。据ZachXBT称,Zama团队在合约被列入黑名单前似乎未获任何通知。这加剧了人们对中心化实体在无预警情况下影响去中心化应用及其用户的担忧。此前在2026年3月,Circle曾冻结多个实体相关的热钱包而未公开说明理由。本次行动则更进一步,直接冻结了协议级别的资金池合约,而非独立钱包,这引发了人们对所谓去中心化系统中托管风险的质疑。截至目前,Circle尚未就冻结Zama合约的原因发布官方解释。

bitcoinist24 分鐘前

Circle 将 Zama 协议地址列入黑名单,冻结价值 1260 万美元的用户资金 - 详情

bitcoinist24 分鐘前

三年之后:回看 2023 年我对 ChatGPT 的判断

作者王健硕在2026年5月回看其于2023年3月对ChatGPT做出的二十条预测,并借助AI代理进行验证。整体看,其大方向判断多正确,但细节和程度常有偏差。 **看对的方面:** - **技术架构**:准确预测RAG(检索增强生成)将成为解决知识更新和幻觉的主流方法,以及LUI(自然语言用户界面)将催生巨大新产业。 - **发展趋势**:预见到“机器人网络”和新的agent寻址系统将出现,中国能快速做出可用大模型并缩小与顶尖差距。 - **本质认知**:正确指出ChatGPT没有意识,图灵测试仅测表象;判断其是巨大进步但非AGI,且短期内不会造成整体失业潮。 **看错或看偏的方面:** - **具体数据错误**:关于GPT-4有100T参数的传闻完全错误。 - **绝对化判断**:断言LLM“不可能”自己学好数学被后来模型在IMO夺金证伪;认为AI生成内容可“规避”版权,实则引发史上最大侵权赔偿。 - **价值与成本误判**:认为价值终落应用层,但最大赢家是算力层(如英伟达);模型成本“5-10亿封顶”的估算严重偏离实际。 - **社会影响误读**:认为ChatGPT的“加权平均”特性可能促进“世界大同”,但实际AI正走向个性化,并可能制造新信息茧房。 **总结规律:** 1. 预测机制和方向比具体数字更可靠。 2. 倾向于高估短期变化速度,低估长期影响程度。 3. 容易忽略问题内部的“分布”差异(如失业影响集中在年轻群体)。 4. 留有餘地、分层表述的判断更经得起时间检验。 5. 一些根本性争议,三年时间仍不足以给出定论。 这次复盘旨在为未来的判断立下更审慎的规矩。

marsbit7 小時前

三年之后:回看 2023 年我对 ChatGPT 的判断

marsbit7 小時前

三年之后:回看 2023 年我对 ChatGPT 的判断

2023年3月,在GPT-4发布前,作者王健硕对ChatGPT的未来做出了二十项预测。三年后的2026年,他使用AI agent对这些判断进行回顾验证,评估其准确性。 **主要看对的方面:** 1. **RAG成为主流**:预测通过外部检索而非修改模型来解决知识更新和幻觉问题,这已成为行业标准架构。 2. **LUI(自然语言界面)兴起**:预测自然语言交互将催生巨大新产业,Agent、MCP协议等发展印证了这一点,但LUI是与GUI共存而非取代。 3. **机器人网络与新寻址系统**:预测Agent将自动协作并需要新寻址方式,MCP、A2A等协议正朝此方向发展。 4. **中国能做出可用大模型**:预测中美模型差距会迅速缩小,事实如此,但真正领先的国内厂商与其当初点名不同。 5. **AI无意识与图灵测试本质**:核心判断“AI无意识,图灵测试仅测表象”基本成立,但“绝无意识”的绝对论断被后续研究置于灰区。 **看错或看偏的方面:** 1. **GPT-4参数数量**:所传“100T参数”严重错误,实际约为1.8T。 2. **LLM的数学能力**:诊断“数学差需外挂工具”正确,但“不可能自行学会”的结论被后续“推理模型”在IMO夺金证伪。 3. **价值捕获**:预测价值在应用层,但现实中算力层(如英伟达)捕获了最大利润,模型层反而亏损。 4. **版权问题**:判断“生成物可能无法登记版权”正确,但认为能“规避侵权”则错误,已出现巨额侵权赔偿案例。 5. **信息茧房与世界大同**:机制上AI会将观点向众数平均,但AI正快速走向“千人千面”的个性化,可能制造新茧房而非消解极化。 6. **大模型成本**:预测“局部战争”和玩家涌入正确,但“5-10亿美元封顶”的成本估算与前沿训练实际花费严重不符。 **总结规律:** 1. 判断**方向和机制**比具体数字、程度更可靠。 2. 倾向于**高估短期变化速度,低估长期能力上限**。 3. 容易忽略**问题内部的分布差异**(如总量正确但部分群体受损)。 4. **留有餘地、分层表述**的判断更经得起时间检验。 5. 一些根本性争论,**三年时间不足以给出最终答案**。 这次回顾表明,在快速变化的领域,把握大方向比追求精确预测更重要,同时需警惕绝对化表述并承认认知的局限性。

链捕手10 小時前

三年之后:回看 2023 年我对 ChatGPT 的判断

链捕手10 小時前

交易

現貨
合約
活动图片