Claude Code 推出动态工作流:让AI学会自己组队干活

marsbit发布于2026-06-04更新于2026-06-04

文章摘要

Claude Code 推出了动态工作流(workflows)功能,使AI能够根据任务动态组建多个智能体(Agent)团队协同工作,从而解决复杂的长周期任务。 该功能的核心价值在于,它改变了Claude Code原有的“单智能体在单一上下文内规划并执行”的模式。通过动态工作流,Claude可以将任务拆解,分派给多个拥有独立上下文的子智能体并行处理、交叉验证甚至彼此竞争,最后综合结果。这有效缓解了单智能体在处理长任务时常见的“智能体惰性”(提前宣布完成)、“自我偏好偏差”(倾向认可自己的结论)和“目标漂移”(逐渐偏离原始目标)等问题。 动态工作流通过执行一个包含特殊函数的JavaScript文件来协调子智能体。它支持多种实用模式,例如:将任务分类后路由给不同智能体;将任务拆分为多个小步骤并行处理再综合(扇出并综合);生成多个方案后通过锦标赛机制竞争筛选;以及进行对抗式验证等。 其应用场景显著超越了传统的代码任务,扩展至非技术领域。示例包括:代码迁移与重构、深度研究与事实核查、对大量简历或工单进行排序、从历史会话中提炼行为规则、进行事故根因调查、对积压任务进行大规模分诊,以及在命名、设计等需要探索和品味判断的任务中生成并筛选方案。 文章也指出,动态工作流并非万能。它通常会消耗更多token,因此不适合所有常规编程任务。最佳实践仍在形成中,开发者需要根据任务复杂度判断是否使用。用户可以通过详细提示(prompt)设计工作流,并结合 `/goal` 和 `/loop` 等指令,或设置token使用预算来优化效果。创建的工作流可以保存、共享甚至通过技能(skill)进行分发。 总的来说,动态工作流标志着Claude Code从一个代码助手向一个可编排的智能体工作台演进。未来AI工具的竞争力,可能不仅在于单个模型的智能程度,更在于其组织可靠、可复用执行流程的能力。

编者按:Claude Code 正在从一个代码助手,变成一个可编排的 Agent 工作台。

本文介绍的 workflows(工作流),核心价值在于让 Claude 不再只是在同一个上下文窗口里「想完再做」,而是可以根据任务动态生成一套执行框架:拆分任务、派发子 Agent、并行处理、交叉验证、循环迭代,甚至让不同 Agent 彼此竞争,最后再综合结果。

这意味着,Claude Code 的使用场景正在明显外溢。它不只适用于代码迁移、重构、测试复现和代码审查,也可以用于深度研究、事实核查、简历筛选、事故复盘、规则沉淀、商业计划评审、命名 brainstorm 等非技术任务。很多复杂工作本质上都和编程相似:需要拆解问题、隔离上下文、验证假设、处理大量细节,并在多个候选路径中做选择。

动态 workflows 试图解决的,正是大模型在长任务中常见的几个问题:做到一半就宣布完成的「智能体惰性」、倾向认可自己结论的「自我偏好偏差」,以及多轮执行后逐渐偏离原始目标的「目标漂移」。通过把任务交给多个拥有独立上下文的 Claude,它将复杂任务从「单 Agent 长跑」改造成「多 Agent 协同」。

当然,workflows 也不是万能答案。它通常会消耗更多 token,也未必适合每一个普通编码任务。但它提供了一个很重要的方向:未来 AI 工具的竞争,可能不只在于单个模型有多聪明,而在于它能否围绕复杂目标,组织出一套可靠、可复用、可审查的执行流程。

以下为原文:

虽然默认的 Claude Code 执行框架是为编程构建的,但它也适用于许多其他类型的任务。事实证明,很多任务在结构上都很像编程任务。不过,有些特定任务类型要想达到最佳表现,我们仍然需要在 Claude Code 之上构建定制化执行框架,例如研究、安全分析、智能体团队协作,或代码审查。

Workflows(工作流)允许你动态创建执行框架,让 Claude 能够更原生地在 Claude Code 内部解决上述问题,以及更多类型的问题。你也可以与他人共享、复用这些工作流。

在本文中,我会分享自己最初使用 workflows 的经验和心得,帮助你更充分地发挥它的能力。

不过需要说明的是,相关最佳实践仍在形成中。动态工作流通常会消耗更多 token,因此你需要认真考虑何时使用、如何使用。

注:本文也发布在 Claude Blog 上。

示例 Prompt

在进入技术细节之前,我想先给出一些示例 prompt,帮助你理解 workflows 的可能性:

「这个测试大概每 50 次运行会失败 1 次。搭建一个 workflow 来复现它,提出假设,并在不同 worktree 中进行对抗式测试。/goal 不要停止,直到有一个假设被验证成立。」

「使用 workflow,回顾我最近 50 次会话,从中挖掘我反复做出的纠正,并把这些重复出现的问题转化为 CLAUDE.md 规则。」

「使用 workflow,翻查过去六个月 Slack 的 #incidents 频道,找出那些反复出现、但没人提交 ticket 的根本原因。」

「拿我的商业计划书跑一个 workflow,让不同 agent 分别从投资人、客户和竞争对手的角度来拆解它。」

「这里有一个包含 80 份简历的文件夹。使用 workflow,按照后端岗位要求对它们进行排序,并复核前十名。通过 AskUserQuestion 工具向我提问,帮你建立评价标准。」

「我需要给这个 CLI 工具取名。使用 workflow 头脑风暴一批选项,再通过锦标赛机制选出前三名。」

「使用 workflow,把我们的 User 模型在所有地方都重命名为 Account。」

「阅读我的博客草稿,并使用 workflow 对照代码库验证其中每一个技术判断。我不想发布任何错误内容。」

动态工作流如何运作

动态工作流会执行一个 JavaScript 文件,其中包含若干特殊函数,用来生成和协调子智能体。

动态工作流也包含标准 JavaScript 函数,例如 JSON、Math 和 Array,用于处理数据。

尤其值得注意的是,动态工作流可以决定某个 agent 使用哪一种模型,也可以决定子 agent 是否在自己的 worktree 中运行。这使得 Claude 可以根据任务需要,自主选择所需的智能水平和隔离程度。

如果一个 workflow 被中断,例如用户手动操作,或终端退出,恢复会话后,该 workflow 可以从中断处继续执行。

为什么需要动态工作流

当你让默认的 Claude Code 执行框架处理一个任务时,它需要在同一个上下文窗口里同时完成规划和执行。对于很多编程任务来说,这种方式非常有效,但在长时间运行、大规模并行,或高度结构化的对抗性任务中,它有时会失效。

原因在于,当 Claude 在单一上下文窗口中处理复杂任务的时间越长,它就越容易出现几类特定的失败模式:

Agentic laziness(智能体惰性),指的是 Claude 在处理特别复杂、由多个部分组成的任务时,还没有真正完成就提前停止,并在只取得部分进展后宣称任务已完成。例如,在安全审查中只处理了 50 个项目中的 20 个,就宣布工作结束。

Self-preferential bias(自我偏好偏差),指的是 Claude 倾向于偏好自己的结果或发现,尤其是在被要求根据某套评价标准验证或评判自己产出的内容时。

Goal drift(目标漂移),指的是在多轮执行过程中,Claude 对最初目标的忠实度逐渐下降,尤其是在上下文被压缩之后。每一次总结都会造成信息损失,一些细节要求,例如边缘情况,或「不要做 X」这类限制条件,都可能被遗失。

创建 workflow 有助于缓解这些问题,因为它可以编排多个独立的 Claude,让它们拥有各自的上下文窗口,并专注于相互隔离、目标明确的任务。

动态工作流与静态工作流

你之前可能已经通过 Claude Agent SDK 或 claude -p 创建过静态工作流,用来协调多个 Claude Code 实例。

但由于静态工作流需要覆盖各种边缘情况,它们通常更通用。随着 Claude Opus 4.8 和动态工作流的出现,Claude 现在已经足够智能,可以为你的具体使用场景编写一个量身定制的执行框架。

使用动态工作流时的实用模式

你可以直接让 Claude 创建一个动态工作流,也可以使用触发词「ultracode」,确保 Claude Code 创建 workflow。

不过,如果你能建立起关于动态工作流如何运作的心智模型,就更容易判断什么时候应该使用它,也更容易通过 prompt 对 Claude 进行引导。

Claude 在构建 workflows 时,常见会使用并组合以下几种模式:

分类并执行:使用一个分类 agent 判断任务类型,然后根据任务类型路由到不同的 agent 或行为。也可以在流程末尾使用分类器来判断输出结果。

扇出并综合:把一个任务拆成多个更小的步骤,让每一步都由一个 agent 处理,最后再综合这些结果。这种方式尤其适合任务中包含大量小步骤的情况,或每个步骤都需要一个干净的上下文窗口,避免相互干扰或交叉污染的情况。综合步骤相当于一个「屏障」:它会等待所有扇出的 agent 完成,然后把它们的结构化输出合并成一个结果。

对抗式验证:对于每一个被生成出来的 agent,再运行一个独立的 agent,按照某套评价标准或准则对其输出进行对抗式验证。

生成并筛选:围绕一个主题生成大量想法,然后根据评价标准或验证流程进行筛选,去除重复项,只返回经过测试、质量最高的想法。

锦标赛:不是把工作拆分,而是让 agent 彼此竞争。生成 N 个 agent,让它们分别用不同方法尝试完成同一个任务。随后由 prompt 或模型通过评审 agent 对结果进行两两比较,直到选出胜者。

循环直到完成:对于工作量未知的任务,不要设置固定轮次,而是循环生成 agent,直到满足停止条件,例如不再出现新的发现,或日志中不再出现错误。

使用场景

你可以更有创造性地思考什么时候、如何让 Claude Code 创建动态工作流。我发现 workflows 有时在非技术工作中甚至更有用。

迁移与重构

Bun 曾使用 workflows 从 Zig 重写为 Rust。你可以阅读 Jarred 在 X 上的帖子,了解具体过程。

关键在于,把任务拆成一系列需要处理的步骤,例如调用点、失败测试、模块等。为每个修复任务在 worktree 中启动一个子 agent,让它完成修复;随后再让另一个 agent 进行对抗式审查,最后合并结果。你可以考虑明确告诉 agent,不要使用资源消耗过高的命令,这样就可以最大化并行程度,而不会耗尽本地机器资源。

深度研究

我们在 Claude Code 中发布了一个 deep research skill(/deep-research),它使用的就是动态工作流。具体来说,它会扇出执行网页搜索,抓取来源,对相关主张进行对抗式验证,并综合生成一份带引用的报告。

但这类研究并不只适用于网页搜索。例如,你也可以让 Claude 从 Slack 上下文中整理一份状态报告,或通过深入探索代码库来研究某个功能是如何工作的。

深度验证

另一方面,如果你有一份报告,并希望核查其中引用的每一个事实性判断和来源,就可以生成一个 workflow:先由一个 agent 识别所有事实性主张,然后为每一个主张启动一个子 agent 进行细致核查。你还可以让一个验证 agent 检查负责溯源的子 agent,确保其来源质量足够高。

排序

你可能有一组项目,希望按照某种定性指标进行排序,而你相信 Claude Code 擅长评估这种指标。例如,按照 bug 严重程度给支持工单排序。

但如果你试图在一个 prompt 中排序 1000 多行内容,质量就会下降,而且上下文窗口也容纳不下。更好的做法是运行锦标赛机制,建立一条由两两比较 agent 组成的流水线,因为比较式判断通常比绝对打分更可靠;或者先并行分桶排序,再合并结果。每一次比较都是一个独立 agent 完成的,因此确定性循环可以维持整个赛程结构,只有当前运行顺序需要保留在上下文中。

记忆与规则遵守

如果你有一组特定规则,而 Claude 即使在 CLAUDE.md 中看到这些规则,仍然经常遗漏或执行不好,那么可以创建一个 workflow,把这些规则列出来,并让验证 agent 逐条检查——每条规则对应一个验证 agent。创建一个「怀疑者」人格的子 agent 来审查这些规则是否合理,也有助于避免过多误报。

反过来也可以:挖掘你最近的会话和代码审查评论,找出你反复做出的纠正;让并行 agent 对这些问题进行聚类;再对每个候选规则进行对抗式验证,判断它是否真的能防止某个真实错误;最后把通过筛选的规则提炼回 CLAUDE.md 中。

根因调查

调试最有效的方式,是提出几个相互独立的假设,并逐一测试。但如果你只使用一个上下文窗口,Claude 可能会陷入自我偏好偏差。

workflow 可以从结构上防止这种情况:它可以启动多个 agent,让它们基于互不重叠的证据分别生成假设。例如,让不同 agent 分别查看日志、文件和数据。随后,每个假设都可以接受一组验证者和反驳者的审查。

这并不只适用于代码。workflows 也可以用于销售分析,例如「为什么三月销售额下降了?」;用于数据工程,例如「为什么这条 pipeline 失败了?」;或用于任何事后复盘。

大规模分诊

每个团队都有支持队列、bug 报告,或其他无法完全由人类处理的积压事项。一个分诊 workflow 可以对每个项目进行分类,与已经被追踪的问题去重,并采取行动。这可能意味着尝试修复,也可能意味着升级给人类用户处理。

对于分诊工作流,一个有用的模式是 quarantine(隔离)。也就是说,禁止那些读取不可信公开内容的 agent 执行高权限操作;高权限操作应由专门负责行动的 agent 来完成。

你可以把分诊 workflows 与 /loop 搭配使用,让 Claude 持续执行这类任务。

探索与品味判断

当你需要探索解决方案的不同路径,尤其是设计、命名这类带有审美判断的任务,并且可以受益于一套评价标准时,workflows 很有用。

你可以让 Claude 探索大量方案,并给审查 agent 一套关于「好方案是什么样」的评价标准。当审查 agent 认为结果已经满足标准时,任务就完成了。不同方案也可以根据这套评价标准,通过锦标赛机制进行排序或筛选。

Evals(评测)

你可以通过在 worktree 中启动独立 agent,再启动比较 agent,根据评价标准比较和打分具体输出,从而为特定任务运行轻量级 evals。例如,你可以评估并改进自己创建的某个 skill,看它是否满足某些特定标准。

模型与智能水平路由:你可以创建一个针对自己任务调优的分类 agent,让它决定使用哪一种模型。当任务会涉及大量工具调用,并且在执行前进行研究可以帮助识别最合适模型时,这种方式会很有用。

例如,对于「解释 auth 模块如何工作」这个任务来说,最合适的模型取决于 auth 模块里有多少文件,以及代码库结构是什么样。分类 agent 可以先完成这项研究,再根据预期复杂度,把任务路由给 Sonnet 或 Opus。

什么时候不该使用动态工作流

workflows 仍然是新东西。虽然在许多使用场景中,它可以带来远超常规方式的效果,但并不是每个任务都需要它,而且它可能显著增加 token 消耗。

最好把 workflows 用在那些能以新方式拓展 Claude Code 能力边界的任务上。对于常规编程任务,你可以先问自己:这个任务真的需要更多计算资源吗?例如,大多数传统编程任务并不需要一个由 5 名审查者组成的小组。

构建动态工作流的技巧

Prompt 设计

为动态工作流写 prompt 时,细节越充分,效果通常越好,尤其是使用上文提到的具体技巧。

workflows 并不只适用于大型任务。你也可以提示模型使用一个「quick workflow」。例如,你可以创建一个快速的对抗式审查流程,用来检查某个假设。

与 /goal 和 /loop 结合使用

当你使用可以重复执行的 workflows,例如分诊、研究或验证工作流时,可以把它们与 /loop 搭配,让它们按固定间隔运行;同时用 /goal 设置硬性的完成要求。

Token 使用预算

你可以为动态工作流设置明确的 token 使用预算,以限制任务消耗的 token 数量。你可以在 prompt 中写入类似「use 10k tokens」的预算要求,它会把上限设置为 10k token。

保存与共享动态工作流

你可以在 workflow 菜单中按下「s」来保存 workflows。你可以把它们提交到 ~/.claude/workflows,也可以通过 skill 分发。

如果想通过 skill 共享它们,可以把 JavaScript workflow 文件放进 skill 文件夹,并在 SKILL.md 中引用。为了获得更大的灵活性,你也可以提示 Claude:把 skill 中的 workflows 视为模板,而不是必须逐字运行的脚本。

一个全新的世界

workflows 是扩展 Claude Code 的一种有用新方式。我鼓励你把它视为一个起点。关于如何最好地使用它,我们还有许多东西需要探索。欢迎告诉我们你的发现。

Thariq Shihipar 和 Sid Bidasaria(@sidbid)是 Anthropic 技术团队成员,负责 Claude Code 相关工作。

相关问答

QClaude Code 推出的动态工作流(workflows)主要解决大模型在长任务中的哪些常见问题?

A动态工作流主要解决三个常见问题:1. 智能体惰性:在处理复杂多步骤任务时提前停止并宣布完成。2. 自我偏好偏差:倾向于认可自己的结论,尤其是在验证自己产出时。3. 目标漂移:在多轮执行后,对原始目标的忠实度逐渐下降。

Q文章中提到动态工作流可以组合使用哪些实用模式?

A动态工作流可以组合使用以下六种模式:1. 分类并执行。2. 扇出并综合。3. 对抗式验证。4. 生成并筛选。5. 锦标赛。6. 循环直到完成。

Q动态工作流在哪些非技术任务场景中被认为可能更有用?请列举至少三个例子。

A文章提到的非技术任务场景包括:1. 深度研究与事实核查。2. 简历筛选与排序。3. 商业计划评审。4. 命名头脑风暴。5. 事故复盘与根因分析。6. 规则沉淀与记忆遵守。

Q与静态工作流相比,动态工作流的主要优势是什么?

A动态工作流的主要优势在于其能够为具体使用场景量身定制执行框架。由于Claude Opus 4.8的智能水平,动态工作流不需要像静态工作流那样为覆盖各种边缘情况而设计得过于通用,因此可以更灵活、更精确地适应特定任务的需求。

Q使用动态工作流时,有哪些具体的实践技巧或注意事项?

A主要技巧和注意事项包括:1. Prompt设计应尽量详细,明确使用前述的具体模式(如“快速工作流”)。2. 可与 `/goal` 和 `/loop` 命令结合,实现重复执行和硬性完成要求。3. 可为工作流设置明确的token使用预算以控制成本。4. 可通过保存到本地目录或封装成skill的方式共享和复用工作流。5. 应审慎评估任务是否需要工作流,因为其通常会消耗更多token,并非所有常规编程任务都适用。

你可能也喜欢

Ripple的RLUSD加入万事达卡稳定币结算扩展计划

万事达卡正在深化稳定币基础设施建设,宣布将瑞波的RLUSD纳入其结算扩展计划。此举将允许发卡机构和收单机构通过受监管的数字资产以及传统法币渠道来结算卡交易。 该支付巨头计划扩展其结算能力,包括提供日内、周末和假日结算选项,以及使用受监管的稳定币进行链上卡结算。此举旨在为万事达卡的合作伙伴在其全球支付网络中提供更灵活的交易结算方式和时间选择,尤其适用于跨境支付、资金库运营和支付分发。 对瑞波而言,关键进展在于RLUSD被列入万事达卡计划支持的稳定币名单。该名单还包括Circle的USDC、Paxos发行的PYUSD等、以及SoFi的SoFiUSD。这些资产将在包括Arbitrum、以太坊、Polygon、Solana和XRP账本在内的多个区块链网络上获得支持。 万事达卡表示,稳定币结算选项将与现有流程并存,而非取代。该公司将此扩展描述为一项“网络级增强”,旨在保持现有安全标准的同时,为合作伙伴增加基于数字资产的结算选择。初期支持预计来自ARQ、CBW银行等机构,重点聚焦美国和拉丁美洲市场,并计划在2026年前进一步扩展。 瑞波将RLUSD的纳入视为对其为机构支付流设计的受监管稳定币的认可。其他稳定币发行方和银行合作伙伴也强调了稳定币在流动性管理和突破传统结算时间限制方面的优势。

bitcoinist3分钟前

Ripple的RLUSD加入万事达卡稳定币结算扩展计划

bitcoinist3分钟前

交易

现货
合约

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

542人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片