Claude Code 推出动态工作流：让AI学会自己组队干活

marsbit发布于2026-06-04更新于2026-06-04

文章摘要

Claude Code 推出了动态工作流（workflows）功能，使AI能够根据任务动态组建多个智能体（Agent）团队协同工作，从而解决复杂的长周期任务。该功能的核心价值在于，它改变了Claude Code原有的“单智能体在单一上下文内规划并执行”的模式。通过动态工作流，Claude可以将任务拆解，分派给多个拥有独立上下文的子智能体并行处理、交叉验证甚至彼此竞争，最后综合结果。这有效缓解了单智能体在处理长任务时常见的“智能体惰性”（提前宣布完成）、“自我偏好偏差”（倾向认可自己的结论）和“目标漂移”（逐渐偏离原始目标）等问题。动态工作流通过执行一个包含特殊函数的JavaScript文件来协调子智能体。它支持多种实用模式，例如：将任务分类后路由给不同智能体；将任务拆分为多个小步骤并行处理再综合（扇出并综合）；生成多个方案后通过锦标赛机制竞争筛选；以及进行对抗式验证等。其应用场景显著超越了传统的代码任务，扩展至非技术领域。示例包括：代码迁移与重构、深度研究与事实核查、对大量简历或工单进行排序、从历史会话中提炼行为规则、进行事故根因调查、对积压任务进行大规模分诊，以及在命名、设计等需要探索和品味判断的任务中生成并筛选方案。文章也指出，动态工作流并非万能。它通常会消耗更多token，因此不适合所有常规编程任务。最佳实践仍在形成中，开发者需要根据任务复杂度判断是否使用。用户可以通过详细提示（prompt）设计工作流，并结合 `/goal` 和 `/loop` 等指令，或设置token使用预算来优化效果。创建的工作流可以保存、共享甚至通过技能（skill）进行分发。总的来说，动态工作流标志着Claude Code从一个代码助手向一个可编排的智能体工作台演进。未来AI工具的竞争力，可能不仅在于单个模型的智能程度，更在于其组织可靠、可复用执行流程的能力。

编者按:Claude Code 正在从一个代码助手,变成一个可编排的 Agent 工作台。

本文介绍的 workflows(工作流),核心价值在于让 Claude 不再只是在同一个上下文窗口里「想完再做」,而是可以根据任务动态生成一套执行框架:拆分任务、派发子 Agent、并行处理、交叉验证、循环迭代,甚至让不同 Agent 彼此竞争,最后再综合结果。

这意味着,Claude Code 的使用场景正在明显外溢。它不只适用于代码迁移、重构、测试复现和代码审查,也可以用于深度研究、事实核查、简历筛选、事故复盘、规则沉淀、商业计划评审、命名 brainstorm 等非技术任务。很多复杂工作本质上都和编程相似:需要拆解问题、隔离上下文、验证假设、处理大量细节,并在多个候选路径中做选择。

动态 workflows 试图解决的,正是大模型在长任务中常见的几个问题:做到一半就宣布完成的「智能体惰性」、倾向认可自己结论的「自我偏好偏差」,以及多轮执行后逐渐偏离原始目标的「目标漂移」。通过把任务交给多个拥有独立上下文的 Claude,它将复杂任务从「单 Agent 长跑」改造成「多 Agent 协同」。

当然,workflows 也不是万能答案。它通常会消耗更多 token,也未必适合每一个普通编码任务。但它提供了一个很重要的方向:未来 AI 工具的竞争,可能不只在于单个模型有多聪明,而在于它能否围绕复杂目标,组织出一套可靠、可复用、可审查的执行流程。

以下为原文:

虽然默认的 Claude Code 执行框架是为编程构建的,但它也适用于许多其他类型的任务。事实证明,很多任务在结构上都很像编程任务。不过,有些特定任务类型要想达到最佳表现,我们仍然需要在 Claude Code 之上构建定制化执行框架,例如研究、安全分析、智能体团队协作,或代码审查。

Workflows(工作流)允许你动态创建执行框架,让 Claude 能够更原生地在 Claude Code 内部解决上述问题,以及更多类型的问题。你也可以与他人共享、复用这些工作流。

在本文中,我会分享自己最初使用 workflows 的经验和心得,帮助你更充分地发挥它的能力。

不过需要说明的是,相关最佳实践仍在形成中。动态工作流通常会消耗更多 token,因此你需要认真考虑何时使用、如何使用。

注:本文也发布在 Claude Blog 上。

示例 Prompt

在进入技术细节之前,我想先给出一些示例 prompt,帮助你理解 workflows 的可能性:

「这个测试大概每 50 次运行会失败 1 次。搭建一个 workflow 来复现它,提出假设,并在不同 worktree 中进行对抗式测试。/goal 不要停止,直到有一个假设被验证成立。」

「使用 workflow,回顾我最近 50 次会话,从中挖掘我反复做出的纠正,并把这些重复出现的问题转化为 CLAUDE.md 规则。」

「使用 workflow,翻查过去六个月 Slack 的 #incidents 频道,找出那些反复出现、但没人提交 ticket 的根本原因。」

「拿我的商业计划书跑一个 workflow,让不同 agent 分别从投资人、客户和竞争对手的角度来拆解它。」

「这里有一个包含 80 份简历的文件夹。使用 workflow,按照后端岗位要求对它们进行排序,并复核前十名。通过 AskUserQuestion 工具向我提问,帮你建立评价标准。」

「我需要给这个 CLI 工具取名。使用 workflow 头脑风暴一批选项,再通过锦标赛机制选出前三名。」

「使用 workflow,把我们的 User 模型在所有地方都重命名为 Account。」

「阅读我的博客草稿,并使用 workflow 对照代码库验证其中每一个技术判断。我不想发布任何错误内容。」

动态工作流如何运作

动态工作流会执行一个 JavaScript 文件,其中包含若干特殊函数,用来生成和协调子智能体。

动态工作流也包含标准 JavaScript 函数,例如 JSON、Math 和 Array,用于处理数据。

尤其值得注意的是,动态工作流可以决定某个 agent 使用哪一种模型,也可以决定子 agent 是否在自己的 worktree 中运行。这使得 Claude 可以根据任务需要,自主选择所需的智能水平和隔离程度。

如果一个 workflow 被中断,例如用户手动操作,或终端退出,恢复会话后,该 workflow 可以从中断处继续执行。

为什么需要动态工作流

当你让默认的 Claude Code 执行框架处理一个任务时,它需要在同一个上下文窗口里同时完成规划和执行。对于很多编程任务来说,这种方式非常有效,但在长时间运行、大规模并行,或高度结构化的对抗性任务中,它有时会失效。

原因在于,当 Claude 在单一上下文窗口中处理复杂任务的时间越长,它就越容易出现几类特定的失败模式:

Agentic laziness(智能体惰性),指的是 Claude 在处理特别复杂、由多个部分组成的任务时,还没有真正完成就提前停止,并在只取得部分进展后宣称任务已完成。例如,在安全审查中只处理了 50 个项目中的 20 个,就宣布工作结束。

Self-preferential bias(自我偏好偏差),指的是 Claude 倾向于偏好自己的结果或发现,尤其是在被要求根据某套评价标准验证或评判自己产出的内容时。

Goal drift(目标漂移),指的是在多轮执行过程中,Claude 对最初目标的忠实度逐渐下降,尤其是在上下文被压缩之后。每一次总结都会造成信息损失,一些细节要求,例如边缘情况,或「不要做 X」这类限制条件,都可能被遗失。

创建 workflow 有助于缓解这些问题,因为它可以编排多个独立的 Claude,让它们拥有各自的上下文窗口,并专注于相互隔离、目标明确的任务。

动态工作流与静态工作流

你之前可能已经通过 Claude Agent SDK 或 claude -p 创建过静态工作流,用来协调多个 Claude Code 实例。

但由于静态工作流需要覆盖各种边缘情况,它们通常更通用。随着 Claude Opus 4.8 和动态工作流的出现,Claude 现在已经足够智能,可以为你的具体使用场景编写一个量身定制的执行框架。

使用动态工作流时的实用模式

你可以直接让 Claude 创建一个动态工作流,也可以使用触发词「ultracode」,确保 Claude Code 创建 workflow。

不过,如果你能建立起关于动态工作流如何运作的心智模型,就更容易判断什么时候应该使用它,也更容易通过 prompt 对 Claude 进行引导。

Claude 在构建 workflows 时,常见会使用并组合以下几种模式:

分类并执行:使用一个分类 agent 判断任务类型,然后根据任务类型路由到不同的 agent 或行为。也可以在流程末尾使用分类器来判断输出结果。

扇出并综合:把一个任务拆成多个更小的步骤,让每一步都由一个 agent 处理,最后再综合这些结果。这种方式尤其适合任务中包含大量小步骤的情况,或每个步骤都需要一个干净的上下文窗口,避免相互干扰或交叉污染的情况。综合步骤相当于一个「屏障」:它会等待所有扇出的 agent 完成,然后把它们的结构化输出合并成一个结果。

对抗式验证:对于每一个被生成出来的 agent,再运行一个独立的 agent,按照某套评价标准或准则对其输出进行对抗式验证。

生成并筛选:围绕一个主题生成大量想法,然后根据评价标准或验证流程进行筛选,去除重复项,只返回经过测试、质量最高的想法。

锦标赛:不是把工作拆分,而是让 agent 彼此竞争。生成 N 个 agent,让它们分别用不同方法尝试完成同一个任务。随后由 prompt 或模型通过评审 agent 对结果进行两两比较,直到选出胜者。

循环直到完成:对于工作量未知的任务,不要设置固定轮次,而是循环生成 agent,直到满足停止条件,例如不再出现新的发现,或日志中不再出现错误。

使用场景

你可以更有创造性地思考什么时候、如何让 Claude Code 创建动态工作流。我发现 workflows 有时在非技术工作中甚至更有用。

迁移与重构

Bun 曾使用 workflows 从 Zig 重写为 Rust。你可以阅读 Jarred 在 X 上的帖子,了解具体过程。

关键在于,把任务拆成一系列需要处理的步骤,例如调用点、失败测试、模块等。为每个修复任务在 worktree 中启动一个子 agent,让它完成修复;随后再让另一个 agent 进行对抗式审查,最后合并结果。你可以考虑明确告诉 agent,不要使用资源消耗过高的命令,这样就可以最大化并行程度,而不会耗尽本地机器资源。

深度研究

我们在 Claude Code 中发布了一个 deep research skill(/deep-research),它使用的就是动态工作流。具体来说,它会扇出执行网页搜索,抓取来源,对相关主张进行对抗式验证,并综合生成一份带引用的报告。

但这类研究并不只适用于网页搜索。例如,你也可以让 Claude 从 Slack 上下文中整理一份状态报告,或通过深入探索代码库来研究某个功能是如何工作的。

深度验证

另一方面,如果你有一份报告,并希望核查其中引用的每一个事实性判断和来源,就可以生成一个 workflow:先由一个 agent 识别所有事实性主张,然后为每一个主张启动一个子 agent 进行细致核查。你还可以让一个验证 agent 检查负责溯源的子 agent,确保其来源质量足够高。

排序

你可能有一组项目,希望按照某种定性指标进行排序,而你相信 Claude Code 擅长评估这种指标。例如,按照 bug 严重程度给支持工单排序。

但如果你试图在一个 prompt 中排序 1000 多行内容,质量就会下降,而且上下文窗口也容纳不下。更好的做法是运行锦标赛机制,建立一条由两两比较 agent 组成的流水线,因为比较式判断通常比绝对打分更可靠;或者先并行分桶排序,再合并结果。每一次比较都是一个独立 agent 完成的,因此确定性循环可以维持整个赛程结构,只有当前运行顺序需要保留在上下文中。

记忆与规则遵守

如果你有一组特定规则,而 Claude 即使在 CLAUDE.md 中看到这些规则,仍然经常遗漏或执行不好,那么可以创建一个 workflow,把这些规则列出来,并让验证 agent 逐条检查——每条规则对应一个验证 agent。创建一个「怀疑者」人格的子 agent 来审查这些规则是否合理,也有助于避免过多误报。

反过来也可以:挖掘你最近的会话和代码审查评论,找出你反复做出的纠正;让并行 agent 对这些问题进行聚类;再对每个候选规则进行对抗式验证,判断它是否真的能防止某个真实错误;最后把通过筛选的规则提炼回 CLAUDE.md 中。

根因调查

调试最有效的方式,是提出几个相互独立的假设,并逐一测试。但如果你只使用一个上下文窗口,Claude 可能会陷入自我偏好偏差。

workflow 可以从结构上防止这种情况:它可以启动多个 agent,让它们基于互不重叠的证据分别生成假设。例如,让不同 agent 分别查看日志、文件和数据。随后,每个假设都可以接受一组验证者和反驳者的审查。

这并不只适用于代码。workflows 也可以用于销售分析,例如「为什么三月销售额下降了?」;用于数据工程,例如「为什么这条 pipeline 失败了?」;或用于任何事后复盘。

大规模分诊

每个团队都有支持队列、bug 报告,或其他无法完全由人类处理的积压事项。一个分诊 workflow 可以对每个项目进行分类,与已经被追踪的问题去重,并采取行动。这可能意味着尝试修复,也可能意味着升级给人类用户处理。

对于分诊工作流,一个有用的模式是 quarantine(隔离)。也就是说,禁止那些读取不可信公开内容的 agent 执行高权限操作;高权限操作应由专门负责行动的 agent 来完成。

你可以把分诊 workflows 与 /loop 搭配使用,让 Claude 持续执行这类任务。

探索与品味判断

当你需要探索解决方案的不同路径,尤其是设计、命名这类带有审美判断的任务,并且可以受益于一套评价标准时,workflows 很有用。

你可以让 Claude 探索大量方案,并给审查 agent 一套关于「好方案是什么样」的评价标准。当审查 agent 认为结果已经满足标准时,任务就完成了。不同方案也可以根据这套评价标准,通过锦标赛机制进行排序或筛选。

Evals(评测)

你可以通过在 worktree 中启动独立 agent,再启动比较 agent,根据评价标准比较和打分具体输出,从而为特定任务运行轻量级 evals。例如,你可以评估并改进自己创建的某个 skill,看它是否满足某些特定标准。

模型与智能水平路由:你可以创建一个针对自己任务调优的分类 agent,让它决定使用哪一种模型。当任务会涉及大量工具调用,并且在执行前进行研究可以帮助识别最合适模型时,这种方式会很有用。

例如,对于「解释 auth 模块如何工作」这个任务来说,最合适的模型取决于 auth 模块里有多少文件,以及代码库结构是什么样。分类 agent 可以先完成这项研究,再根据预期复杂度,把任务路由给 Sonnet 或 Opus。

什么时候不该使用动态工作流

workflows 仍然是新东西。虽然在许多使用场景中,它可以带来远超常规方式的效果,但并不是每个任务都需要它,而且它可能显著增加 token 消耗。

最好把 workflows 用在那些能以新方式拓展 Claude Code 能力边界的任务上。对于常规编程任务,你可以先问自己:这个任务真的需要更多计算资源吗?例如,大多数传统编程任务并不需要一个由 5 名审查者组成的小组。

构建动态工作流的技巧

Prompt 设计

为动态工作流写 prompt 时,细节越充分,效果通常越好,尤其是使用上文提到的具体技巧。

workflows 并不只适用于大型任务。你也可以提示模型使用一个「quick workflow」。例如,你可以创建一个快速的对抗式审查流程,用来检查某个假设。

与 /goal 和 /loop 结合使用

当你使用可以重复执行的 workflows,例如分诊、研究或验证工作流时,可以把它们与 /loop 搭配,让它们按固定间隔运行;同时用 /goal 设置硬性的完成要求。

Token 使用预算

你可以为动态工作流设置明确的 token 使用预算,以限制任务消耗的 token 数量。你可以在 prompt 中写入类似「use 10k tokens」的预算要求,它会把上限设置为 10k token。

保存与共享动态工作流

你可以在 workflow 菜单中按下「s」来保存 workflows。你可以把它们提交到 ~/.claude/workflows,也可以通过 skill 分发。

如果想通过 skill 共享它们,可以把 JavaScript workflow 文件放进 skill 文件夹,并在 SKILL.md 中引用。为了获得更大的灵活性,你也可以提示 Claude:把 skill 中的 workflows 视为模板,而不是必须逐字运行的脚本。

一个全新的世界

workflows 是扩展 Claude Code 的一种有用新方式。我鼓励你把它视为一个起点。关于如何最好地使用它,我们还有许多东西需要探索。欢迎告诉我们你的发现。

Thariq Shihipar 和 Sid Bidasaria(@sidbid)是 Anthropic 技术团队成员,负责 Claude Code 相关工作。

你可能也喜欢

Base宣称：在与Robinhood的竞争中，'1:1背书的股票代币化扩展性更佳'

Base联合创始人Jesse Pollak承认Robinhood Chain在代币化股票方面的先行优势，但淡化了其威胁。Pollak表示，Base正与Coinbase合作，即将推出1:1实物支持的股票代币，相较于Robinhood的衍生品方案，他认为这在信任、资本效率和机构接受度上更具扩展性。文章指出，尽管Robinhood Chain上线仅约三周，但其凭借模因币热潮吸引了大量投机关注，已在周活跃用户数（约100万）、DEX交易量和收入等关键指标上与Base匹敌甚至超越。分析师认为，Robinhood拥有2700万资金账户，其作为股票经纪商的传统分销渠道为其在零售交易上链趋势中提供了独特优势。

ambcrypto51分钟前

Base宣称：在与Robinhood的竞争中，'1:1背书的股票代币化扩展性更佳'

ambcrypto51分钟前

TON/GRAM价格预测 – Telegram推出Gram钱包提振代币：涨势能否延续？

Telegram创始人帕维尔·杜罗夫宣布，将在所有Telegram应用中内建原生的非托管Gram钱包。这一举措被其称为“人类历史上最大规模的非托管加密货币钱包推广”，旨在为超过10亿用户提供即时、零费用的加密货币交易服务。此举标志着Telegram在将数字资产整合至其通讯生态系统的战略上迈出重要一步。伴随该消息，TON/GRAM（原TON原生代币，将更名为Gram）价格上涨超过7%，交易价格约为1.53美元，从1.40美元附近的支撑位反弹。然而，当前价格仍远低于5月接近2.80美元的高点，整体下行趋势尚未逆转。技术指标显示，日线RSI回升至45附近，看跌动能有所缓解，但仍低于中性水平50。关键阻力位在1.60美元附近，若能有效突破，短期情绪可能改善，并有望上探1.80美元。反之，若无法维持涨势，则可能再次测试1.40美元支撑。此次钱包推广若能如期进行，或将使Telegram成为全球最大的内置加密货币分发渠道之一，大幅降低用户使用加密货币钱包的门槛。

ambcrypto1小时前

TON/GRAM价格预测 – Telegram推出Gram钱包提振代币：涨势能否延续？

ambcrypto1小时前

4080万枚质押的ETH如何可能巩固以太坊对比特币的优势

近期以太坊（ETH）相对于比特币（BTC）的表现走强，两大关键趋势显示其优势可能刚刚开始。首先，链上数据显示鲸鱼正持续买入ETH并将其全部进行质押，例如有鲸鱼提取超过7.4万枚ETH并全部质押。这并非孤立事件，而是广泛趋势的一部分：目前以太坊总质押量已达到创纪录的4080万枚，占总供应量的33.5%，且质押入口队列持续增长，验证者退出队列为零。这意味着流通供应持续收紧，反映出市场的长期看好。其次，以太坊的DeFi生态系统活动也在增强。过去一周，大额WETH交易量达到自2021年5月以来的最高水平，同时全网锁仓总价值（TVL）在十天内增加了超过50亿美元，表明链上流动性和活跃度显著提升。技术面上，ETH/BTC汇率已突破0.025阻力位，并正接近关键的0.03阻力区域，创下十一周以来的最强周收盘。质押导致的供应紧缩与DeFi需求的增长共同作用，为ETH相对于BTC的进一步走强提供了支撑。

ambcrypto1小时前

ambcrypto1小时前

全球股市的风暴点：韩国股市的去杠杆已基本完成

近期韩国股市出现剧烈波动，KOSPI指数自6月高点最大回撤达32%，成为全球AI行情调整的“风暴中心”。文章指出，市场下跌的深层原因并非基本面恶化，而是由高度集中的杠杆资金结构所驱动。具体来看，核心风险来源于两方面： 1. **杠杆ETF大规模去化**：前期规模一度接近500亿美元的杠杆ETF，其“每日再平衡”机制在下跌中引发了“股价下跌→强制平仓”的负向循环。目前其规模已从高点收缩约240亿美元，去化进度已达约75%，剩余压力显著收敛。监管层也已出台新规，从8月起严格限制此类产品，从源头降低风险。 2. **对冲基金快速降杠杆**：通过互换交易放大敞口的对冲基金，其多空持仓比率已从峰值显著回落，净多头水平显示杠杆已下降超过50%，最剧烈的被动去杠杆阶段基本完成。相比之下，韩国居民融资余额占股市市值比重很小（约0.5%），且不具备强制平仓机制，难以成为系统性风险的核心来源。综合而言，最容易引发“连锁抛售”的高杠杆结构已大部分出清，市场正从“流动性驱动的下跌”过渡到“基本面驱动的定价”。只要AI产业趋势未发生根本逆转，本轮调整更接近一次拥挤交易的集中出清，而非行情的终结。文章最后强调，AI代表的硅基革命趋势不可逆，波动是参与趋势的成本而非风险。每一次调整都是在进行筹码结构的优化，并为认清趋势的投资者提供新的参与机会。

链捕手2小时前

链捕手2小时前

自2024年以来推出的加密货币代币中，92.9%跌破发行价：CryptoRank

加密货币数据平台CryptoRank的最新研究显示，自2024年以来发行的加密货币代币中，有高达92.9%目前正低于其代币生成事件（TGE）时的初始价格。该分析聚焦于市值超过1亿美元的项目，在2024年至2026年间发行的113个项目中，仅有8个仍保持在发行价之上，其余105个均已跌破。这意味着只有约7.1%的项目为投资者带来了正回报，而整体样本的中位数回报率低至-95.7%。表现最突出的项目是Hyperliquid (HYPE)，自TGE以来上涨了1,519%。其次是Ondo Finance (ONDO)、EverValue Coin (EVA)和Midnight Network (NIGHT)，涨幅分别为101.4%、20.32%和16.50%。数据表明，与过去市场周期中新股常持续上涨不同，当前投资者变得更加挑剔。资本正越来越集中于少数已证明其产品采用度、生态增长或强劲市场需求的项目。许多新代币难以维持初始估值。这一趋势反映了市场关注点的转变：投资者愈发看重代币经济学、流通供应量、解锁时间表和长期实用性，而非仅关注上市初期的价格动能。研究结果可能影响未来项目的发行策略。项目因过高的完全稀释估值（FDV）、上市初期流通量不足以及大量未来代币解锁计划而备受审视，这些因素都可能在新供应进入市场时对价格构成下行压力。因此，开发者和投资者未来或将更重视可持续的代币分发模式和长期的生态增长，而非激进的初始估值。

ambcrypto2小时前

自2024年以来推出的加密货币代币中，92.9%跌破发行价：CryptoRank

ambcrypto2小时前

交易

现货

Claude Code 推出动态工作流：让AI学会自己组队干活

文章摘要

示例 Prompt

动态工作流如何运作

为什么需要动态工作流

动态工作流与静态工作流

使用动态工作流时的实用模式

使用场景

迁移与重构

深度研究

深度验证

排序

记忆与规则遵守

根因调查

大规模分诊

探索与品味判断

Evals(评测)

什么时候不该使用动态工作流

构建动态工作流的技巧

Prompt 设计

与 /goal 和 /loop 结合使用

Token 使用预算

保存与共享动态工作流

一个全新的世界

热门币种推荐

相关问答

你可能也喜欢

Base宣称：在与Robinhood的竞争中，'1:1背书的股票代币化扩展性更佳'

TON/GRAM价格预测 – Telegram推出Gram钱包提振代币：涨势能否延续？

4080万枚质押的ETH如何可能巩固以太坊对比特币的优势

全球股市的风暴点：韩国股市的去杠杆已基本完成

自2024年以来推出的加密货币代币中，92.9%跌破发行价：CryptoRank

交易

热门文章

火币成长学院：AI与Crypto深度研报：算法与账本的共生时代

从H2A到A2A：AI Agent经济体与Crypto新机遇

美股TradFi：传统金融在AI IPO浪潮下的稳健锚点

相关讨论

热门问答

热门分类

热门标签