为什么更多AI Agent不等于更高生产力?

marsbit发布于2026-05-31更新于2026-05-31

文章摘要

当AI Agent变得越来越易得和便宜,启动多个Agent已轻而易举,但这并不意味着生产力会随之线性提升。文章提出了“编排税”的概念:虽然启动Agent成本低廉,但真正昂贵的是后续需要人类投入的串行工作——检查结果、理解架构影响、处理冲突并决定最终代码合并。这些任务无法并行,必须经过开发者有限的认知带宽。 开发者如同AI系统中的“全局解释器锁”(GIL),成为限制整体吞吐量的单线程资源。更多Agent可能只会加长待审查队列,导致频繁的上下文切换和认知疲劳,反而降低效率。因此,关键不是盲目增加Agent,而是围绕人的注意力重新设计工作流。 有效的策略包括:根据review能力而非UI能力限制Agent数量;将任务分类,只将独立任务交给Agent并行处理;采用批量review减少切换成本;让Agent自行验证可自动化部分,节省人类判断力;并保护专注的串行时间用于深度思考。 忙碌感不等于高产,忽视“编排税”可能导致技术债和认知债积累。真正的能力在于像设计并发系统一样,精心管理自己有限的注意力资源,确保AI工具真正提升生产力而非制造假象。

编者按:当 AI Agent 变得越来越便宜、越来越容易调用,软件开发正在进入一个新的阶段:问题不再是能不能启动更多 Agent,而是人类是否还有足够的注意力去管理、判断和合并它们的产出。

这篇文章提出了一个很有启发性的概念——「编排税」。启动 Agent 的成本很低,只需要一句 Prompt 或一次点击;但真正昂贵的是后续环节:检查结果是否正确、理解它对系统架构的影响、处理不同 Agent 之间的冲突,并最终决定哪些代码可以进入主分支。这些工作无法被简单并行化,仍然要回到同一个串行资源:人的判断力。

作者将开发者比作 AI Agent 系统里的「GIL」,即那个限制并发系统最终吞吐量的单线程锁。多个 Agent 可以同时运行,但只要进入架构判断、代码审查和冲突合并阶段,就必须重新经过开发者的大脑。于是,Agent 越多,不一定意味着产出越高,也可能只是让待审查的任务队列更长,让开发者陷入更频繁的上下文切换和认知疲劳。

这也是当前 AI 编程工具热潮中容易被忽视的一点:效率感和真实生产力并不总是一回事。一个满屏运行的 Agent 仪表盘,会制造出「高产」的错觉;但如果开发者没有真正理解、审查和整合这些改动,系统最终积累的可能不是生产力,而是技术债和认知债。

因此,本文真正讨论的不是「如何使用更多 Agent」,而是「如何围绕人的注意力重新设计工作流」。在 Agent 时代,关键能力不只是会提问、会分派任务,而是知道哪些任务可以交给机器并行处理,哪些任务必须保留给人类判断;什么时候应该批量 review,什么时候应该停止编排,重新专注于一个核心问题。

AI 正在扩大软件生产的并发能力,但人的注意力仍然是系统中最稀缺、最不可复制的资源。真正成熟的 Agent 工作流,不是把所有任务都扔给机器,而是像设计生产系统一样,认真设计自己的注意力架构。

以下为原文:

现在,启动更多 AI Agent 已经变得很容易。但更多 Agent 同时运行,并不意味着「你」也变多了。你的认知带宽无法并行化。所有真正用于引导它们、判断结果、合并修改的判断力,最终仍然必须经过同一个串行处理器——也就是你自己。

所谓「编排税」,本质上就是你忘记这一点后所付出的代价。而唯一真正的解法,是像设计任何并发系统一样,开始设计你自己的注意力。

我之前在 Google I/O 上参加了一场圆桌讨论,和 Richard Seroter、Aja Hammerly、Ciera Jaspan 一起聊软件工程现在的样子,以及它接下来可能如何演化。接近尾声时,Richard 问我们:开发者听完之后,最应该带走并改变的一件事是什么?

我说出了这几个月一直在反复思考的一点:感觉自己很忙,绝不等于真的有产出。你可以同时运行 20 个 Agent,并且感觉自己忙得不可开交。但这并不等于你交付了 20 个 Agent 对应的工作量。

在那场对话早些时候,Richard 给这个问题起了一个名字。他说:「你刚才讲到的,其实就是编排税。你不可能在自己的脑子里成功管理 20 个 Agent。」

他说得完全正确。我想把这个概念更完整地拆开讲,因为这并不是一个自律问题,而是一个架构问题。

那场圆桌里有一句我几乎是随口说出的话,后来一直萦绕在我脑海里:运行多个 Agent,并不意味着世界上多了一个你。

人们没有计入的非对称性

Agent 工作流里存在一种隐藏的非对称性。

启动一个 Agent 非常便宜。你只需要敲一下键盘,或者写一句 Prompt。但完成 Agent 的闭环一点也不便宜。总得有人检查它返回的结果是否正确,并把它和其他 Agent 改动过的内容重新协调起来。

这个人就是你。而你只有一个。

上个月,我在《你的并行 Agent 上限》里写过这个问题的一部分,主要讨论的是那种环境式焦虑:你不知道哪条并行线程正在悄悄失败。这篇文章想谈的是这种成本背后的结构。

当你开始把 Agent 开发看作一个并发系统时,你会意识到,人类本身只是这个系统里的一个组件。一个很慢的串行组件。

你就是那个单线程资源

如果你写过并发代码,你其实已经具备理解这个问题的直觉。只是你过去把这种直觉用错了地方。

Python 有全局解释器锁,也就是 GIL。你可以创建任意多线程,但同一时间只有一个线程能执行 Python 字节码,因为它们都必须先拿到这把锁。

你就是你的 AI Agent 的 GIL。

它们都可以同时运行。但只要它们的工作需要真正理解系统架构,或者需要解决合并冲突,就必须先拿到这把锁。而这把锁只有一把,由你持有。

阿姆达尔定律把这件事说得非常精确:并行化带来的加速上限,取决于工作中仍然必须串行完成的那一部分。如果你的流程里有很大一块无法并行化,那么无论你投入多少核心,最终都会撞上一个硬上限。

在 Agent 开发里,这个串行部分就是判断力。

启动 8 个 Agent 并不会加速你的判断时间。它只会让等待你处理的队列变得更长。

这是性能工程里一个很古老的事实,但很多人依然会被它惊讶到:优化非瓶颈部分,并不会提升整体吞吐量。你只是在瓶颈前面堆起更多尚未完成的工作。

增加 Agent 优化的是那个本来就不是约束的部分。真正的约束是 review 环节,而整个系统的吞吐量,恰好就等于这个环节的吞吐量。

编排税,就是 Agent 生产能力与你实际能够合并的内容之间的结构性缺口。它发生在你让一个单线程资源去管理一个并发系统的时候。

硬扛解决不了结构性上限

在那场圆桌上,我说过一句话:我从未像现在这样觉得自己的工具如此高效,但我也从未像现在这样疲惫。

这两种感受都完全真实,而且它们来自同一个原因。

这种疲惫有一个非常具体的来源:它就是把一个串行处理器持续压到 100%、且不给任何余量时的感觉。

每次你回头查看一个已经离开你注意力范围的 Agent,你都要支付一次上下文切换成本。你必须清空大脑,然后从零开始重新加载另一个语境。

CPU 可以在微秒内完成这件事,即便如此,架构师仍然会尽量避免频繁切换。而你要花几分钟才能完成,而且永远无法完美恢复上下文。

5 个 Agent 并不是 1 倍工作量重复 5 次。它是 5 次冷启动式的上下文重载,再加上一个在后台持续运行的大脑进程,不停担心你现在到底该去检查哪个 Agent。

你不能靠「更努力」来解决一个结构性限制。这笔税总是要付的。

如果你试图硬扛,它最终会以另一种形式出现:要么是代码 review 变得越来越浅,要么是你进入一种「认知投降」状态——因为形成自己的判断太消耗注意力,你干脆直接接受 Agent 写出来的代码。

你要么主动支付这笔税,要么任由它在暗处慢慢摧毁你对自己系统的理解。

像设计系统一样设计你的注意力

所以,你必须把自己的注意力当作一种稀缺的串行资源来对待。

你不会在设计一个分布式系统时完全不考虑瓶颈。那么,也请给你的大脑同样的尊重。

以下是一些对我来说真正有效的方法:

按照 review 能力扩张 Agent 队伍,而不是按照 UI 能力扩张。

一个好的并发系统会使用反压机制,避免队列无限增长。生产者要放慢速度,以匹配消费者的处理能力。

你的 Agent 数量就是生产者,你的 review 能力就是消费者。正确的并行 Agent 数量,应该是你能够认真完成代码 review 的数量。对大多数人来说,这通常只是一个很低的个位数。

AI 工具当然会很乐意让你启动 20 个 Agent,但那只是一个 UI 功能,不代表你真的有能力管理它们。

给任务分类。

Richard 问我怎么处理这件事时,我提到过这个方法。我会把任务分成两堆。

第一堆,是相对独立的工作,我愿意交给在云端后台运行的 Agent。这些任务可以异步执行,通常只需要我在最后关口做一次把关。

第二堆,是复杂任务,真正的工作本身就是判断。比如一个很奇怪的 bug,或者一次架构设计。

最大的错误,就是试图把第二类任务也并行化。并行处理多个复杂任务,并不会扩大你的产出,只会让那把锁被反复争抢,最终所有结果都会变差。

批量 review。

每次上下文切换都会让你付出很高成本。一次性坐下来 review 4 个 Agent 的结果,要比先看一个、去做别的事、再冷启动回来继续看另一个便宜得多。

给 Agent 更长的牵引绳。让工作稍微积累一点,然后把它们作为一个批次来处理。

只把这把锁用在判断上。

不要把你的大脑浪费在机器可以自行验证的事情上。让 Agent 写出能通过的测试,或者生成截图。

让它们自己证明那 80% 枯燥但可验证的部分。这样,你稀缺的注意力只需要花在真正需要人类判断的 20% 上。

保护你的串行时间。

瓶颈需要你最好的时间,而不是你在几次 Agent 检查之间剩下的碎片时间。

有时候,最高杠杆的动作反而是完全停止编排:关掉那个塞满 Agent 的电脑,只专注思考一个问题,并在整个过程中牢牢持有那把锁。

编排不是真正的工作。它只是围绕工作产生的开销。

Aja 指出,架构能力现在已经成了最紧迫的技能:你需要知道什么任务适合放进一个 Agent,什么任务对它来说太大了。

我还想补充一点:你自己也是这个系统里的一个组件。你的注意力有一个已知的、很低的串行吞吐量。系统要么尊重这个数字,要么就会通过悄悄降低你的标准来绕过它。

忙碌不等于高产

这一点非常重要,因为这种失败模式对你本人来说几乎是不可见的。

20 个正在运行的 Agent 会给你一种「生产力爆棚」的感觉。仪表盘满满当当,所有东西都在动。但这种感觉和真正把高质量代码合并进主分支之间,已经脱钩了。

你可以忙到极限,却几乎没有真正产出。从内部体验上看,这两者几乎一模一样。

Ciera 提到了 Margaret-Anne Storey 关于债务的研究。我们聊到了技术债,也聊到了认知债。

没有支付的编排税,会让你同时积累这两种债务。

你合并了自己没有认真读过的东西。你对代码库的心智模型彻底过期。这些问题今天不会出现在仪表盘上。它们会在生产环境出故障时显现出来——那时你看着系统,突然意识到自己已经不知道它到底是怎么运行的了。

所以,真正的结论是:启动 Agent 不是能力。任何人都可以运行 20 个。

真正的能力,是围绕那个无法被克隆、无法被并行化的串行资源来设计系统。

这个资源,就是你的注意力。

像设计任何生产环境中依赖的关键组件一样,去设计它。

相关问答

Q什么是文章中提到的'编排税'?

A'编排税'是指当开发者启动多个AI Agent并行工作时,忽略了自己认知带宽的串行限制,从而需要为后续管理、审查、协调Agent产出所付出的额外成本。它本质上是并行生产能力与人类串行审查能力之间的结构性缺口所带来的代价。

Q文章将开发者比作AI Agent系统中的什么,以此来解释生产力的瓶颈?

A文章将开发者比作AI Agent系统中的'GIL'(全局解释器锁)。就像在Python中多线程最终受限于GIL这个单线程锁一样,无论启动多少个AI Agent并行工作,最终需要人类进行架构判断、代码审查和冲突合并的关键环节,都必须经过开发者这个'单线程资源',从而形成整个系统的吞吐量瓶颈。

Q根据文章,为什么更多的AI Agent不一定会带来更高的生产力?

A更多的AI Agent不一定会带来更高生产力,因为真正的瓶颈在于开发者有限的、不可并行的认知带宽(即'注意力'或'判断力')。启动Agent容易,但后续的审查、理解、协调和决策工作必须由开发者串行处理。Agent数量超过开发者有效管理能力时,只会增加待处理队列的长度和上下文切换的认知疲劳,而不会提升最终有效产出的吞吐量,甚至可能导致技术债和认知债的积累。

Q文章提出了哪些围绕'注意力'设计工作流的建议?

A文章提出的建议包括:1. 根据审查能力而非UI能力来限制Agent数量(使用反压机制)。2. 对任务进行分类,只将独立任务并行化,复杂判断性任务应串行专注处理。3. 采用批量审查,减少上下文切换成本。4. 只将人类注意力用在需要判断的环节,让机器处理可验证部分。5. 保护串行专注时间,有时最高效的做法是停止编排,专注思考单一核心问题。

Q文章如何解释'忙碌感'与'真实生产力'之间的脱节?

A文章指出,满屏运行的Agent仪表盘会制造出一种'高产'的忙碌错觉,但这种感觉与真正将高质量代码合并到主分支的有效产出已经脱钩。开发者可能因频繁切换上下文和审查队列而疲惫不堪(感觉高效而忙碌),但由于认知带宽过载,可能并未进行深度审查和整合,导致实际产出很低,并暗中积累技术债和认知债。因此,内部体验上的'忙碌'并不等于真实的生产力。

你可能也喜欢

阿里“上货”,字节“练功”

5月最后一周,阿里和字节的两项动作展现了中国大厂在AI领域的两种不同战略路径。 阿里正将AI快速“上货”落地。5月11日,千问App与淘宝全面打通,接入40亿商品库和20年购物场景数据。随后在阿里云峰会上,吴泳铭宣布升级全栈能力,并计划未来五年资本开支远超过去三年。阿里的核心策略是将AI深度融入现有商业场景,如蚂蚁的AI支付用户数破亿、淘宝的AI比价等,并推动“智能体商业信任协议”作为信任基础设施。其商业模式依赖AI服务变现,阿里云外部收入增长40%,服务器“几乎没有一张卡是空的”。然而,这种路径可能以基础模型能力的长期领先性为代价。 字节则选择在Seed部门潜心“练功”,聚焦探索AI智能上限。其视频生成模型Seedance 2.0在权威评测中登顶,获业界高度评价。部门内部目标纯粹,如设定“国际榜单进前三”的KPI,并投入8个月撰写纯学术论文。字节计划大幅增加资本开支,最高或达4700亿元,资金来源于其巨额利润,且因其未上市,无需承受短期业绩压力,得以专注于长期技术突破。但商业化压力已初现,豆包开始测试付费和广告。 文章指出,两种路径差异的根本原因在于公司是否上市。阿里作为上市公司,必须关注季度财报和股价,战略倾向于快速变现;字节作为非上市公司,则拥有更大的自由去进行长期、前沿的技术投资。这决定了当前中国AI领域“卖AI”与“做AI”的格局分野。未来若字节启动IPO,其长期研发投入或将面临资本市场的考验。

marsbit38分钟前

阿里“上货”,字节“练功”

marsbit38分钟前

Circle 将 Zama 协议地址列入黑名单,冻结价值 1260 万美元的用户资金 - 详情

稳定币发行商Circle已将一个与隐私协议Zama相关的智能合约列入黑名单,冻结了约1260万美元的用户资金。此次冻结首先由链上调查员ZachXBT发现,涉及Zama在以太坊上部署的保密USDC(cUSDC)合约。该合约地址在Zama的公开文档中可查,其冻结过程可被实时追踪和验证。 进一步分析显示,此次冻结可能与资产管理和收益协议Overnight Finance近期的争议及法律问题间接相关。数据显示,一个疑似与Overnight Finance相关的钱包于2026年5月11日向Zama合约存入约1240万美元USDC。Overnight Finance近期正面临治理纠纷和可能被团队“拉地毯”的指控,并因此进行了国库资产分配投票。此外,该公司还卷入一起民事诉讼,原告之一是DeFi领域以激进治理策略闻名的Patagon Management。尽管Circle的行动与这些事件之间尚无直接因果证据,但法律程序、资金流动与冻结事件的重叠,引发了人们对DeFi协议间风险传导的担忧。 Circle此次单方面行动再次引发对中心化发行商透明度的批评。据ZachXBT称,Zama团队在合约被列入黑名单前似乎未获任何通知。这加剧了人们对中心化实体在无预警情况下影响去中心化应用及其用户的担忧。此前在2026年3月,Circle曾冻结多个实体相关的热钱包而未公开说明理由。本次行动则更进一步,直接冻结了协议级别的资金池合约,而非独立钱包,这引发了人们对所谓去中心化系统中托管风险的质疑。截至目前,Circle尚未就冻结Zama合约的原因发布官方解释。

bitcoinist1小时前

Circle 将 Zama 协议地址列入黑名单,冻结价值 1260 万美元的用户资金 - 详情

bitcoinist1小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

作者王健硕在2026年5月回看其于2023年3月对ChatGPT做出的二十条预测,并借助AI代理进行验证。整体看,其大方向判断多正确,但细节和程度常有偏差。 **看对的方面:** - **技术架构**:准确预测RAG(检索增强生成)将成为解决知识更新和幻觉的主流方法,以及LUI(自然语言用户界面)将催生巨大新产业。 - **发展趋势**:预见到“机器人网络”和新的agent寻址系统将出现,中国能快速做出可用大模型并缩小与顶尖差距。 - **本质认知**:正确指出ChatGPT没有意识,图灵测试仅测表象;判断其是巨大进步但非AGI,且短期内不会造成整体失业潮。 **看错或看偏的方面:** - **具体数据错误**:关于GPT-4有100T参数的传闻完全错误。 - **绝对化判断**:断言LLM“不可能”自己学好数学被后来模型在IMO夺金证伪;认为AI生成内容可“规避”版权,实则引发史上最大侵权赔偿。 - **价值与成本误判**:认为价值终落应用层,但最大赢家是算力层(如英伟达);模型成本“5-10亿封顶”的估算严重偏离实际。 - **社会影响误读**:认为ChatGPT的“加权平均”特性可能促进“世界大同”,但实际AI正走向个性化,并可能制造新信息茧房。 **总结规律:** 1. 预测机制和方向比具体数字更可靠。 2. 倾向于高估短期变化速度,低估长期影响程度。 3. 容易忽略问题内部的“分布”差异(如失业影响集中在年轻群体)。 4. 留有餘地、分层表述的判断更经得起时间检验。 5. 一些根本性争议,三年时间仍不足以给出定论。 这次复盘旨在为未来的判断立下更审慎的规矩。

marsbit8小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

marsbit8小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

2023年3月,在GPT-4发布前,作者王健硕对ChatGPT的未来做出了二十项预测。三年后的2026年,他使用AI agent对这些判断进行回顾验证,评估其准确性。 **主要看对的方面:** 1. **RAG成为主流**:预测通过外部检索而非修改模型来解决知识更新和幻觉问题,这已成为行业标准架构。 2. **LUI(自然语言界面)兴起**:预测自然语言交互将催生巨大新产业,Agent、MCP协议等发展印证了这一点,但LUI是与GUI共存而非取代。 3. **机器人网络与新寻址系统**:预测Agent将自动协作并需要新寻址方式,MCP、A2A等协议正朝此方向发展。 4. **中国能做出可用大模型**:预测中美模型差距会迅速缩小,事实如此,但真正领先的国内厂商与其当初点名不同。 5. **AI无意识与图灵测试本质**:核心判断“AI无意识,图灵测试仅测表象”基本成立,但“绝无意识”的绝对论断被后续研究置于灰区。 **看错或看偏的方面:** 1. **GPT-4参数数量**:所传“100T参数”严重错误,实际约为1.8T。 2. **LLM的数学能力**:诊断“数学差需外挂工具”正确,但“不可能自行学会”的结论被后续“推理模型”在IMO夺金证伪。 3. **价值捕获**:预测价值在应用层,但现实中算力层(如英伟达)捕获了最大利润,模型层反而亏损。 4. **版权问题**:判断“生成物可能无法登记版权”正确,但认为能“规避侵权”则错误,已出现巨额侵权赔偿案例。 5. **信息茧房与世界大同**:机制上AI会将观点向众数平均,但AI正快速走向“千人千面”的个性化,可能制造新茧房而非消解极化。 6. **大模型成本**:预测“局部战争”和玩家涌入正确,但“5-10亿美元封顶”的成本估算与前沿训练实际花费严重不符。 **总结规律:** 1. 判断**方向和机制**比具体数字、程度更可靠。 2. 倾向于**高估短期变化速度,低估长期能力上限**。 3. 容易忽略**问题内部的分布差异**(如总量正确但部分群体受损)。 4. **留有餘地、分层表述**的判断更经得起时间检验。 5. 一些根本性争论,**三年时间不足以给出最终答案**。 这次回顾表明,在快速变化的领域,把握大方向比追求精确预测更重要,同时需警惕绝对化表述并承认认知的局限性。

链捕手11小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

链捕手11小时前

交易

现货
合约

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

536人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片