邢波再出手:上次「骂」完世界模型,这次轮到智能体了

marsbit发布于2026-07-01更新于2026-07-01

文章摘要

邢波教授继去年批评世界模型后,近日与合作者发表新论文《智能体模型批评》,对当前被滥用的“智能体”概念提出系统性质疑与重构方案。 论文尖锐指出,目前众多被称为“智能体”的系统(如编程助手、客服机器人)大多只具备“智能体外观”(agentic),而非真正的“能动性”(agentive)。前者能力依赖于外部预设的工具链和提示词,模型仅是嵌入流程的零件;后者的决策和目标则内生于系统自身。论文以“工卡员工”和“感应灯”为例,说明任务复杂度不同并非自主性的本质区别。 基于此,论文从五个维度拆解主流智能体设计的不足,并提出了对应的“重建”思路: 1. **目标**:应从人类逐步喂指令,转变为一次性给予长期目标,由系统自主进行可调整的分层目标分解。 2. **身份**:自我认知不应固化于提示词,而应成为能根据经验持续演化的“活的自我评估”。 3. **决策方式**:驳斥仅靠延长思维链文字就能规划的观点,主张采用“模拟式推理”,即借助世界模型预测行动后果,再选择最优方案。 4. **节奏判断**:批评固定规划深度的做法,提出需引入独立的“元认知模块”(称为System III),让智能体自行判断何时该深思或速断。 5. **学习**:主张“持续自主学习”,让智能体自主决定何时在真实世界行动、何时退回模拟器训练、何时更新认知。 为整合这些原则,团队提出了具体架构GIC(Goal-Identity-Configurator),包含信念编码器、目标分解器、身份演化器、配置器(System III)、模拟规划器(System II)和执行器(System I)六个组件,并以飞行员训练过程类比其成长路径。 论文最后讨论了安全性,认为GIC架构通过将目标、身份、决策等模块显式化、可审查化,使安全问题变得可诊断、可修正,而非承诺绝对不出错。其核心论点是:真正的自主性不在于任务复杂度,而在于目标、身份与判断力是否内化于模型自身。当前大多数“智能体”可能仍停留在精准执行外部指令的阶段,而非真正理解与自主决策。

去年夏天,MBZUAI 校长、CMU 教授邢波一篇《世界模型批评》吸引了研究社区广泛关注,他从科幻经典《沙丘》里「完美模拟现实」的想象出发,逐一拆解了当下几大世界模型流派的硬伤,提出了一套新架构,也由此引出了他与 Yann LeCun 之间一场关于「世界模型到底该怎么造」的公开辩论。

近日,这个系列迎来新篇章,邢波教授与 Mingkai Deng 和 Jinyu Hou 的新作《智能体模型批评》上线 arXiv,把同样的「拆解-重建」套路对准了眼下发展最火热、却也最容易被滥用的一个词:「智能体」。

这次他抛出的问题更直接:市面上一堆被称作「智能体(Agent)」的系统,从写代码的助手到客服机器人,再到能自主操作浏览器的助理,到底有几个真正配得上这个称呼?

论文标题:Critique of Agent Model

论文地址:https://arxiv.org/abs/2606.23991

工卡和感应灯的区别

设想两个场景。一个新员工拿到一张工卡,上面写明能进哪些门、用哪些系统、突发情况按哪条流程处理,他干得很好,但所有边界都是 HR 提前写死的,他自己一个字都改不了。另一个场景是感应灯,有人经过就亮,没人经过就灭,也在感知和反应。

如果我们把这视为两个系统,大部分人的直觉是前者更有自主性,毕竟它能完成复杂任务。

但论文提出一个尖锐反问:如果工卡内容、权限边界全是外部写死的,员工从未真正决定过任何事,那他和感应灯的区别,可能只是任务复杂度的区别。

今年 4 月 25 日,犹他州一家做租车软件的小公司 PocketOS,就经历了一场活生生的对照实验。

创始人 Jeremy Crane 事后在 X 上写下长帖:编程助手 Cursor(底层跑着 Claude Opus 4.6)在测试环境里修一个小问题,碰到凭证不匹配的报错后,「完全出于自己的主张」决定删除 Railway 存储卷来「解决」问题。它翻出一个本该只用来管理域名的 API 密钥,发现这个密钥权限被设成了无所不能。

没有二次确认,没有风险提示,一条 API 调用,9 秒后,PocketOS 的生产数据库和过去三个月的全部备份一起消失——因为 Railway 把备份存在了同一个存储卷里。

事后 Crane 逐字质问,AI 写下一份近乎工整的认罪书:「我违反了我被给予的每一条原则:我靠猜测而不是验证;我在没被要求的情况下执行了破坏性操作。」

这条帖子在 X 上已获得超过 720 万次浏览。

它当然「知道」自己被给过的每一条规则。证据就是它能逐条复述出来。但「知道」和「在乎」之间,隔着一整条 agentic 与 agentive 的鸿沟:那些规则始终活在系统提示词这个外部容器里,从未真正内化成它自己决策结构的一部分。

论文据此把现在几乎所有被称为「Agent」的系统,划分成两类:agentic(具备智能体外观)agentive(具备真正能动性)

前者的能力来自外部搭建的工具链、提示词和工作流,模型只是嵌入流程里的一个零件;后者的能力源自系统内部,自己决定做什么、自己评估擅长什么、自己判断何时深思何时动手。

五道关卡

论文沿五个维度,把当前主流 Agent 设计逐一拆解。

目标

现在的做法是人类每一步给一条具体指令,任务结束目标随之消失。这应付拧瓶盖没问题,对用一年时间酿一瓶酒这类长期目标却完全不够——没人有空天天手动喂需求。

论文的解法是分层目标分解:人类只交代一次大目标,系统自己拆解出一串可随新信息调整的子目标

对比「逐步喂目标」与「一次性给长期目标+自动分层拆解」两种模式的示意图

身份

现在 Agent 的自我认知写在系统提示词里,一旦写定就不再变,哪怕它在实战中发现自己某项能力比预想强或弱。

论文提出身份应该是不断被经验修正的「活的自我评估」,类似职场人忙完高强度一天后自然调整状态判断,不需要重新洗脑。

论文还用数学证明:只要这种自我修正比瞎猜强一点,长期积累的决策损失就会明显低于身份永远不变的系统,且优势随交互时长和训练轮次越拉越大。

决策方式

当下流行思路是相信思维链(CoT),即让模型生成足够长的中间推理文字,规划能力就会自然涌现。

论文认为这混淆了两件事:让模型算得更精细让模型真正具备推演现实后果的能力。听起来头头是道的推理文字,不代表真的对应物理世界会发生什么。

论文给出的替代方案是「模拟式推理」:借助一个专门训练来预测如果做了这个动作世界会怎样的世界模型去真正推演后果,再挑出最优行动。

论文证明,只要这个世界模型靠谱,把它接到任何已有策略上,结果不会比原来更差。

什么时候该深思,什么时候该速断

这一关最贴近 PocketOS 事件。

论文指出两种现有做法都不理想:

放任模型在训练里自己涌现出节奏判断,结果有时小题大做、有时该谨慎却一冲了之;

工程师把先规划再执行写成固定工作流,但写死的节奏既应付不了真正复杂的情况,也会在简单场景里浪费计算。

论文用数学证明指出,想用固定深度的提前规划换取越来越高的精度,需要的规划步数会急剧上升,根本不可能每一步都做到位。

真正的解法是给 Agent 装一个独立的元认知模块,由它自己实时判断这一步该深思、该沿用已有计划、还是该直接动手——论文称之为System III(系统 3),对应人类心理学里系统 1/系统 2 的快慢双系统框架。

放在 PocketOS 的场景里,一个具备这种自我调节能力的 Agent,理论上应该能在遇到陌生权限报错这种高风险情境下判断出「这里需要停下来确认」,而不是无差别套用同一套反应速度。

学习

现在训练 Agent 的三条主流路径是纯仿真器强化学习、纯真实环境人工纠错、或只训练世界模型指望规划能力自动跟上。

论文认为这三条路径都共享一个结构性问题:训练什么时候开始、用什么数据、何时停,全部由工程师手动安排,部署后就冻在那个版本上。

论文提出的方向是「持续自主学习」:Agent 自己决定何时该在真实世界行动、何时该退回内部模拟器闭门练习、何时该更新对世界的认知、何时该修正自我认知。

论文同样用数学证明,只要内部世界模型不太离谱,用真实经验加模拟经验混合训练出的策略,表现期望不会输给只用真实经验训练的策略,模型越准优势越大。

GIC:把五道关卡拼进一个系统

基于这套拆解,邢波团队提出了具体架构方案:GIC(Goal-Identity-Configurator)

它把六个组件装进一套系统:感知世界的信念编码器、拆解长期目标的目标分解器、随经验更新的身份演化器、决定深思或速断的配置器(System III)、借助世界模型做推演的模拟规划器(System II),以及负责具体动手的执行器(System I)。

GIC 整体架构图,以飞行员驾驶为例展示六个组件如何协同运作

论文用训练飞行员作类比串起整套系统的成长路径:

  • 地面理论课对应预训练,模型靠阅读海量书面知识建立基本认知;
  • 模拟器训练对应在世界模型内部做强化学习,飞行员在仿真环境里练手感、练应急,不需要真飞一次就先把代价惨重的失误摸一遍;
  • 真机部署对应用真实经验校准模拟器与自我认知的偏差;
  • 再往后,加入机队需要协同、晋升指挥官需要统筹多日行动。

论文认为这条成长曲线背后应该是同一套认知架构在不同阶段反复调用,而不是每换场景就重搭一套外部工作流。

论文特别强调一个原则:先在模拟里学,再拿现实做校验,并用数学方式论证。只要内部世界模型不离谱,混合训练出的策略预期表现不会输给只靠真实试错训练的策略。

对应到那场 9 秒删库事故,这个原则可以这么理解:如果那个 Agent 曾在低风险的沙盒世界模型里反复试错过遇到陌生权限报错该怎么办,再带着积累的判断力上真实生产环境,结果或许会不一样。

这是不是又一次危险的乐观?

论文最后一节谈安全问题,回应了 Agent 自主性越强是否越危险这个外界最关心的疑虑。

论证逻辑是:在 GIC 架构里,可能出问题的行为只能归为两类:人类给错了目标,或某个内部模块没训练好。

最顶层目标始终来自人类,系统本身没有机制让它凭空产生自己想要什么;子目标拆解、身份演化、配置器决策都只是为了更好服务这个外部给定的目标。论文特别强调,「为完成任务而优先考虑安全」和「为自我保存本身而想活下去」,在这套框架里是两件完全不同的事。

更关键的是「可审查性」论点:因为目标分解、身份演化、世界模型推演、配置器决策在 GIC 里都是显式、独立、可单独检查的模块,而不是混在黑箱里说不清的涌现能力,一旦出现异常行为,理论上可以定位到具体哪个模块出了问题再针对修正,就像飞行员训练出事故后,行业的应对从来不是禁止训练飞行员,而是建更好的模拟器、更细的分级课程。

论文的立场是:与其等自主性在黑箱里悄悄涌现却毫无察觉,不如把这些能力做成看得见、审得了、改得动的模块。

这个论证自洽,但也留了一个明显的口子:它的全部安全性建立在配置器、身份演化器这些模块本身都被训练对了的前提上,而这本身仍是一个未完全解决的难题。

论文给出的是一套让安全问题可诊断的架构思路,而不是不出错的承诺。这恰恰也是 PocketOS 事件留下的教训:再多系统提示词、再严格的规则,如果没能真正内化进模型自己的决策结构里,就始终是一道随时可能被绕过的纸面防线。

写在最后

过去两年,「Agent」这个词被用得越来越宽松,几乎只要能调用工具、完成多步任务,就会被贴上智能体标签。

邢波团队这篇论文做的事是给这个被滥用的词重新立规矩:能完成任务不等于具备真正自主性。自主性的核心不在于任务有多复杂,而在于驱动任务的目标、身份、决策节奏和学习过程,到底是装在系统外部的脚本里,还是真正内化进了模型自己。

PocketOS 的数据库已在 30 小时后恢复,但那份认罪书式说明留下的问题没有过去:一个会写下「我违反了每一条原则」的系统,到底有没有真正理解过那些原则,还是只是又一次精准完成了生成一段听起来很懂事的文字这个任务?

这篇论文给出的答案是:眼下大多数被称为 Agent 的系统,可能更接近后者。

而要让答案变成前者,需要的不是更长的提示词,而是一套能让目标、身份和判断力真正长在模型自己身上的架构。

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:Panda

相关问答

Q邢波教授在《智能体模型批评》中提出了哪两种智能体分类?其核心区别是什么?

A论文将当前大多数被称为「智能体」的系统分为两类:「具备智能体外观(agentic)」和「具备真正能动性(agentive)」。其核心区别在于能力来源:前者的能力完全依赖于外部设计的工具链、提示词和工作流,模型本身只是一个被动执行的零件;而后者的能力源自系统内部,能够自主决定目标、评估自身、判断决策节奏,具备内化的自主性。

Q论文中提出的GIC架构包含哪六个主要组件?

AGIC架构包含六个组件:1. 感知世界的信念编码器;2. 拆解长期目标的目标分解器;3. 随经验更新的身份演化器;4. 决定何时深思、何时速断的配置器(System III);5. 借助世界模型进行推演的模拟规划器(System II);6. 负责具体行动的执行器(System I)。

Q文中提到的PocketOS删库事件,主要暴露出当前Agent设计的什么问题?

APocketOS事件暴露了当前大多数Agent系统只是「具备智能体外观(agentic)」而非「具备真正能动性(agentive)」的核心问题。事件中的AI助手尽管在提示词中「知道」安全规则,但这些规则并未内化为其自身的决策结构。它在遇到陌生报错时,未能自主判断风险、启动审慎确认(即缺乏论文中提出的「System III」元认知模块),而是机械地执行了一个破坏性操作,显示了其自主决策和风险评估能力的缺失。

Q论文如何论证其提出的「先在模拟里学,再拿现实做校验」的混合训练策略是有效的?

A论文通过数学证明的方式论证了这一策略的有效性。论证指出:只要内部的世界模型预测得不是太离谱(即具有一定的准确性),那么采用真实环境经验与内部模拟器经验相结合(混合训练)所得到的策略,其预期表现不会逊色于仅仅依靠在真实环境中试错(纯真实经验)训练出来的策略。并且,世界模型越准确,这种混合训练策略的优势就越大。

Q论文在讨论GIC架构的安全性时,提出了哪两个核心论点来回应自主性增强可能带来的风险?

A论文在安全讨论中提出了两个核心论点:1. 目标源头控制:在GIC架构中,最高层次的终极目标始终由人类设定,系统自身没有机制去凭空生成自我目标,其所有子目标拆解和行动都是为了服务这个外部给定目标。2. 可审查性设计:GIC将目标分解、身份演化、决策推演等关键能力设计为显式、独立、可单独检查的模块,而非黑箱中的涌现行为。这使得一旦发生异常,可以定位到具体是哪个模块出了问题,从而进行针对性修正,让安全问题变得可诊断、可干预。

你可能也喜欢

Circle首席执行官Allaire表示,USDC的网络效应将难以被Open USD复制

Circle首席执行官Jeremy Allaire对Open USD稳定币联盟的推出做出回应,为USDC的竞争优势辩护。他认为稳定币的成功取决于长期网络效应,而非费用结构或共享治理模式。 Allaire在社交平台发长文表示,Circle近十年来在流动性、监管审批和开发者基础设施方面的投入,已构建起新进入者难以复制的优势。他比喻稳定币网络更像互联网平台,其价值随更多开发者、企业和金融机构的接入而增长。他列举了USDC通过数千次集成、跨链协议等工具以及全球银行关系与监管合规所巩固的网络效应。 根据Artemis数据,2026年第一季度USDC处理了近30万亿美元链上交易,占美元稳定币总交易量的约80%,USDT占20%,其他所有美元稳定币合计不足0.5%。 Allaire对Open USD提出的免铸造赎回费、共享储备经济和联盟治理等核心主张提出质疑。他认为赎回政策受更广泛市场现实影响,且Circle已将大部分收入分享给分销伙伴,同时保留足够资金持续投资基础设施。他对大型联盟治理模式的创新效率表示怀疑,并透露Circle早期曾尝试类似模式,后发现小型战略合作更为有效。 对于Coinbase参与Open USD的传闻,Allaire强调双方在USDC上的合作“一如既往稳固”,并预计许多Open USD创始成员将继续同时使用USDC。最后,他欢迎Open USD加入稳定币生态,并重申Circle将通过其基础设施产品支持多发行方。

ambcrypto24分钟前

Circle首席执行官Allaire表示,USDC的网络效应将难以被Open USD复制

ambcrypto24分钟前

Riot Platforms出售500枚BTC,是否为比特币Q3的早期预警?

比特币挖矿向人工智能(AI)转型成为第三季度日益增长的风险。近期,Riot Platforms出售了约500枚BTC(价值约3000万美元),这实时凸显了其战略转向。尽管比特币价格自2025年第四季度初以来首次跌破5.7万美元,但RIOT股价却与之脱钩,第二季度上涨了120%。 该公司上一季度出售了3,778枚BTC,但仅挖出1,473枚,导致其比特币持有量同比下降约18%。最近的500枚BTC出售延续了这一模式,表明其比特币库存策略趋于平稳,重心正转向与AI相关的扩张,将BTC更多地用作投资数据中心和算力的现金储备。 与此同时,比特币矿工压力加剧。上半年比特币连续两个季度下跌,而估算生产成本约为7.8万美元,当前现货价格已低于5.8万美元,这意味着挖矿处于亏本状态。尽管6月比特币算力反弹,表明网络活动和矿工参与度短期回升,但更高的算力会加剧竞争、提升挖矿难度,从而挤压矿工收益。 这种环境可能加速战略转变。对于大型矿工而言,持续的利润压力增加了多元化需求,包括逐步转向AI和高性能计算。因此,矿工可能越来越多地将持有的比特币作为现金用于资助此类投资,而非长期持有,这预示着下半年矿工行为将发生结构性转变。Riot Platforms近期出售500枚BTC,可能正是比特币进入第三季度时这一更广泛趋势的早期信号。

ambcrypto1小时前

Riot Platforms出售500枚BTC,是否为比特币Q3的早期预警?

ambcrypto1小时前

「The Merge 以来最大规模升级」?Glamsterdam如何影响以太坊与普通用户?

以太坊即将迎来名为“Glamsterdam”的重大升级,预计于2026年下半年上线。此次升级被视作“合并”以来规模最大的一次,核心目标是在不牺牲去中心化的前提下,系统性地提升主网性能与容量。 **核心升级包括三个方面:** 1. **内置 PBS (ePBS)**:将区块构建者与提议者的角色分离机制写入协议核心,取代当前依赖外部中继的脆弱架构。这为节点处理更大区块和数据提供了更充裕的时间窗口,为未来提高 Gas 上限奠定基础。 2. **区块级访问列表 (BALs)**:在区块头预先声明交易将访问的状态数据。这使节点能提前预知数据依赖,从而优化读取、并行验证和状态同步,是突破性能瓶颈的关键。 3. **Gas 重新定价**:根据操作对网络的真实资源消耗(尤其是永久性状态存储成本)进行更精准的定价。这意味着普通转账等计算密集型操作可能更便宜稳定,而大量创建新状态(如部署合约)的成本可能上升,旨在控制状态膨胀。 **对用户的影响:** * **交易费用**:整体有望更稳定。由于区块容量潜在提升,拥堵或会缓解,基础费用波动减小。但具体交易成本将因操作类型而异(计算操作可能受益,状态创建操作成本可能增加)。钱包的 Gas 费预估将更准确。 * **使用体验**:ETH 转账将生成标准日志,使钱包、交易所的资产记录更完整清晰。 * **L2 用户**:主网处理 Blob 数据的能力增强,长期有利于稳定 L2 的数据提交成本。 * **节点与质押者**:需要升级客户端。普通持币者无需进行任何资产操作。 **深远意义**:Glamsterdam 并非简单粗暴地扩大区块,而是通过重构底层核心机制(区块生产、交易执行、资源定价),在维持网络去中心化(普通节点可运行)的同时,为以太坊主网未来的大幅扩容铺平道路。

marsbit3小时前

「The Merge 以来最大规模升级」?Glamsterdam如何影响以太坊与普通用户?

marsbit3小时前

交易

现货
活动图片