世界模型从预测走向规划,HWM与长时程控制难题

marsbit發佈於 2026-04-17更新於 2026-04-17

文章摘要

世界模型的研究重点已从预测未来转向规划与执行。长时程控制面临两大难题:预测误差在多步推演中累积,以及动作搜索空间随任务增长而爆炸。HWM(分层世界模型)通过引入分层规划结构应对这一挑战:上层规划阶段路径,下层执行局部动作,将长任务分解为短段,显著降低计算成本并减少误差扩散。实验显示,在真实机器人抓取放置任务中,HWM成功率从单层模型的0%提升至70%。 V-JEPA 2侧重世界表征与预测,WAV聚焦预测失真的自我验证,而HWM填补了长时程规划的空白。三者共同推动世界模型从内部预测转向可执行系统,形成预测、规划、验证的完整能力链。这一分层思路也适用于AI智能体,解决多阶段、长链路任务中的规划脱节问题。

世界模型近一年的研究焦点最初集中在表征学习和未来预测。模型先理解世界,再在内部推演未来状态。这条路线已经产出一批有代表性的成果。V-JEPA 2(Video Joint Embedding Predictive Architecture 2——Meta 在 2025 年发布的一套视频世界模型)用超过 100 万小时互联网视频做预训练,再结合少量机器人交互数据,展示了世界模型在理解、预测和零样本机器人规划上的潜力。

但模型会预测,不等于模型会处理长任务。面对多阶段控制,系统通常会遇到两个压力。一个是预测误差会在长rollout(连续多步推演)中持续积累,导致整条路径越来越容易偏离目标。另一个是动作搜索空间会随horizon(规划视距)增长而迅速扩大,导致规划成本持续上升。HWM 没有改写世界模型的底层学习路线,而是在已有带动作条件的世界模型之上加入分层规划结构,让系统先组织阶段路径,再处理局部动作。

从技术上看,V-JEPA 2(https://ai.meta.com/research/vjepa/) 更偏向世界表征与基础预测,HWM 更偏向长时程规划,WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry,https://arxiv.org/abs/2604.01985)更偏向模型对自身预测失真的识别与修正。三条线正在逐步收敛。世界模型研究的重点,已经从单纯预测未来,转向如何把预测能力转成可执行、可修正、可验证的系统能力。

一、长时程控制为何仍是世界模型的瓶颈

长时程控制的难点,放到机器人任务里会更容易看清。以机械臂操作为例,抓起一个杯子再把它放进抽屉,这不是单一动作,而是一串连续步骤。系统要靠近物体,调整姿态,完成抓取,移动到目标位置,再处理抽屉和放置。链条一长,两个问题就会同时出现。一是预测误差会沿着rollout持续积累,另一个是动作搜索空间会迅速扩大。

系统缺少的,通常不是局部预测能力,而是把远目标组织成阶段路径的能力。许多动作从局部看像是在偏离目标,实际却是完成目标所需的中间步骤。比如抓取前先抬高手臂,开抽屉前先后退一点再调整角度。

在展示型任务中,世界模型已经能够给出连贯预测。但进入真实控制场景后,性能开始下滑,问题也随之浮现。压力不只来自表征本身,也来自规划层还不够成熟。

二、HWM 如何重构规划过程

HWM把原本一层完成的规划过程拆成两层。上层负责较长时间尺度上的阶段方向,下层负责较短时间尺度上的局部执行。模型不是只按一个节奏规划,而是按两个不同的时间节奏同时规划。

单层方法处理长任务时,通常需要在底层动作空间里直接搜索整条动作链。任务越长,搜索成本越高,预测误差也越容易沿着多步 rollout 持续扩散。HWM拆开过程后,高层只处理较长时间尺度上的路线选择,低层只处理当前这一段动作的完成,整条长任务被拆成多段较短任务,规划复杂度随之下降

这里还有个关键设计,高层动作并不是简单记录两个状态之间的差值,而是用一个编码器,把一段低层动作压缩成更高层的动作表示。对长任务来说,关键不只在起点和终点之间差了多少,更在于中间步骤是如何组织的。高层如果只看位移差,容易丢掉这段动作链里的路径信息。

HWM体现的是一种分层任务组织方式。面对一项多阶段工作,系统不再一次性展开所有动作,而是先形成较粗的阶段路径,再逐段执行与修正。这种层级关系进入世界模型之后,预测能力会开始更稳定地转化成规划能力。

三、从0%到70%,实验结果说明了什么

在论文设置的真实世界抓取并放置任务中,系统只拿到最终目标条件,不提供人工拆好的中间目标。在这种条件下,HWM的成功率达到 70%,而单层 world model 成功率为 0%。原本几乎无法完成的长任务,在引入分层规划后,变成了大概率可实现的结果。

论文还测试了推物体操作和迷宫导航等仿真任务。结果显示,分层规划不只提高了成功率,也降低了规划阶段的计算成本。在一些环境中规划阶段的计算成本最多可以减少到原来的四分之一左右,同时保持更高或相当的成功率。

四、从 V-JEPA 到 HWM 再到 WAV

V-JEPA 2代表的是世界表征这条路线。V-JEPA 2 用超过 100 万小时互联网视频进行预训练,再结合不到 62 小时的机器人视频做 post-training(预训练后的针对性训练),得到可用于理解、预测和规划物理世界的 latent action-conditioned world model(在抽象表示空间中、结合动作信息进行预测的世界模型)。它所展示的是模型可以通过大规模观察获得世界表征,并把这种表征迁移到机器人规划中。

HWM 处在下一步。模型已经拥有世界表征和基础预测能力,但一进入多阶段控制,误差累积和搜索空间扩张的问题就会爆发。HWM没有改变底层表示学习路线,而是在已有带动作条件的世界模型之上加入多时间尺度的规划结构。它所处理的问题是模型怎样把远目标组织成一组中间步骤,再逐段推进。

WAV则进一步把焦点放在验证能力上。世界模型想进入策略优化和部署场景,不能只会预测,还要能发现自己在哪些区域容易失真,并据此进行校正。它关注的是模型怎样检查自己。

V-JEPA偏向世界表征,HWM偏向任务规划,WAV偏向结果验证。三者虽关注点不同,但大方向是一致的。世界模型的下一阶段,已经不只是内部预测,而是预测、规划、验证逐渐连成一套系统能力。

五、从内部预测走向可执行系统

过去不少世界模型工作,更接近于提升未来状态预测的连续性,或者提升内部世界表征的稳定性。但当前研究重点已经开始变化,系统既要形成对环境的判断,也要把判断转成动作,并在结果出来后继续修正下一步。想要更接近真实部署,就需要在长时程任务里控制误差传播、压缩搜索范围、降低推理成本。

这类变化也会影响 AI agent。很多agent系统已经能完成短链路任务,比如调用工具、读取文件、执行若干步骤指令。但任务一旦变成长链路、多阶段、需要中途重规划,性能就会下滑。这与机器人控制中的难点并没有本质差别,都是高层路径组织能力不足,导致局部执行和整体目标之间脱节。

HWM提供的分层思路,高层负责路径与阶段目标,低层负责局部动作与反馈处理,再叠加结果验证,这类分层结构未来会在更多系统中持续出现。世界模型的下一阶段,重点也不再只是预测未来,而是把预测、执行和修正组织成一条可以运行的路径。

相關問答

Q世界模型研究近一年的焦点最初集中在哪些方面?

A世界模型研究近一年的焦点最初集中在表征学习和未来预测。模型先理解世界,再在内部推演未来状态。

QHWM如何解决长时程控制中的预测误差积累和动作搜索空间扩大的问题?

AHWM通过分层规划结构解决长时程控制问题:上层负责较长时间尺度上的阶段方向,下层负责较短时间尺度上的局部执行。这样将长任务拆分为多段较短任务,降低了规划复杂度和预测误差的积累。

Q在论文设置的真实世界抓取并放置任务中,HWM的成功率是多少?单层世界模型的成功率又是多少?

A在论文设置的真实世界抓取并放置任务中,HWM的成功率达到70%,而单层世界模型的成功率为0%。

QV-JEPA 2、HWM和WAV分别侧重于世界模型研究的哪些方面?

AV-JEPA 2更偏向世界表征与基础预测,HWM更偏向长时程规划,WAV更偏向模型对自身预测失真的识别与修正。

Q世界模型研究的重点正在从什么转向什么?

A世界模型研究的重点正在从单纯预测未来,转向如何把预测能力转成可执行、可修正、可验证的系统能力。

你可能也喜歡

Cyber Capital CIO称以太坊已失败,称V神为'独裁者'——归咎于'致命组合'

欧洲最古老的加密货币投资基金之一Cyber Capital的首席投资官Justin Bons在社交媒体上发文,严厉批评以太坊及其联合创始人Vitalik Buterin。Bons认为,以太坊目前的治理和扩展路线存在“致命组合”,即中心化控制与整体“功能失调”并存。他指责Vitalik Buterin像“独裁者”一样主导以太坊发展,导致ETH在采用率和费用收入上节节败退。 Bons特别指出,以太坊的Layer 2扩展路线图并未带来应有的市场竞争力,网络容量增加但速度未显著提升,使其在高价值应用场景中“毫无竞争力”。他批评ZK-EVM路线图将是下一个“重大失误”,认为其开发周期长、收效低,且因欺诈证明计算时间导致区块时间缓慢,永久性地限制了链的线性扩展能力,并带来了构建者中心化等权衡问题。 针对以太坊以去中心化优先的常见反驳,Bons认为去中心化并非无成本,网络效用降低反而会威胁其长期去中心化与安全。他声称竞争对手可以在更快、更便宜、更去中心化的同时,保持稀缺性和安全性。因此,以太坊的叙事空间正不断收窄,可能沦为“投机性的 meme 崇拜动态”。 Bons列举了Solana (SOL)、Hyperliquid (HYPE) 和 NEAR 等作为替代选择,认为它们在费用、使用率和去中心化程度上更具优势。他也提到卡尔达诺 (ADA),称其当前比以太坊更去中心化。 最后,Bons断言以太坊已“失败”,内部变革机制已被掌控,领导层“比以往更极端”,反对声音被排挤,因此“没有希望”纠正方向。发文时,ETH价格已跌破2000美元关键支撑,月度跌幅达15%,较历史高点下跌约60%。

bitcoinist32 分鐘前

Cyber Capital CIO称以太坊已失败,称V神为'独裁者'——归咎于'致命组合'

bitcoinist32 分鐘前

交易反思:为什么炒币越久越难受?其实你的大脑已经被压力“搞坏”了

交易反思:为什么炒币越久越难受?其实你的大脑已经被压力“搞坏”了 作者指出,交易到最后比拼的并非智力,而是神经系统的生存能力。交易者的个人背景、财务状况和心理状态都会深刻影响其决策,而交易心理学却常被忽视。许多人在亏损时承受着巨大的精神压力,包括失眠、情绪崩溃和绝望感。 交易起初源于改变人生的希望,但很快会进入一个恶性循环:小幅盈亏、犯错、错失机会,进而产生对错失的恐惧。这种恐惧转化为冲动交易、频繁操作和耐心丧失,最终导致持续亏损。当亏损达到一定程度,交易就演变成一场心理求生战。 关键在于,交易在很大程度上是生理化学反应。持续的高压状态会导致皮质醇水平长期升高,使大脑处于“生存模式”,进而损害睡眠、引发情绪化决策、消磨耐心。多巴胺偶尔带来的盈利快感,会让大脑将痛苦与奖赏错误关联,使交易者沉迷其中无法自拔。 最终,交易者可能对亏损麻木,将焦虑内化为性格,交易目的从盈利扭曲为寻求刺激或自我安慰。此时,交易已沦为一种成瘾行为。 文章强调,有时最强大的举措是暂停交易,给自己足够时间反思:是热爱交易,还是被困在由压力和多巴胺构筑的牢笼里?市场永远存在新机会,但若在追逐中耗尽心力,当真正机会来临时已无力参与。顶尖交易者未必最聪明,而是那些能在精神上持久坚持的人。真正的顿悟或许是:你所追逐的并非金钱,而是内心的解脱。

marsbit58 分鐘前

交易反思:为什么炒币越久越难受?其实你的大脑已经被压力“搞坏”了

marsbit58 分鐘前

给宇树甩了两张工牌

英伟达在台北发布了人形机器人Isaac GR00T参考设计,由宇树科技提供身体、Sharpa提供灵巧手、英伟达提供Jetson Thor芯片及全套软件栈。这套“交钥匙”方案旨在服务高校及研究人员,可将实验准备时间从几天缩短到几小时,其合成数据生成能力极强。同日,宇树科技A股首发过会,估值420亿,但其募资的最大投向是自研具身大模型(大脑)。 文章指出,英伟达的参考设计模式与当年高通在手机行业的“交钥匙”方案类似,可能通过开源模型和软件来锁定其硬件生态,从而掌握行业规则制定权,将利润集中于“大脑”环节。宇树科技虽为参考设计供应身体,却同时大力投资自研大脑,并已在其G1机器人上同时运行英伟达GR00T、自研UnifoLM及第三方中科第五纪模型,这被视作一场“穿着合作外衣的独立战争”。 目前,仅特斯拉凭借其FSD数据飞轮、自研芯片和超级制造体系,在机器人领域实现了完全脱离英伟达的闭环。文章认为,机器人的身体(运动控制、灵巧操作等)目前仍有较高的技术门槛和差异化空间,未像手机硬件那样完全同质化。宇树押注自研大脑,是在与时间赛跑,窗口期可能只有两三年。若其自研大脑成功,则能掌握主动权;若失败,则可能面临被标准化方案锁定在低利润“身体制造商”位置的风险。

marsbit1 小時前

给宇树甩了两张工牌

marsbit1 小時前

交易

現貨
合約
活动图片