世界模型从预测走向规划，HWM与长时程控制难题

marsbit發佈於 2026-04-17更新於 2026-04-17

文章摘要

世界模型的研究重点已从预测未来转向规划与执行。长时程控制面临两大难题：预测误差在多步推演中累积，以及动作搜索空间随任务增长而爆炸。HWM（分层世界模型）通过引入分层规划结构应对这一挑战：上层规划阶段路径，下层执行局部动作，将长任务分解为短段，显著降低计算成本并减少误差扩散。实验显示，在真实机器人抓取放置任务中，HWM成功率从单层模型的0%提升至70%。 V-JEPA 2侧重世界表征与预测，WAV聚焦预测失真的自我验证，而HWM填补了长时程规划的空白。三者共同推动世界模型从内部预测转向可执行系统，形成预测、规划、验证的完整能力链。这一分层思路也适用于AI智能体，解决多阶段、长链路任务中的规划脱节问题。

世界模型近一年的研究焦点最初集中在表征学习和未来预测。模型先理解世界,再在内部推演未来状态。这条路线已经产出一批有代表性的成果。V-JEPA 2(Video Joint Embedding Predictive Architecture 2——Meta 在 2025 年发布的一套视频世界模型)用超过 100 万小时互联网视频做预训练,再结合少量机器人交互数据,展示了世界模型在理解、预测和零样本机器人规划上的潜力。

但模型会预测,不等于模型会处理长任务。面对多阶段控制,系统通常会遇到两个压力。一个是预测误差会在长rollout(连续多步推演)中持续积累,导致整条路径越来越容易偏离目标。另一个是动作搜索空间会随horizon(规划视距)增长而迅速扩大,导致规划成本持续上升。HWM 没有改写世界模型的底层学习路线,而是在已有带动作条件的世界模型之上加入分层规划结构,让系统先组织阶段路径,再处理局部动作。

从技术上看,V-JEPA 2(https://ai.meta.com/research/vjepa/) 更偏向世界表征与基础预测,HWM 更偏向长时程规划,WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry,https://arxiv.org/abs/2604.01985)更偏向模型对自身预测失真的识别与修正。三条线正在逐步收敛。世界模型研究的重点,已经从单纯预测未来,转向如何把预测能力转成可执行、可修正、可验证的系统能力。

一、长时程控制为何仍是世界模型的瓶颈

长时程控制的难点,放到机器人任务里会更容易看清。以机械臂操作为例,抓起一个杯子再把它放进抽屉,这不是单一动作,而是一串连续步骤。系统要靠近物体,调整姿态,完成抓取,移动到目标位置,再处理抽屉和放置。链条一长,两个问题就会同时出现。一是预测误差会沿着rollout持续积累,另一个是动作搜索空间会迅速扩大。

系统缺少的,通常不是局部预测能力,而是把远目标组织成阶段路径的能力。许多动作从局部看像是在偏离目标,实际却是完成目标所需的中间步骤。比如抓取前先抬高手臂,开抽屉前先后退一点再调整角度。

在展示型任务中,世界模型已经能够给出连贯预测。但进入真实控制场景后,性能开始下滑,问题也随之浮现。压力不只来自表征本身,也来自规划层还不够成熟。

二、HWM 如何重构规划过程

HWM把原本一层完成的规划过程拆成两层。上层负责较长时间尺度上的阶段方向,下层负责较短时间尺度上的局部执行。模型不是只按一个节奏规划,而是按两个不同的时间节奏同时规划。

单层方法处理长任务时,通常需要在底层动作空间里直接搜索整条动作链。任务越长,搜索成本越高,预测误差也越容易沿着多步 rollout 持续扩散。HWM拆开过程后,高层只处理较长时间尺度上的路线选择,低层只处理当前这一段动作的完成,整条长任务被拆成多段较短任务,规划复杂度随之下降

这里还有个关键设计,高层动作并不是简单记录两个状态之间的差值,而是用一个编码器,把一段低层动作压缩成更高层的动作表示。对长任务来说,关键不只在起点和终点之间差了多少,更在于中间步骤是如何组织的。高层如果只看位移差,容易丢掉这段动作链里的路径信息。

HWM体现的是一种分层任务组织方式。面对一项多阶段工作,系统不再一次性展开所有动作,而是先形成较粗的阶段路径,再逐段执行与修正。这种层级关系进入世界模型之后,预测能力会开始更稳定地转化成规划能力。

三、从0%到70%,实验结果说明了什么

在论文设置的真实世界抓取并放置任务中,系统只拿到最终目标条件,不提供人工拆好的中间目标。在这种条件下,HWM的成功率达到 70%,而单层 world model 成功率为 0%。原本几乎无法完成的长任务,在引入分层规划后,变成了大概率可实现的结果。

论文还测试了推物体操作和迷宫导航等仿真任务。结果显示,分层规划不只提高了成功率,也降低了规划阶段的计算成本。在一些环境中规划阶段的计算成本最多可以减少到原来的四分之一左右,同时保持更高或相当的成功率。

四、从 V-JEPA 到 HWM 再到 WAV

V-JEPA 2代表的是世界表征这条路线。V-JEPA 2 用超过 100 万小时互联网视频进行预训练,再结合不到 62 小时的机器人视频做 post-training(预训练后的针对性训练),得到可用于理解、预测和规划物理世界的 latent action-conditioned world model(在抽象表示空间中、结合动作信息进行预测的世界模型)。它所展示的是模型可以通过大规模观察获得世界表征,并把这种表征迁移到机器人规划中。

HWM 处在下一步。模型已经拥有世界表征和基础预测能力,但一进入多阶段控制,误差累积和搜索空间扩张的问题就会爆发。HWM没有改变底层表示学习路线,而是在已有带动作条件的世界模型之上加入多时间尺度的规划结构。它所处理的问题是模型怎样把远目标组织成一组中间步骤,再逐段推进。

WAV则进一步把焦点放在验证能力上。世界模型想进入策略优化和部署场景,不能只会预测,还要能发现自己在哪些区域容易失真,并据此进行校正。它关注的是模型怎样检查自己。

V-JEPA偏向世界表征,HWM偏向任务规划,WAV偏向结果验证。三者虽关注点不同,但大方向是一致的。世界模型的下一阶段,已经不只是内部预测,而是预测、规划、验证逐渐连成一套系统能力。

五、从内部预测走向可执行系统

过去不少世界模型工作,更接近于提升未来状态预测的连续性,或者提升内部世界表征的稳定性。但当前研究重点已经开始变化,系统既要形成对环境的判断,也要把判断转成动作,并在结果出来后继续修正下一步。想要更接近真实部署,就需要在长时程任务里控制误差传播、压缩搜索范围、降低推理成本。

这类变化也会影响 AI agent。很多agent系统已经能完成短链路任务,比如调用工具、读取文件、执行若干步骤指令。但任务一旦变成长链路、多阶段、需要中途重规划,性能就会下滑。这与机器人控制中的难点并没有本质差别,都是高层路径组织能力不足,导致局部执行和整体目标之间脱节。

HWM提供的分层思路,高层负责路径与阶段目标,低层负责局部动作与反馈处理,再叠加结果验证,这类分层结构未来会在更多系统中持续出现。世界模型的下一阶段,重点也不再只是预测未来,而是把预测、执行和修正组织成一条可以运行的路径。

你可能也喜歡

注意：本周将有10种山寨币迎来大规模代币解锁！以下是按天和小时的列表

加密货币市场上周因黑客事件和地缘政治影响而下跌。本周将迎来多个山寨币的大规模代币解锁，具体时间表如下（均为UTC+3时区）： - **Lagrange (LAG)**：8月4日3:00，解锁138万美元，占市值15.04% - **Proof (PROOF)**：8月5日3:00，解锁3911万美元，占市值119.59% - **Power Protocol (POWER)**：8月5日3:00，解锁162万美元，占市值8.93% - **Verona (VERONA)**：8月5日3:00，解锁137万美元，占市值12.61% - **Ethena (ENA)**：8月5日11:00，解锁1528万美元，占市值1.80% - **Goldfinger (GF)**：8月6日3:00，解锁1152万美元，占市值5.05% - **Infinity (INF)**：8月7日3:00，解锁231万美元，占市值20.30% - **Stable (STBL)**：8月8日3:00，解锁2875万美元，占市值3.55% - **Name (NAME)**：8月9日3:00，解锁4847万美元，占市值74.54% - **Move (MOVE)**：8月9日3:00，解锁122万美元，占市值3.90% 其中Proof代币解锁规模显著超过其当前市值，Name解锁比例也较高。本文不构成投资建议。

cryptonews.ru51 分鐘前

cryptonews.ru51 分鐘前

发布了过去几小时查询最热门的替代币名单！

加密货币数据平台CoinGecko公布了最近三小时内用户查询量最高的加密货币趋势榜单。榜首是Pudgy Penguins（$PENGU），Catecoin（CATE）和Bless（$BLESS）分列第二、三位。价格方面，过去24小时内$PENGU上涨3.9%，排名第二的CATE大幅上涨126.2%，$BLESS上涨86.1%。What IF（IF）同期也上涨41.9%。榜单同时还列出了各加密货币的总市值，其中Hyperliquid（HYPE）市值最高，达114.3亿美元，比特币（BTC）市值为1.27万亿美元，以太坊（ETH）市值为2241.7亿美元。平台强调，此榜单不构成投资建议。

cryptonews.ru2 小時前

cryptonews.ru2 小時前

每月10万美元：Truth Social向投资公司出售特朗普帖文访问权

特朗普媒体与技术集团于2026年8月1日正式推出付费数据服务Truth API。该服务以每月高达10万美元的费用，向机构投资者和高频交易公司提供实时访问Truth Social上最具影响力账户（包括特朗普总统拥有约1300万粉丝的账号）帖文的权限，延迟仅毫秒级。公司称此举是将其核心资产货币化、创造稳定高利润收入来源的战略一部分。此项服务引发了政治争议。民主党参议员沃伦和希夫要求美国证券交易委员会调查其是否违法。共和党参议员卡西迪批评这是以金钱售卖获取总统言论的特权通道。TMTG回应称批评是协调一致的抹黑行动，旨在损害这家上市公司。分析指出，此类高速数据流可能重现类似2013年美联社账号被黑导致市场闪崩的风险，因为交易算法会快于人工验证而做出反应。这引发了对于帖子真实性验证机制缺失及潜在市场操纵或黑客攻击风险的担忧。特朗普目前仍持有TMTG约41%的股份。

cryptonews.ru3 小時前

cryptonews.ru3 小時前

STRC优先股价格仍低于面值，策略集团股息维持在12%

Strategy公司的优先股STRC在7月份价格持续低于其100美元的面值，但公司宣布8月股息将维持12%不变，不会上调。董事长Michael Saylor通过社交媒体确认了这一消息，并继续将STRC宣传为增加收入的工具。8月将是股息改为半月支付后的第二个月。 STRC股价在7月有所回升，月底收于89.46美元，全月上涨5.42%，但交易量低于日均水平。公司CEO重申，管理层的目标是让STRC股价最终达到99-100美元区间，但未给出具体时间表。尽管公司第二季度因比特币持仓未实现亏损而录得巨额净亏损，但已建立37.5亿美元的现金储备，以支持其BTC货币化计划下的优先股派息。该储备足以支付超过两年的优先股股息和利息义务。公司近期已折价回购了部分STRC优先股，并计划在股价低于面值时继续回购。

cointelegraph4 小時前

cointelegraph4 小時前

比特币提现仍在继续：Coldcard冷钱包8年存储终成空

硬件钱包Coldcard遭黑客攻击，导致大量资金从易受攻击设备中被持续转出。据Galaxy Research数据，截至2026年8月2日，已有4585个地址被盗，损失总额达1367.05 BTC（约合8860万美元），远超7月30日最初报告的594.5 BTC。大部分被盗资金仍停留在攻击者地址。问题根源并非固件，而是设备生成的种子短语存在漏洞。2021年3月起，因程序员错误集成libNgU库，设备从使用STM32硬件随机数生成器转为使用软件生成器Yasmarang，该生成器由公开可获取的芯片序列号和计时器状态初始化，导致生成的种子短语可在离线状态下被暴力破解。即使固件后续已更新，只要用户未将资金转移至基于新种子短语生成的新地址，旧钱包就始终处于风险中。受影响的设备包括特定固件版本的Mk2/Mk3、Mk4/Mk5及Q系列。仅当种子短语是通过至少50次独立掷骰子或强唯一性BIP-39密码短语创建时方可幸免。官方建议受影响用户立即在已修复的固件上生成新种子短语并转移资产。报道提及一位39岁投资者的案例，他因该漏洞损失了2 BTC（约13万美元）。他多年来通过体力劳动积攒比特币，将其视为在制裁和高通胀国家中的财务保障与提前退休的途径。此次事件使他的长期持有策略和“冷存储”信心遭受重击，他因此决定彻底退出加密货币领域。从历史数据看，随机数生成器缺陷并非首例，类似问题曾导致巨额损失。此次事件警示，即使离线存储也未必绝对安全，其安全性高度依赖于底层硬件和算法的可靠性。

cryptonews.ru5 小時前

cryptonews.ru5 小時前

交易

現貨

世界模型从预测走向规划，HWM与长时程控制难题

文章摘要

一、长时程控制为何仍是世界模型的瓶颈

二、HWM 如何重构规划过程

三、从0%到70%,实验结果说明了什么

四、从 V-JEPA 到 HWM 再到 WAV

五、从内部预测走向可执行系统

相關問答

你可能也喜歡

注意：本周将有10种山寨币迎来大规模代币解锁！以下是按天和小时的列表

发布了过去几小时查询最热门的替代币名单！

每月10万美元：Truth Social向投资公司出售特朗普帖文访问权

STRC优先股价格仍低于面值，策略集团股息维持在12%

比特币提现仍在继续：Coldcard冷钱包8年存储终成空

交易

熱門分類

熱門標籤