世界模型从预测走向规划,HWM与长时程控制难题

marsbit发布于2026-04-17更新于2026-04-17

文章摘要

世界模型的研究重点已从预测未来转向规划与执行。长时程控制面临两大难题:预测误差在多步推演中累积,以及动作搜索空间随任务增长而爆炸。HWM(分层世界模型)通过引入分层规划结构应对这一挑战:上层规划阶段路径,下层执行局部动作,将长任务分解为短段,显著降低计算成本并减少误差扩散。实验显示,在真实机器人抓取放置任务中,HWM成功率从单层模型的0%提升至70%。 V-JEPA 2侧重世界表征与预测,WAV聚焦预测失真的自我验证,而HWM填补了长时程规划的空白。三者共同推动世界模型从内部预测转向可执行系统,形成预测、规划、验证的完整能力链。这一分层思路也适用于AI智能体,解决多阶段、长链路任务中的规划脱节问题。

世界模型近一年的研究焦点最初集中在表征学习和未来预测。模型先理解世界,再在内部推演未来状态。这条路线已经产出一批有代表性的成果。V-JEPA 2(Video Joint Embedding Predictive Architecture 2——Meta 在 2025 年发布的一套视频世界模型)用超过 100 万小时互联网视频做预训练,再结合少量机器人交互数据,展示了世界模型在理解、预测和零样本机器人规划上的潜力。

但模型会预测,不等于模型会处理长任务。面对多阶段控制,系统通常会遇到两个压力。一个是预测误差会在长rollout(连续多步推演)中持续积累,导致整条路径越来越容易偏离目标。另一个是动作搜索空间会随horizon(规划视距)增长而迅速扩大,导致规划成本持续上升。HWM 没有改写世界模型的底层学习路线,而是在已有带动作条件的世界模型之上加入分层规划结构,让系统先组织阶段路径,再处理局部动作。

从技术上看,V-JEPA 2(https://ai.meta.com/research/vjepa/) 更偏向世界表征与基础预测,HWM 更偏向长时程规划,WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry,https://arxiv.org/abs/2604.01985)更偏向模型对自身预测失真的识别与修正。三条线正在逐步收敛。世界模型研究的重点,已经从单纯预测未来,转向如何把预测能力转成可执行、可修正、可验证的系统能力。

一、长时程控制为何仍是世界模型的瓶颈

长时程控制的难点,放到机器人任务里会更容易看清。以机械臂操作为例,抓起一个杯子再把它放进抽屉,这不是单一动作,而是一串连续步骤。系统要靠近物体,调整姿态,完成抓取,移动到目标位置,再处理抽屉和放置。链条一长,两个问题就会同时出现。一是预测误差会沿着rollout持续积累,另一个是动作搜索空间会迅速扩大。

系统缺少的,通常不是局部预测能力,而是把远目标组织成阶段路径的能力。许多动作从局部看像是在偏离目标,实际却是完成目标所需的中间步骤。比如抓取前先抬高手臂,开抽屉前先后退一点再调整角度。

在展示型任务中,世界模型已经能够给出连贯预测。但进入真实控制场景后,性能开始下滑,问题也随之浮现。压力不只来自表征本身,也来自规划层还不够成熟。

二、HWM 如何重构规划过程

HWM把原本一层完成的规划过程拆成两层。上层负责较长时间尺度上的阶段方向,下层负责较短时间尺度上的局部执行。模型不是只按一个节奏规划,而是按两个不同的时间节奏同时规划。

单层方法处理长任务时,通常需要在底层动作空间里直接搜索整条动作链。任务越长,搜索成本越高,预测误差也越容易沿着多步 rollout 持续扩散。HWM拆开过程后,高层只处理较长时间尺度上的路线选择,低层只处理当前这一段动作的完成,整条长任务被拆成多段较短任务,规划复杂度随之下降

这里还有个关键设计,高层动作并不是简单记录两个状态之间的差值,而是用一个编码器,把一段低层动作压缩成更高层的动作表示。对长任务来说,关键不只在起点和终点之间差了多少,更在于中间步骤是如何组织的。高层如果只看位移差,容易丢掉这段动作链里的路径信息。

HWM体现的是一种分层任务组织方式。面对一项多阶段工作,系统不再一次性展开所有动作,而是先形成较粗的阶段路径,再逐段执行与修正。这种层级关系进入世界模型之后,预测能力会开始更稳定地转化成规划能力。

三、从0%到70%,实验结果说明了什么

在论文设置的真实世界抓取并放置任务中,系统只拿到最终目标条件,不提供人工拆好的中间目标。在这种条件下,HWM的成功率达到 70%,而单层 world model 成功率为 0%。原本几乎无法完成的长任务,在引入分层规划后,变成了大概率可实现的结果。

论文还测试了推物体操作和迷宫导航等仿真任务。结果显示,分层规划不只提高了成功率,也降低了规划阶段的计算成本。在一些环境中规划阶段的计算成本最多可以减少到原来的四分之一左右,同时保持更高或相当的成功率。

四、从 V-JEPA 到 HWM 再到 WAV

V-JEPA 2代表的是世界表征这条路线。V-JEPA 2 用超过 100 万小时互联网视频进行预训练,再结合不到 62 小时的机器人视频做 post-training(预训练后的针对性训练),得到可用于理解、预测和规划物理世界的 latent action-conditioned world model(在抽象表示空间中、结合动作信息进行预测的世界模型)。它所展示的是模型可以通过大规模观察获得世界表征,并把这种表征迁移到机器人规划中。

HWM 处在下一步。模型已经拥有世界表征和基础预测能力,但一进入多阶段控制,误差累积和搜索空间扩张的问题就会爆发。HWM没有改变底层表示学习路线,而是在已有带动作条件的世界模型之上加入多时间尺度的规划结构。它所处理的问题是模型怎样把远目标组织成一组中间步骤,再逐段推进。

WAV则进一步把焦点放在验证能力上。世界模型想进入策略优化和部署场景,不能只会预测,还要能发现自己在哪些区域容易失真,并据此进行校正。它关注的是模型怎样检查自己。

V-JEPA偏向世界表征,HWM偏向任务规划,WAV偏向结果验证。三者虽关注点不同,但大方向是一致的。世界模型的下一阶段,已经不只是内部预测,而是预测、规划、验证逐渐连成一套系统能力。

五、从内部预测走向可执行系统

过去不少世界模型工作,更接近于提升未来状态预测的连续性,或者提升内部世界表征的稳定性。但当前研究重点已经开始变化,系统既要形成对环境的判断,也要把判断转成动作,并在结果出来后继续修正下一步。想要更接近真实部署,就需要在长时程任务里控制误差传播、压缩搜索范围、降低推理成本。

这类变化也会影响 AI agent。很多agent系统已经能完成短链路任务,比如调用工具、读取文件、执行若干步骤指令。但任务一旦变成长链路、多阶段、需要中途重规划,性能就会下滑。这与机器人控制中的难点并没有本质差别,都是高层路径组织能力不足,导致局部执行和整体目标之间脱节。

HWM提供的分层思路,高层负责路径与阶段目标,低层负责局部动作与反馈处理,再叠加结果验证,这类分层结构未来会在更多系统中持续出现。世界模型的下一阶段,重点也不再只是预测未来,而是把预测、执行和修正组织成一条可以运行的路径。

相关问答

Q世界模型研究近一年的焦点最初集中在哪些方面?

A世界模型研究近一年的焦点最初集中在表征学习和未来预测。模型先理解世界,再在内部推演未来状态。

QHWM如何解决长时程控制中的预测误差积累和动作搜索空间扩大的问题?

AHWM通过分层规划结构解决长时程控制问题:上层负责较长时间尺度上的阶段方向,下层负责较短时间尺度上的局部执行。这样将长任务拆分为多段较短任务,降低了规划复杂度和预测误差的积累。

Q在论文设置的真实世界抓取并放置任务中,HWM的成功率是多少?单层世界模型的成功率又是多少?

A在论文设置的真实世界抓取并放置任务中,HWM的成功率达到70%,而单层世界模型的成功率为0%。

QV-JEPA 2、HWM和WAV分别侧重于世界模型研究的哪些方面?

AV-JEPA 2更偏向世界表征与基础预测,HWM更偏向长时程规划,WAV更偏向模型对自身预测失真的识别与修正。

Q世界模型研究的重点正在从什么转向什么?

A世界模型研究的重点正在从单纯预测未来,转向如何把预测能力转成可执行、可修正、可验证的系统能力。

你可能也喜欢

富达年中复盘:2026 年数字资产的 6 大关键趋势

富达数字资产研究团队在2026年年中复盘报告中,梳理了年初展望中提出的六大关键趋势进展,认为数字资产领域正在进行结构性“重塑”。 1. **数字资产与传统资本市场加速整合**:趋势持续且快于预期。现货比特币ETP期权未平仓合约激增,代币化领域活跃,监管框架(如SEC/CFTC指南)趋于清晰,推动数字资产进一步融入主流金融体系。 2. **代币持有者权利受关注但仍不明朗**:生态内相关机制(如回购、治理重组)的试验在继续,但市场尚未对此形成明确的“权利溢价”定价,该趋势仍处早期。 3. **人工智能算力需求可能影响比特币挖矿**:比特币算力与挖矿难度出现下降,虽部分受季节性因素影响,但增长放缓的长期趋势与AI算力竞争加剧的预测相符,矿工可能正转向更有利可图的AI数据中心业务。 4. **比特币网络处于新的转折点**:OP_RETURN数据上限放宽未导致网络滥用或臃肿。当前焦点转向网络动态,Bitcoin Knots节点占比约17%,虽引发对潜在分裂风险的讨论,但Bitcoin Core(占比77%)仍主导共识。同时,抗量子计算等长期安全升级研究获得进展。 5. **空头暂时掌控市场局面**:年初至今,受清算去杠杆、高通胀及地缘政治不确定性影响,熊市情景占上风,比特币价格下跌。但近期在地缘冲突后,比特币展现出避险属性,跑赢部分传统资产,且机构参与、监管清晰度提升等结构性利好依然存在。 6. **黄金保持强势,去美元化趋势显现**:黄金在央行购金及去美元化趋势支撑下表现强劲。有证据显示比特币开始在一些国际贸易场景(如伊朗)作为支付手段被使用,但比特币紧随黄金优异表现的情景尚未出现。 **结论**:当前数字资产市场呈现短期压力与长期结构性进展并存的局面。投资者需超越价格波动,关注机构融合、监管、基础设施等领域的实质推进,这些正为下一阶段增长积蓄力量。

marsbit51分钟前

富达年中复盘:2026 年数字资产的 6 大关键趋势

marsbit51分钟前

富达年中复盘:2026 年数字资产的 6 大关键趋势

富达数字资产在年中复盘中,梳理了其在《2026年展望》中提出的六大关键趋势的当前进展: 1. **数字资产与资本市场加速整合**:传统金融渠道对数字资产的敞口需求坚挺,现货比特币ETP期权等产品发展迅速,反映出机构和主流投资者采用率持续上升。代币化势头增强,监管框架也趋于清晰,推动数字资产进一步融入金融体系。 2. **代币持有者权利逐渐受关注**:生态内正在试验更多机制以绑定持有者利益,如基于储备的回购和治理结构更新。但相关的“权利溢价”尚未完全体现在市场定价中,趋势仍处早期。 3. **人工智能与挖矿的潜在转变**:比特币算力增长呈现放缓趋势,部分原因可能是矿工将能源和基础设施转向利润率可能更高的AI算力需求。这符合此前关于结构性转变的判断。 4. **比特币处于新的转折点**:提高OP_RETURN数据上限并未导致区块链明显膨胀或网络压力。当前焦点转向网络动态,如Bitcoin Knots节点的波动可能带来潜在分裂风险,但Bitcoin Core节点仍主导共识。同时,抗量子计算等长期安全升级的准备工作也在推进。 5. **空头暂时掌控局面**:受去杠杆、高通胀及地缘政治不确定性影响,比特币价格承压,熊市情景占上风。但在压力时期,比特币也展现出作为高流动性中立资产的韧性,且机构参与、监管清晰度提升等结构性利好依然存在。 6. **黄金保持强势**:受央行购金及全球“去美元化”趋势支撑,黄金年初表现强劲。央行需求持续,黄金已成为全球主要储备资产。然而,此前预期的比特币紧随黄金的优异表现尚未出现。 **结论**:当前数字资产市场呈现短期压力与长期结构性进展并存的局面。机构化、监管和基础设施等趋势正按预期推进,为下一阶段增长积蓄力量,投资者需关注这些底层转变而非短期价格波动。

链捕手59分钟前

富达年中复盘:2026 年数字资产的 6 大关键趋势

链捕手59分钟前

Crypto GP 的中年危机:没有 PMF,就没有 LP 的下一张支票

**Crypto GP的中年危机:没有PMF,就没有LP的下一张支票** 当前加密货币市场,有限合伙人(LP)已不再愿意为虚无的梦想买单,普通合伙人(GP)必须拿出具有产品市场契合度(PMF)的具体产品才能持续获得融资。市场环境已从“购买未来愿景”转向“购买具体产品”阶段,LP要求立即、相对确定的赚钱机会。 文章将当前加密募资产品分为三大类:一级市场(Primary)、流动性市场(Liquid)以及中心化/去中心化金融原生收益(CeFi/DeFi Native Yield)。本文上篇重点分析一级市场。 **一级市场现状与挑战:** 过去,LP投资加密VC的主要理由包括:捕捉行业增长红利、获取项目投资渠道、信赖GP的卓越判断力、看重GP的“攒局”资源整合能力,或是进行声誉投资。然而,这些理由如今已大大削弱: 1. 获取加密资产曝险的途径(如ETF、托管账户等)已非常丰富,不再依赖VC盲池基金。 2. LP自身学习能力增强,或已建立内部团队,对GP渠道的依赖降低。 3. 多数GP在上个周期未能证明其判断力优于市场。 4. 市场下行时,“攒局”与退出变得困难。 **谁能留在牌桌上?** 在当前环境下,能继续在一级市场募资的GP主要包括: 1. 管理规模足以进入捐赠基金等长期耐心资本配置范围的基金。 2. 使用自有资金投资的家族办公室、公司或高净值人士。 3. 在本周期内真正为LP创造了超额回报的少数基金。 4. 具备明确生态资源和利益置换能力的“攒局型”基金。 对于其他大多数GP而言,行业信任已然受损,需要心态归零,在细分领域重新证明自己创造超额回报的能力,或提供具体的服务价值,以此重建信任并寻求发展。

marsbit1小时前

Crypto GP 的中年危机:没有 PMF,就没有 LP 的下一张支票

marsbit1小时前

脱钩时代来临,比特币不再是加密的唯一罗盘

文章指出,加密市场正告别以比特币为单一风向标的时代,分化为“内生型”和“外生型”两大资产阵营。 内生型资产(如比特币和多数传统加密货币)的价值仍与加密市场整体行情深度绑定。而外生型资产的崛起成为新趋势,其价值主要依托自身业务的真实需求和基本面,日益独立于比特币价格波动。 例如,Hyperliquid作为混合型案例,其部分合约交易已转向非加密资产。Venice等项目则完全脱离加密市场,其商业模式更接近消费级AI服务,收入来自用户为AI推理付费。Figure公司利用区块链技术提升贷款效率,其核心价值在于金融科技业务本身。 此外,稳定币等赛道的企业收购与高增长(如BVNK、Bridge),也显示了其发展与加密牛熊周期的脱钩。 这一转变意味着行业分析逻辑的根本改变:研究外生型资产需要像分析传统企业一样,专注于用户群体、经济模型和行业护城河等基本面,而非紧盯比特币价格。文章列举了多个具备潜力的外生型赛道,包括链上金融服务、AI与加密融合、新型数字银行、支付、非金融消费产品等。 目前,投资相关企业股权仍是主要途径,代币机制仍需优化。但核心趋势已定:加密市场的驱动力正变得多元,行业研究重心将从解读比特币图表转向深耕企业基本面。未来,加密市场齐涨共跌的局面或将不再。

marsbit3小时前

脱钩时代来临,比特币不再是加密的唯一罗盘

marsbit3小时前

交易

现货
合约
活动图片