Les modèles du monde évoluent de la prédiction vers la planification : HWM et le défi du contrôle à long terme

marsbitPublié le 2026-04-17Dernière mise à jour le 2026-04-17

Résumé

Le modèle mondial évolue de la prédiction vers la planification, avec HWM (modèle mondial hiérarchique) abordant le défi du contrôle à long terme. Alors que des modèles comme V-JEPA 2 se concentrent sur l'apprentissage de représentations et la prédiction future via l'entraînement sur de vastes données vidéo, ils peinent dans les tâches de contrôle multi-étapes en raison de l'accumulation d'erreurs de prédiction et de l'explosion de l'espace de recherche d'actions. HWM introduit une structure de planification hiérarchique à deux niveaux. Un niveau supérieur planifie le cheminement par étapes sur une échelle de temps longue, tandis qu'un niveau inférieur exécute les actions locales sur une échelle courte. Cette approche décompose les longues tâches en segments plus courts, réduisant ainsi la complexité de la planification et contenant la propagation des erreurs. Les résultats expérimentaux sont significatifs : Dans une tâche de saisie et placement en monde réel, HWM atteint un taux de réussite de 70%, contre 0% pour un modèle monocouche. Il réduit également considérablement le coût computationnel de la planification. Ce progrès s'inscrit dans une convergence plus large avec V-JEPA (représentation du monde) et WAV (vérification et correction des prédictions). L'objectif est de transformer la capacité prédictive en un système exécutable, vérifiable et capable de planification à long terme, une avancée cruciale pour les robots et les agents IA devant gérer des tâches complexes ...

L'attention de la recherche sur les modèles du monde s'est initialement concentrée sur l'apprentissage de représentation et la prédiction future. Les modèles comprennent d'abord le monde, puis simulent les états futurs en interne. Cette approche a déjà produit un certain nombre de résultats représentatifs. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — un ensemble de modèles du monde vidéo publié par Meta en 2025) utilise plus d'un million d'heures de vidéos Internet pour l'apprentissage préalable, puis combine une petite quantité de données d'interaction robotique, démontrant le potentiel des modèles du monde dans la compréhension, la prédiction et la planification robotique zero-shot.

Mais un modèle qui prédit n'est pas nécessairement un modèle qui peut gérer des tâches longues. Face à un contrôle multi-étapes, le système rencontre généralement deux difficultés. La première est que l'erreur de prédiction s'accumule continuellement lors d'un long rollout (simulation multi-étapes continue), ce qui fait que le chemin entier dévie de plus en plus de l'objectif. L'autre est que l'espace de recherche d'actions s'élargit rapidement avec l'augmentation de l'horizon (portée de planification), entraînant une augmentation continue du coût de planification. Le HWM ne réécrit pas l'approche d'apprentissage fondamentale des modèles du monde, mais ajoute plutôt une structure de planification hiérarchique sur un modèle du monde existant avec conditionnement d'actions, permettant au système d'organiser d'abord le chemin par étapes, puis de traiter les actions locales.

D'un point de vue technique, V-JEPA 2 (https://ai.meta.com/research/vjepa/) est plus orienté vers la représentation du monde et la prédiction de base, le HWM est plus orienté vers la planification à long terme, et WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) est plus orienté vers l'identification et la correction par le modèle de ses propres distorsions de prédiction. Ces trois axes convergent progressivement. L'accent de la recherche sur les modèles du monde est passé de la simple prédiction de l'avenir à la transformation de la capacité de prédiction en une capacité système exécutable, corrigeable et vérifiable.

I. Pourquoi le contrôle à long terme reste-t-il un goulot d'étranglement pour les modèles du monde

La difficulté du contrôle à long terme est plus facile à voir dans les tâches robotiques. Prenons l'exemple de la manipulation par un bras robotique : saisir une tasse et la placer dans un tiroir n'est pas une action unique, mais une séquence d'étapes continues. Le système doit s'approcher de l'objet, ajuster sa posture, accomplir la saisie, se déplacer vers la position cible, puis gérer le tiroir et le placement. Plus la chaîne est longue, plus deux problèmes apparaissent simultanément. Le premier est que l'erreur de prédiction s'accumule continuellement le long du rollout, l'autre est que l'espace de recherche d'actions s'élargit rapidement.

Ce qui manque généralement au système, ce n'est pas la capacité de prédiction locale, mais la capacité d'organiser un objectif lointain en un chemin par étapes. De nombreuses actions semblent localement s'écarter de l'objectif, mais sont en réalité des étapes intermédiaires nécessaires pour l'atteindre. Par exemple, lever le bras avant de saisir, ou reculer un peu et ajuster l'angle avant d'ouvrir un tiroir.

Dans les tâches de démonstration, les modèles du monde sont déjà capables de fournir des prédictions cohérentes. Mais lorsqu'ils entrent dans des scénarios de contrôle réels, les performances commencent à baisser et les problèmes émergent. La pression ne vient pas seulement de la représentation elle-même, mais aussi d'une couche de planification encore immature.

II. Comment le HWM restructure le processus de planification

Le HWM divise le processus de planification, initialement réalisé en une seule couche, en deux couches. La couche supérieure est responsable de l'orientation par étapes sur une échelle de temps plus longue, la couche inférieure est responsable de l'exécution locale sur une échelle de temps plus courte. Le modèle ne planifie pas à un seul rythme, mais planifie simultanément à deux rythmes temporels différents.

Les méthodes à couche unique, lorsqu'elles traitent des tâches longues, nécessitent généralement de rechercher directement la chaîne d'actions complète dans l'espace d'actions de base. Plus la tâche est longue, plus le coût de recherche est élevé, et plus l'erreur de prédiction a tendance à se propager de manière continue le long du rollout multi-étapes. Après avoir séparé le processus, le HWM fait en sorte que la couche haute ne traite que le choix du chemin sur une échelle de temps plus longue, et la couche basse ne traite que l'accomplissement de la séquence d'actions courante. La tâche longue entière est divisée en plusieurs tâches plus courtes, réduisant ainsi la complexité de la planification.

Il y a aussi une conception clé ici : l'action de haut niveau n'est pas simplement un enregistrement de la différence entre deux états, mais utilise un encodeur pour compresser une séquence d'actions de bas niveau en une représentation d'action de plus haut niveau. Pour une tâche longue, la clé n'est pas seulement la différence entre le point de départ et le point d'arrivée, mais aussi comment les étapes intermédiaires sont organisées. Si le niveau supérieur ne regarde que la différence de déplacement, il risque de perdre les informations de chemin dans cette chaîne d'actions.

Le HWM incarne une manière hiérarchique d'organiser les tâches. Face à un travail multi-étapes, le système ne déploie plus toutes les actions en une fois, mais forme d'abord un chemin d'étapes plus grossier, puis exécute et corrige étape par étape. Cette relation hiérarchique, une fois intégrée au modèle du monde, permet à la capacité de prédiction de commencer à se transformer plus stablement en capacité de planification.

III. De 0% à 70%, que montrent les résultats expérimentaux

Dans la tâche du monde réel de saisie et placement configurée dans l'article, le système ne reçoit que la condition finale de l'objectif, sans objectifs intermédiaires prédéfinis manuellement. Dans ces conditions, le taux de réussite du HWM atteint 70%, tandis que celui d'un modèle du monde à couche unique est de 0%. La tâche longue, presque impossible à accomplir à l'origine, est devenue un résultat probablement réalisable après l'introduction de la planification hiérarchique.

L'article a également testé des tâches de simulation telles que la poussée d'objets et la navigation dans un labyrinthe. Les résultats montrent que la planification hiérarchique n'améliore pas seulement le taux de réussite, mais réduit également le coût computationnel de la phase de planification. Dans certains environnements, le coût computationnel de la phase de planification peut être réduit jusqu'à environ un quart du coût original, tout en maintenant un taux de réussite plus élevé ou équivalent.

IV. De V-JEPA à HWM en passant par WAV

V-JEPA 2 représente l'approche de la représentation du monde. V-JEPA 2 utilise plus d'un million d'heures de vidéos Internet pour l'apprentissage préalable, puis combine moins de 62 heures de vidéos robotiques pour un post-training (entraînement ciblé après l'apprentissage préalable), obtenant un latent action-conditioned world model (modèle du monde dans l'espace de représentation abstraite, effectuant des prédictions en combinant des informations d'action) qui peut être utilisé pour la compréhension, la prédiction et la planification du monde physique. Il démontre que le modèle peut acquérir une représentation du monde par une observation à grande échelle et transférer cette représentation à la planification robotique.

Le HWM intervient à l'étape suivante. Le modèle possède déjà une représentation du monde et une capacité de prédiction de base, mais dès qu'il entre dans un contrôle multi-étapes, les problèmes d'accumulation d'erreurs et d'expansion de l'espace de recherche éclatent. Le HWM ne change pas l'approche fondamentale d'apprentissage de représentation, mais ajoute une structure de planification multi-échelle temporelle sur un modèle du monde existant avec conditionnement d'actions. Le problème qu'il traite est de savoir comment le modèle organise un objectif lointain en un ensemble d'étapes intermédiaires, puis les exécute étape par étape.

Le WAV place quant à lui l'accent sur la capacité de vérification. Pour entrer dans des scénarios d'optimisation de stratégie et de déploiement, un modèle du monde ne doit pas seulement savoir prédire, il doit aussi être capable d'identifier les domaines où il est susceptible de se distordre et de procéder à des corrections en conséquence. Il se concentre sur la façon dont le modèle s'auto-vérifie.

V-JEPA est orienté vers la représentation du monde, HWM vers la planification de tâches, WAV vers la vérification des résultats. Bien que leurs points d'intérêt diffèrent, la direction générale est la même. La prochaine étape des modèles du monde ne consiste plus seulement en une prédiction interne, mais en la connexion progressive de la prédiction, de la planification et de la vérification en un ensemble de capacités systémiques.

V. De la prédiction interne vers un système exécutable

De nombreux travaux antérieurs sur les modèles du monde se rapprochaient davantage de l'amélioration de la continuité de la prédiction des états futurs, ou de la stabilité de la représentation interne du monde. Mais l'accent de la recherche actuelle commence à changer : le système doit à la fois former un jugement sur l'environnement, transformer ce jugement en action, et continuer à corriger l'étape suivante une fois le résultat obtenu. Pour se rapprocher d'un déploiement réel, il faut contrôler la propagation des erreurs dans les tâches à long terme, compresser la portée de la recherche et réduire les coûts d'inférence.

Ce type de changement affectera également les agents IA. De nombreux systèmes d'agents peuvent déjà accomplir des tâches à court terme, comme appeler des outils, lire des fichiers, exécuter des instructions en plusieurs étapes. Mais dès que la tâche devient une longue chaîne, multi-étapes, nécessitant une re-planification en cours de route, les performances chutent. Cela n'est pas fondamentalement différent de la difficulté du contrôle robotique : une capacité insuffisante d'organisation du chemin de haut niveau entraîne un découplage entre l'exécution locale et l'objectif global.

L'approche hiérarchique offerte par le HWM — une couche haute responsable du chemin et des objectifs d'étape, une couche basse responsable des actions locales et du traitement des retours, le tout superposé à une vérification des résultats — cette structure hiérarchique continuera à apparaître dans davantage de systèmes à l'avenir. L'étape suivante des modèles du monde ne se concentrera plus seulement sur la prédiction de l'avenir, mais sur l'organisation de la prédiction, de l'exécution et de la correction en un chemin exécutable.

Questions liées

QQuel est le principal défi des modèles du monde dans le contrôle à long terme, selon l'article ?

ALe principal défi est la difficulté de gérer les tâches multi-étapes. Deux problèmes majeurs se posent : l'accumulation d'erreurs de prédiction lors de longues séquences (rollout) et l'expansion rapide de l'espace de recherche d'actions à mesure que l'horizon de planification s'allonge.

QComment HWM (Hierarchical World Model) résout-il le problème de la planification à long terme ?

AHWM restructure le processus de planification en deux couches. Une couche supérieure est responsable de l'orientation à plus long terme et des étapes globales, tandis qu'une couche inférieure gère l'exécution locale à court terme. Cette approche hiérarchique décompose une longue tâche en plusieurs segments plus courts, réduisant ainsi la complexité de la planification et le coût computationnel.

QQuel était le taux de réussite de HWM dans la tâche de saisie et placement en monde réel, comparé à un modèle monocouche ?

ADans la tâche de saisie et placement en monde réel, HWM a atteint un taux de réussite de 70 %, tandis que le modèle du monde monocouche avait un taux de réussite de 0 %.

QQuelles sont les trois approches principales (V-JEPA, HWM, WAV) et leurs focus respectifs mentionnés dans l'article ?

ALes trois approches et leurs focus sont : V-JEPA 2 (représentation du monde et prédiction de base), HWM (planification hiérarchique à long terme) et WAV (World Action Verifier, qui se concentre sur la vérification et la correction des distorsions des prédictions du modèle).

QQuelle est la prochaine étape évolutive pour les modèles du monde, selon la conclusion de l'article ?

ALa prochaine étape ne consiste pas seulement à prédire l'avenir, mais à organiser la prédiction, l'exécution et la correction en un système exécutable capable de gérer des chemins d'action longs et multi-étapes, en contrôlant la propagation des erreurs et en réduisant les coûts de raisonnement.

Lectures associées

Liste des altcoins les plus populaires selon les recherches des dernières heures publiée !

La plateforme CoinGecko a publié une liste des cryptomonnaies les plus recherchées par les utilisateurs au cours des dernières heures. Le jeton Pudgy Penguins ($PENGU) est en tête, suivi de Catecoin (CATE) et de Bless ($BLESS). Sur les 24 dernières heures, CATE a enregistré une hausse de prix impressionnante de 126,2%, tandis que $BLESS a augmenté de 86,1% et $PENGU de 3,9%. What IF (IF) a également progressé de 41,9%. Le classement complet des actifs les plus consultés sur CoinGecko, avec leur capitalisation boursière, est le suivant : 1. Pudgy Penguins ($PENGU) – 389,13 millions de dollars 2. Catecoin (CATE) – 19,62 millions de dollars 3. Bless ($BLESS) – 32,72 millions de dollars 4. Aerodrome Finance (AERO) – 385,03 millions de dollars 5. Hyperliquid (HYPE) – 11,43 milliards de dollars 6. Ethereum (ETH) – 224,17 milliards de dollars 7. Chainlink (LINK) – 6,17 milliards de dollars 8. Aave (AAVE) – 1,42 milliard de dollars 9. What IF (IF) – 31,24 millions de dollars 10. Polkadot (DOT) – 1,34 milliard de dollars 11. Bitcoin (BTC) – 1,27 trillion de dollars 12. Virtual Protocol (VIRTUAL) – 366,19 millions de dollars 13. Algorand (ALGO) – 758,15 millions de dollars 14. Cash Cat (CASHCAT) – 41,81 millions de dollars 15. Solana (SOL) – 42,38 milliards de dollars. *Ceci ne constitue pas un conseil en investissement.

cryptonews.ruIl y a 39 mins

Liste des altcoins les plus populaires selon les recherches des dernières heures publiée !

cryptonews.ruIl y a 39 mins

Pour 100 000 $ par mois : Truth Social vend l'accès aux publications de Trump à des sociétés d'investissement

Le groupe Trump Media and Technology Group (TMTG) a lancé le 1er août 2026 « Truth API », un service d’accès payant en temps réel aux publications des comptes les plus influents de Truth Social, notamment celui de l’ancien président Donald Trump. Destiné aux investisseurs institutionnels et aux firmes de trading haute fréquence, l’abonnement pourrait coûter jusqu’à 100 000 dollars par mois. TMTG justifie cette initiative par la création d’une source de revenus stable et la monétisation de ses actifs. Cette commercialisation d’un accès prioritaire aux posts présidentiels a suscité des critiques de la part de législateurs américains, dont des sénateurs démocrates et républicains, qui demandent des enquêtes sur d’éventuelles violations des règles de marché et dénoncent un accès privilégié vendu à prix d’or. L’analyse pointe un risque systémique similaire à celui observé en 2013, lorsqu’un tweet piraté avait provoqué une chute brutale des marchés. Le service Truth API, sans mécanisme avéré de vérification en temps réel, pourrait transformer le compte de Trump en une cible pour des manipulations, soulevant la question de la responsabilité en cas de diffusion de fausses informations influençant les marchés financiers.

cryptonews.ruIl y a 1 h

Pour 100 000 $ par mois : Truth Social vend l'accès aux publications de Trump à des sociétés d'investissement

cryptonews.ruIl y a 1 h

La stratégie maintient le dividende privilégié du STRC à 12 % alors que le prix reste encore en dessous du pair

Les actions préférées STRC de Strategy, dont le prix de clôture était de 89,46 $ fin juillet (bien en dessous de leur valeur nominale de 100 $), maintiendront leur dividende à 12 % pour le mois d'août. Le président exécutif Michael Saylor a confirmé cette information, notant que le dividende est désormais versé deux fois par mois. Malgré une perte nette importante au deuxième trimestre (8,22 milliards de $), principalement due à une perte non réalisée sur ses réserves de Bitcoin, Strategy a constitué une réserve de trésorerie de 3,75 milliards de $ pour garantir le paiement des dividendes préférés. La direction réitère son objectif de faire remonter le cours de STRC vers 99-100 $ à terme et continue de racheter ces titres tant qu'ils se négocient en dessous du pair. Parallèlement, Saylor a évoqué une annonce potentielle concernant les avoirs en Bitcoin de l'entreprise, laissant entendre une possible évolution de sa stratégie de trésorerie.

cointelegraphIl y a 2 h

La stratégie maintient le dividende privilégié du STRC à 12 % alors que le prix reste encore en dessous du pair

cointelegraphIl y a 2 h

Les retraits de Bitcoin se poursuivent : 8 ans de stockage en portefeuille froid Coldcard se sont terminés par un solde nul

Le portefeuille matériel Coldcard a été compromis, entraînant une nouvelle vague de retraits depuis les appareils vulnérables. Selon Galaxy Research, environ 1 367,05 BTC (88,6 millions de dollars) ont été dérobés à partir de 4 585 adresses. Le problème ne réside pas dans le firmware, qui a été corrigé, mais dans les phrases seed générées entre mars 2021 et les mises à jour correctives. Ces phrases, créées en raison d'une erreur de programmation ayant conduit à l'utilisation d'un générateur de nombres aléatoires logiciel (Yasmarang) au lieu du générateur matériel STM32, sont prévisibles et vulnérables à une attaque par force brute hors ligne. Les propriétaires concernés doivent impérativement générer une nouvelle phrase seed sur un firmware corrigé et transférer leurs actifs, sous peine de rester exposés. L'histoire d'un investisseur de 39 ans illustre l'impact dévastateur : après avoir accumulé 2 BTC (130 000 dollars) sur huit ans via un travail physique, en les conservant comme protection contre l'hyperinflation dans son pays, il a tout perdu en quelques minutes. Son cas montre que même les stratégies de conservation à long terme les plus prudentes ("cold storage") ne sont pas infaillibles. D'un point de vue historique, cet incident rappelle les faiblesses passées des générateurs de nombres aléatoires dans la cryptographie. Il remet en question l'idée reçue selon laquelle le stockage hors ligne garantit automatiquement une sécurité absolue. La communauté espère que le fabricant pourra aider à récupérer les fonds volés.

cryptonews.ruIl y a 2 h

Les retraits de Bitcoin se poursuivent : 8 ans de stockage en portefeuille froid Coldcard se sont terminés par un solde nul

cryptonews.ruIl y a 2 h

En Corée du Sud, les volumes d'échanges de 15 altcoins explosent !

Les principales plateformes d'échange de cryptomonnaies sud-coréennes, Upbit et Bithumb, rapportent une forte augmentation du volume des transactions pour plusieurs altcoins. Sur les dernières 24 heures, le volume total des altcoins les plus populaires a atteint environ 347,7 millions de dollars. MetaDAO (META) arrive en tête, avec un volume de 65,84 millions de dollars uniquement sur Upbit, représentant 12,39% du volume spot total de la bourse. Euler ($EUL) suit avec 47,65 millions de dollars, et le $XRP, toujours populaire auprès des investisseurs sud-coréens, a atteint 38,11 millions de dollars. La liste complète des 15 altcoins montre une activité intense, notamment pour ThunderCore (TT, 35,64M$), Babylon (BABY, 25,15M$) et Geodnet (GEOD, 20,28M$). Cet engouement marqué pour des actifs numériques au-delà du Bitcoin illustre la dynamique spéculative sur le marché sud-coréen. *Ceci n'est pas un conseil en investissement.

cryptonews.ruIl y a 4 h

En Corée du Sud, les volumes d'échanges de 15 altcoins explosent !

cryptonews.ruIl y a 4 h

Trading

Spot

Catégories populaires

Indepth Research1,444 actualités

Les modèles du monde évoluent de la prédiction vers la planification : HWM et le défi du contrôle à long terme

Résumé

I. Pourquoi le contrôle à long terme reste-t-il un goulot d'étranglement pour les modèles du monde

II. Comment le HWM restructure le processus de planification

III. De 0% à 70%, que montrent les résultats expérimentaux

IV. De V-JEPA à HWM en passant par WAV

V. De la prédiction interne vers un système exécutable

Questions liées

Lectures associées

Liste des altcoins les plus populaires selon les recherches des dernières heures publiée !

Pour 100 000 $ par mois : Truth Social vend l'accès aux publications de Trump à des sociétés d'investissement

La stratégie maintient le dividende privilégié du STRC à 12 % alors que le prix reste encore en dessous du pair

Les retraits de Bitcoin se poursuivent : 8 ans de stockage en portefeuille froid Coldcard se sont terminés par un solde nul

En Corée du Sud, les volumes d'échanges de 15 altcoins explosent !

Trading

Catégories populaires

Tags tendances