Introduction au Concept de Modèle du Monde : Une Histoire de la Psychologie à l'AI
Le concept de "modèle du monde" (World Model) est aujourd'hui central en IA, bien que sa définition reste floue. Il s'agit de doter les machines d'un "sandbox mental" interne, capable de prédire et de simuler les conséquences d'actions avant leur exécution réelle, à l'instar de la réflexion humaine. Cette capacité est cruciale pour des applications comme la conduite autonome, la robotique ou la création de contenus.
L'idée puise ses racines dans les travaux du psychologue Kenneth Craik (1943) et a été reprise en IA par des pionniers comme Marvin Minsky. Le terme a été remis au goût du jour en 2018 par David Ha et Jürgen Schmidhuber.
Aujourd'hui, les approches divergent. Des chercheurs comme Yann LeCun (avec son architecture JEPA) privilégient la prédiction en espace abstrait pour comprendre la physique. D'autres, comme Fei-Fei Li, proposent une taxonomie distinguant les modèles qui *rendent* (pixels), *simulent* (états physiques) ou *planifient* (actions). OpenAI (Sora), Google DeepMind (Genie 3) et NVIDIA (Cosmos) développent des "simulateurs du monde" génératifs basés sur des vidéos.
Dans l'industrie, les acteurs chinois (Alibaba, Tencent, constructeurs automobiles) développent leurs propres solutions, souvent centrées sur des cas d'usage concrets comme la conduite autonome.
Techniquement, trois voies coexistent : la génération de pixels (comme Sora), la prédiction en espace latent (comme JEPA), et la création d'environnements 3D paramétriques (comme Omniverse). La tendance est à leur convergence vers un modèle unifié.
Un paradigme émergent en 2026 est le "World Action Model" (WAM), qui intègre directement la génération d'actions et la prédiction de l'état futur en un seul système, visant une meilleure "unité de la pensée et de l'action" pour les robots.
Malgré la confusion des définitions, un consensus se dégage sur l'objectif final : créer pour les machines une représentation interne du monde, exploitable pour raisonner, planifier et agir de manière plus sûre et générale. Cette période de flou terminologique est typique des phases de rupture technologique et signale l'entrée du concept sur le champ de bataille principal de l'IA.
marsbitIl y a 1 h