Le modèle du monde est actuellement le concept le plus chaud et le plus déroutant pour le grand public dans le milieu de l'IA. Certains disent qu'il s'agit de la capacité de l'IA à rêver, d'autres que c'est un simulateur pour la conduite autonome, d'autres encore qu'il s'agit du cerveau des robots.
Fei-Fei Li, Yann LeCun, OpenAI, Google DeepMind, NVIDIA, ainsi que les entreprises chinoises comme Alibaba, Tencent, Huawei et les constructeurs automobiles ont chacun leur propre définition.
Cet article tente d'expliquer en termes simples :
Quel problème le modèle du monde cherche-t-il à résoudre ; pourquoi ces universitaires et ces grandes entreprises en sont-ils fascinés ; et pourquoi ce concept, dont le nom n'est même pas uniformisé, est-il déjà devenu un champ de bataille industriel incontournable.
I. Comprendre en une phrase : Permettre à l'IA de « répéter le monde » dans son « bac à sable mental »
Imaginez-vous debout à un passage piéton, prêt à traverser la rue.
Vos yeux voient le feu vert, les véhicules, les piétons, et votre cerveau construit en quelques dixièmes de seconde une scène miniature : si je marche maintenant, cette voiture va-t-elle accélérer ? Ce cycliste va-t-il tourner brusquement ?
Vous n'êtes pas réellement sorti, mais vous avez d'abord envisagé mentalement plusieurs possibilités.
Les psychologues appellent cette capacité le « modèle mental », tandis que les chercheurs en IA l'appellent le « modèle du monde ».
En d'autres termes, un modèle du monde est un « bac à sable mental » à l'intérieur de la machine.
Il ne s'agit pas simplement de reconnaître ce qu'il y a dans une image, mais de pouvoir prédire ce qui va se passer ensuite, et de répéter les essais et erreurs sans agir réellement.
Pour la conduite autonome, il peut générer des examens virtuels avec des pluies torrentielles, des tempêtes de neige ou des obstacles atypiques ; pour les robots, il peut permettre à un robot humanoïde de tomber cent mille fois dans un monde simulé avant de sortir ; pour les entreprises de jeux vidéo et de cinéma, il pourrait s'agir d'un univers parallèle à explorer à l'infini.
En 2026, le terme « modèle du monde » apparaissait plus fréquemment dans les articles technologiques que la clarté de sa définition.
Alibaba a créé Qwen-AgentWorld, HappyOyster, Qwen-RobotWorld, pointant respectivement vers le monde linguistique, le monde virtuel et le monde physique ; HY-World 2.0 de Tencent met l'accent sur la possibilité d'éditer un monde en 3D ; NIO, XPeng, Li Auto préfèrent parler de « modèle du monde de conduite » ou de « modèle comportemental du monde » ; Huawei et Baidu, dans leurs documents publics, n'utilisent même pas souvent ce terme seul.
Cette confusion dans la dénomination fait ressembler ce concept à un panier où tout peut être mis.
Mais derrière toutes les appellations se trouve un noyau commun :
Permettre à la machine de créer un environnement déductible et rejouable en interne avant d'agir réellement. Cet environnement peut être en pixels, en structure 3D, en paramètres physiques ou en états abstraits. L'objectif est de réduire la dépendance infinie aux données réelles, de compresser le monde réel en un moteur de données capable de générer, de faire des erreurs et de recommencer à l'infini.
Le manque d'uniformité dans le nom indique précisément que le modèle du monde est dans une phase précoce de transition d'un concept académique vers une infrastructure industrielle.
II. Source de la pensée : Un psychologue de la Seconde Guerre mondiale et plusieurs pionniers de l'IA
2.1 Kenneth Craik : La première personne à parler de « petit modèle mental »
L'idée du modèle du monde précède l'apprentissage profond de plusieurs décennies. En 1943, le psychologue écossais Kenneth Craik propose dans son livre « The Nature of Explanation » que le cerveau humain construit des « modèles à petite échelle » de la réalité pour prédire et comprendre les événements extérieurs.
Craik n'avait alors que 31 ans, il était chercheur au laboratoire de psychologie de l'Université de Cambridge, et pendant la Seconde Guerre mondiale, il a également mené des recherches en psychologie appliquée au Royaume-Uni.
Son livre est publié deux ans avant qu'il ne décède dans un accident de vélo, à seulement 33 ans.
Mais cette idée est conservée : les humains n'ont pas besoin de reproduire complètement le monde, il leur suffit d'un modèle interne suffisamment utile pour répéter leurs actions avant d'agir.
Ce point de vue est presque identique au cœur du modèle du monde de l'IA d'aujourd'hui. La machine n'a pas non plus besoin de se souvenir de chaque détail du monde, mais d'apprendre les règles de son fonctionnement et de déduire l'avenir lorsque cela est nécessaire.
Après Craik, dans les années 1980, le psychologue britannique Philip Johnson-Laird a systématisé davantage cette pensée, prouvant qu'une grande partie du raisonnement humain consiste en réalité à manipuler des « modèles mentaux » dans le cerveau. Il a longtemps enseigné à Princeton et Cambridge et est une figure importante dans le domaine des sciences cognitives.
2.2 Marvin Minsky : Celui qui voulait donner aux machines un cadre de connaissances communes
Le domaine de l'intelligence artificielle a également fait écho très tôt. Dans les années 1960, Marvin Minsky propose au MIT la « théorie des cadres ».
Il est le cofondateur du laboratoire d'IA du MIT, lauréat du prix Turing en 1969, et est souvent considéré comme l'un des fondateurs de la discipline de l'intelligence artificielle.
La théorie des cadres tente de capturer le sens commun humain sur le monde à l'aide de cadres de connaissances structurés :
Pour entrer, il faut d'abord trouver une poignée de porte, un restaurant a généralement des tables et des chaises, les objets soumis à la gravité tombent.
Ce que Minsky voulait faire est précisément ce que le modèle du monde n'a toujours pas accompli aujourd'hui – donner aux machines une base de connaissances commune sur le monde, structurée et déductible.
2.3 David Ha et Jürgen Schmidhuber : Ramener le modèle du monde dans le courant dominant de l'apprentissage profond
Le domaine de l'apprentissage par renforcement s'est approché du même objectif par un autre chemin.
En 2018, David Ha et Jürgen Schmidhuber publient un article à NeurIPS intitulé « Recurrent World Models Facilitate Policy Evolution », qui réintroduit le terme « modèle du monde » dans le courant dominant de l'apprentissage profond.
David Ha travaillait alors chez Google Brain et est ensuite devenu chercheur indépendant. Son style de travail est plutôt ingénierique, il excelle à créer des démonstrations impressionnantes avec des architectures simples.
Jürgen Schmidhuber est le cofondateur du laboratoire suisse d'IA IDSIA, l'un des inventeurs du réseau LSTM (Long Short-Term Memory), et est connu dans le domaine de l'IA pour ses opinions franches et indépendantes. Il est parfois appelé le « père de l'IA moderne », bien que ce titre soit controversé, son influence académique est indéniable.
Leur architecture est très simple :
Utiliser un VAE pour compresser des images haute dimension en vecteurs latents de faible dimension, utiliser un RNN pour apprendre l'évolution de ces vecteurs dans le temps, puis utiliser un simple contrôleur pour entraîner une stratégie dans l'« imagination ».
L'agent rêve d'abord dans le modèle du monde appris, puis transfère la stratégie vers l'environnement réel.
Cet article a été sélectionné pour une présentation orale à NeurIPS, a directement inspiré la série Dreamer ultérieure et a également transformé le « modèle du monde » d'un concept psychologique en un objectif d'ingénierie dans l'apprentissage profond.
III. Le modèle du monde vu par les universitaires
3.1 Yann LeCun : Ne pas se contenter de générer des vidéos, il faut comprendre la physique
Yann LeCun est Français, professeur à l'Université de New York, et scientifique en chef de l'IA chez Meta.
Il est l'un des inventeurs des réseaux de neurones convolutifs (CNN), et en 2018, avec Geoffrey Hinton (le directeur de thèse de Fei-Fei Li) et Yoshua Bengio, il a reçu le prix Turing. Ces trois personnes sont saluées comme les « trois géants de l'apprentissage profond ».
LeCun a toujours critiqué la voie des grands modèles de langage actuels. Il estime que la simple prédiction du mot suivant ne peut pas produire une véritable intelligence.
En 2022, dans un article intitulé « A Path Towards Autonomous Machine Intelligence », il propose qu'une véritable intelligence ait besoin d'un modèle du monde configurable et prédictif.
L'objectif n'est pas de générer du texte ou des images, mais de comprendre les lois du monde physique et de prédire les conséquences des actions. Il critique même le fait de continuer à empiler des grands modèles de langage, les qualifiant de « foutaises », estimant que le cœur de l'intelligence réside dans l'apprentissage de la structure physique du monde réel.
JEPA est le support technique de cette voie. JEPA signifie Joint Embedding Predictive Architecture, c'est-à-dire « architecture prédictive par plongement conjoint ».
Contrairement à la prédiction de la trame suivante dans l'espace des pixels, JEPA simule les changements d'état du monde dans un espace de représentation abstrait.
Pour faire une analogie : un modèle de génération de vidéos dessine l'image suivante, tandis que JEPA « ressent » mentalement ce qui va se passer ensuite.
Le I-JEPA de 2023, le V-JEPA de 2024, le LeJEPA de 2025 et le LeWorldModel de 2026 constituent un système en évolution continue.
LeCun a également introduit le concept de « système 1 / système 2 » : le système 1 est une réaction rapide et intuitive, le système 2 fait appel au modèle du monde pour un raisonnement et une planification réfléchis.
Les derniers travaux théoriques prouvent même que, dans certaines conditions, les représentations apprises par JEPA peuvent établir une correspondance linéaire avec les variables physiques réelles, c'est-à-dire que le modèle apprend la structure physique au sens mathématique, et pas seulement un codage utile.
3.2 Fei-Fei Li : Classer les modèles du monde à l'aide de la boucle « action-observation »
Fei-Fei Li est professeure d'informatique à l'Université de Stanford et la principale créatrice de l'ensemble de données ImageNet. ImageNet a déclenché la révolution de l'apprentissage profond en 2012, et elle est donc surnommée la « marraine de l'IA ».
Elle a été scientifique en chef de l'IA pour Google Cloud, et en 2023, elle a fondé World Labs, se concentrant sur l'intelligence spatiale et les modèles du monde 3D. En 2024, elle a reçu de nombreux honneurs pour avoir promu la démocratisation de l'IA et ses applications dans des domaines comme la santé, et elle est l'une des scientifiques chinoises les plus influentes dans le domaine de l'IA aujourd'hui.
En juin 2026, Fei-Fei Li et l'équipe de World Labs ont publié un article largement repris, tentant d'établir une taxonomie pour le concept chaotique de modèle du monde.
Elle s'appuie sur le POMDP de l'apprentissage par renforcement, c'est-à-dire le « processus de décision markovien partiellement observable ».
Ce concept semble complexe, mais il décrit en réalité un cycle très simple : l'agent prend une action, l'action change l'état du monde, l'agent obtient une observation, puis prend l'action suivante en fonction de l'observation.
Elle souligne que tous les systèmes appelés modèles du monde sont essentiellement des projections de ce cycle dans différentes directions, chaque type ne produisant qu'un fragment du cycle.
Sur cette base, elle divise les modèles du monde en trois catégories.
La première catégorie est celle des moteurs de rendu, qui produisent des observations, c'est-à-dire des pixels destinés à être vus par l'œil humain. Les représentants typiques sont les modèles de génération de vidéos et Google Genie 3, l'objectif d'optimisation étant la fidélité visuelle.
La deuxième catégorie est celle des simulateurs, qui produisent des états, c'est-à-dire des représentations du monde fidèles au niveau géométrique, physique et dynamique. Les représentants typiques sont NVIDIA Omniverse et Marble de World Labs, l'objectif d'optimisation étant la précision structurelle.
La troisième catégorie est celle des planificateurs, qui produisent des actions, c'est-à-dire qu'ils répondent à la question « que faire ensuite » étant donné une observation et un objectif. Les représentants typiques sont les VLA et les World Action Models.
Fei-Fei Li estime que ces trois types de capacités reposent sur les mêmes connaissances sous-jacentes, et que la tendance finale est d'évoluer vers un modèle du monde unifié.
3.3 Le laboratoire FIB de l'Université Tsinghua : Il n'existe que deux types de modèles du monde, comprendre le monde ou prédire l'avenir
Le laboratoire FIB de l'Université Tsinghua est une équipe qui étudie depuis longtemps l'intelligence artificielle générale, l'intelligence incarnée et l'apprentissage des robots. FIB est généralement compris comme « Future Intelligence and Brain » ou similaire, et fait partie de l'Institut de recherche sur l'industrie intelligente de l'Université Tsinghua.
Cette équipe a publié de nombreuses synthèses et articles dans les domaines des modèles du monde et de la robotique, et constitue l'une des forces importantes de la recherche dans cette direction en Chine.
En 2026, ils ont publié la synthèse « Understanding World or Predicting Future: A Comprehensive Survey of World Models », divisant ce domaine d'une autre manière.
Ils classent les fonctions principales des modèles du monde en deux grandes catégories : comprendre le monde et prédire l'avenir.
Comprendre le monde met l'accent sur la construction d'une représentation implicite de l'environnement extérieur pour soutenir la prise de décision. Les représentants sont la série Dreamer et les connaissances sur le monde basées sur les grands modèles de langage.
Prédire l'avenir met l'accent sur la génération explicite d'états futurs. Les représentants typiques sont Sora, Genie 3, Cosmos et autres modèles de génération de vidéos ou d'environnements 3D.
L'avantage de cette classification est qu'elle est plus proche de la pratique de l'ingénierie : la première sert l'apprentissage par renforcement et la prise de décision, la seconde sert la génération et la simulation.
3.4 OpenWorldLib de l'Université de Pékin : Créer une boîte à outils standardisée pour les modèles du monde
En avril 2026, l'Université de Pékin, en collaboration avec Kuaishou et d'autres institutions, a publié OpenWorldLib. L'Université de Pékin est une institution clé pour la recherche fondamentale en IA en Chine, possédant notamment le Laboratoire clé du ministère de l'Éducation pour la perception des machines et l'intelligence ; Kuaishou est un géant chinois des vidéos courtes, investissant beaucoup ces dernières années dans les grands modèles et la génération multimodale.
La publication conjointe d'OpenWorldLib par les deux parties montre que les milieux académiques et industriels commencent à réaliser que les modèles du monde ont besoin de normes unifiées et de composants réutilisables.
OpenWorldLib tente pour la première fois de donner une définition standardisée du modèle du monde : un modèle ou un cadre centré sur la perception, doté de capacités d'interaction et de mémoire à long terme, utilisé pour comprendre et prédire un monde complexe.
Ils critiquent le fait de considérer le modèle du monde simplement comme une « prédiction de la trame suivante », estimant que cela est trop restrictif, et qu'un véritable modèle du monde doit refléter une véritable compréhension des lois physiques.
OpenWorldLib décompose le modèle du monde en cinq modules principaux : opérateur, synthèse, raisonnement, représentation, mémoire, coordonnés par un module de pipeline unifié.
Ce cadre ressemble plus à une boîte à outils, dont l'objectif est de permettre à différentes équipes de recherche de combiner des modules comme des Lego.
IV. Le modèle du monde vu par les grandes entreprises
4.1 OpenAI : Sora est un « simulateur du monde »
OpenAI est l'une des entreprises d'IA les plus influentes au monde actuellement. Elle est connue pour sa série de grands modèles de langage GPT et ChatGPT, et après la sortie de Sora en 2024, elle a une fois de plus attiré l'attention mondiale sur la génération de vidéos et la simulation du monde.
En février 2024, OpenAI publie le rapport technique de Sora, intitulé « Video Generation Models as World Simulators », positionnant directement le modèle de génération de vidéos comme un simulateur du monde. Sora ne dépend pas d'une modélisation 3D explicite ou d'un moteur physique, mais est entraîné sur de grandes quantités de données vidéo pour faire émerger spontanément des capacités telles que la cohérence 3D, la cohérence à long terme, la persistance des objets, les interactions simples avec le monde, etc.
OpenAI estime que l'extension à grande échelle des modèles de génération de vidéos est une voie très prometteuse pour construire un simulateur universel du monde physique.
Mais les limites de Sora sont également évidentes : incapacité à simuler avec précision des processus physiques de base comme la rupture du verre, incohérences dans les échantillons de longue durée, apparition incontrôlée d'objets. C'est donc plus une déclaration de direction qu'une définition mature.
4.2 Google DeepMind : Genie 3 est un modèle du monde universel, en temps réel et interactif
Google DeepMind a été formé après l'acquisition par Google en 2014 de l'entreprise britannique d'IA DeepMind, Demis Hassabis en est le cofondateur et PDG.
DeepMind a développé des systèmes marquants comme AlphaGo et AlphaFold, et est l'un des fronts de la recherche en IA dans le monde. Demis Hassabis lui-même est informaticien, neuroscientifique et concepteur de jeux, et s'intéresse depuis longtemps à l'intelligence artificielle générale.
En août 2025, Google DeepMind publie Genie 3, officiellement défini comme « le premier modèle du monde réaliste, en temps réel et interactif ».
Il peut générer des environnements 3D explorables à partir de simples descriptions textuelles, avec un débit d'images de 20-24 ips, prend en charge le contrôle des personnages, les événements mondiaux pouvant être demandés et une mémoire interactive d'une minute. Genie 3 génère image par image de manière autorégressive, s'appuie sur les données Street View de Google Maps pour ancrer le monde réel, et est positionné comme une étape clé vers l'AGI.
4.3 NVIDIA : Cosmos est le « modèle de base du monde » pour l'IA physique
NVIDIA a été fondée en 1993 par Jensen Huang, Chris Malachowsky et Curtis Priem, Jensen Huang en est le PDG depuis longtemps. L'entreprise a débuté avec les puces graphiques GPU, et au cours de la dernière décennie, en raison de la demande explosive en puissance de calcul pour l'entraînement de l'IA, elle est devenue le fournisseur central de l'infrastructure mondiale de l'IA.
Jensen Huang a fréquemment avancé ces dernières années des jugements comme « l'IA physique » et « la prochaine vague de l'IA est la robotique », et NVIDIA continue de lancer des plateformes logicielles et matérielles pour la robotique, la conduite autonome et la simulation.
En janvier 2025, NVIDIA publie Cosmos, positionné comme une « plateforme de modèles de base du monde ». Il ne s'agit pas d'un modèle unique, mais d'une série de modèles vidéo conscients de la physique capables de prédire et de générer les états futurs d'environnements virtuels, divisés en trois niveaux Nano, Super, Ultra, entraînés sur 20 millions d'heures de données du monde réel.
L'ambition de Cosmos est de devenir l'infrastructure sous-jacente de l'IA physique, servant des scénarios comme la robotique, la conduite autonome, la simulation industrielle, etc.
NVIDIA l'a également open source, permettant son utilisation commerciale.
4.4 Les grandes entreprises chinoises : Elles ne l'appellent pas modèle du monde, mais elles en font
Les entreprises chinoises donnent rarement des définitions philosophisées dans leurs documents publics, mais les appliquent directement aux produits et scénarios.
Les trois produits d'Alibaba couvrent respectivement la simulation du monde linguistique, la génération du monde virtuel et le monde physique des robots ;
HY-World 2.0 de Tencent se concentre sur le monde 3D éditable ; le modèle du monde Seed de ByteDance vise à atteindre le niveau SOTA de Genie 3 d'ici fin d'année ;
La version de conduite intelligente du grand modèle Pangu de Huawei met l'accent sur l'apprentissage des lois physiques et la simulation en boucle fermée ; Apollo ADFM de Baidu intègre les capacités du modèle du monde dans son grand modèle de conduite autonome ; OneVL de Xiaomi tente d'unifier les VLA et le modèle du monde.
Parmi les constructeurs automobiles, NWM de NIO, le modèle du monde de reconstruction et génération de Li Auto, X-World de XPeng, WAM de Geely, la pré-recherche de BYD, VLA plus modèle du monde de Great Wall, l'utilisation principale étant l'entraînement de la conduite intelligente de bout en bout et la génération de scénarios à longue traîne.
V. Trois voies technologiques : Dessiner, calculer mentalement, assembler des Lego
D'un point de vue ingénierique, il existe actuellement trois principales voies technologiques pour les modèles du monde, que l'on peut comprendre à l'aide de trois métaphores.
La première voie est celle du « dessin », c'est-à-dire les modèles de génération de vidéos. Sora, Genie 3, Cosmos, Kling, Pika en font partie. La capacité principale est de générer la trame future dans l'espace des pixels, l'avantage étant un fort réalisme visuel et un faible seuil de données, compréhensible d'un coup d'œil par le grand public. L'inconvénient est une faible cohérence physique, en regardant longtemps, on peut voir des objets se déformer, la gravité cesser de fonctionner, la chronologie se mélanger.
La deuxième voie est celle du « calcul mental », représentée par le JEPA de LeCun et le modèle du monde RNN de Ha & Schmidhuber. L'idée principale est de ne pas prédire les pixels, mais de prédire la représentation abstraite. L'avantage est une efficacité élevée, un apprentissage plus stable de la structure physique, l'inconvénient est une faible interprétabilité de l'espace de représentation, un cycle d'implémentation en ingénierie long. Cela ressemble plus à l'intuition d'un athlète humain : sans avoir besoin de visualiser mentalement le mouvement image par image comme un film, on peut prédire le point de chute de la balle par la sensation corporelle.
La troisième voie est celle de l'« assemblage de Lego », représentée par NVIDIA Omniverse, Marble de World Labs, HY-World de Tencent. L'idée principale est de générer directement des environnements tridimensionnels avec des attributs géométriques, physiques et dynamiques. L'avantage est la précision, la contrôlabilité, la possibilité d'édition et de vérification, l'inconvénient est la rareté des données, le coût de calcul élevé, les capacités de généralisation limitées. Cela ressemble plus au logiciel CAO d'un ingénieur, permettant des mesures précises, des ajustements répétés, mais encore éloigné du monde naturel.
Les trois voies ont actuellement chacune leur territoire, mais les frontières s'estompent. Les modèles de génération de vidéos commencent à ajouter des contraintes physiques, les simulateurs 3D commencent à introduire des capacités génératives, l'architecture JEPA commence à fusionner avec les VLA pour former les WAM. Le modèle du monde unifié prédit par Fei-Fei Li est précisément le résultat de la fusion des trois.
VI. World Action Model : De « voir le monde » à « agir »
En mai 2026, l'équipe OpenMOSS de l'Université Fudan, en collaboration avec plusieurs institutions, a publié une synthèse sur les WAM, proposant officiellement le paradigme des World Action Models.
OpenMOSS de Fudan est l'une des premières équipes en Chine à promouvoir l'écosystème open source des grands modèles, la série de modèles Mooss étant assez connue dans la communauté chinoise.
La définition centrale du WAM est : la prédiction de l'état futur et la génération d'actions doivent être apprises conjointement dans une même stratégie, et non pas d'abord entraîner un VLA puis y accrocher un modèle du monde en tant qu'assistant.
En termes simples, pour comparer : Le VLA est « voir une image, comprendre une instruction, puis faire une action » ; le modèle du monde est « connaître l'état et l'action actuels, pouvoir imaginer l'image suivante » ; le WAM, quant à lui, est « voir une image, comprendre une instruction, imaginer simultanément l'image suivante et faire une action ».
Ces trois éléments réunis constituent la capacité de « connaissance et action unifiées » dont les robots ont vraiment besoin.
Les WAM se divisent en deux architectures : Cascaded et Joint.
Cascaded génère d'abord la trame future, puis décode l'action, facile à construire en ingénierie mais avec une latence élevée et des erreurs qui se propagent facilement. Joint utilise un modèle unique pour produire simultanément le futur et l'action, théoriquement plus robuste mais avec un objectif d'entraînement complexe à concevoir.
Jim Fan de NVIDIA a même déclaré lors de la conférence AI Ascent de Sequoia en 2026 que « les VLA sont morts, les modèles d'action du monde sont l'avenir ». Jim Fan est scientifique principal en recherche chez NVIDIA, responsable de l'équipe GEAR, ses domaines de recherche couvrent la robotique, la simulation et l'intelligence incarnée.
Bien que cette affirmation soit très controversée, elle montre suffisamment l'engouement pour cette direction.
VII. Cadre industriel : Une structure à trois couches est déjà formée
La chaîne industrielle des modèles du monde évolue des articles de recherche et des démonstrations vers une infrastructure stratifiée. On peut l'imaginer comme construire une maison : certains extraient le minerai et fondent l'acier, d'autres produisent des panneaux préfabriqués, d'autres construisent des maisons, des centres commerciaux et des usines dessus.
L'amont est la couche de support fondamental, incluant la collecte de données haute précision, les services de calcul et le matériel de capteurs.
La collecte de données implique les cartes haute précision, le balayage spatial, la collecte de vidéos, la téléopération, etc. ; les services de calcul sont centrés sur les GPU et les serveurs cloud ; le matériel de capteurs inclut les LiDAR, caméras, IMU, etc. NVIDIA, grâce à ses GPU, occupe une position de leader invisible dans cette couche, presque tous les entraînements de modèles du monde dépendant de sa puissance de calcul.
Le coût est le point crucial de cette couche : entraîner un modèle du monde avec des centaines de milliards de paramètres nécessite des milliers de GPU, le coût d'un seul entraînement pouvant atteindre plusieurs millions de dollars.
Le milieu est la couche des plateformes technologiques, divisée en plateformes universelles et plateformes verticales.
Les plateformes universelles offrent des capacités générales transversales, représentées par NVIDIA Omniverse, Sensetime OpenDILab, Huawei Pangu, la série Alibaba Tongyi. Les plateformes verticales se concentrent sur des industries spécifiques, comme les modèles du monde pour la conduite autonome, pour la construction, pour l'intelligence incarnée. Les entreprises de plateforme sont en train de dominer grâce à l'intégration d'écosystèmes, et on estime qu'elles pourraient occuper plus de 50 % des parts de marché de la chaîne industrielle d'ici 2030.
L'aval est la couche d'application par scénario, couvrant la conduite autonome, l'intelligence incarnée, la construction intelligente, les jeux et divertissements, les services spatiaux, la simulation médicale, la prévision climatique, etc.
L'automobile, l'électronique, la santé sont considérés comme contribuant actuellement à plus de 60 % des revenus du secteur. La conduite autonome est le scénario avec le plus haut degré de maturité d'application, presque tous les constructeurs automobiles principaux ayant intégré le modèle du monde dans le processus central de R&D ; l'intelligence incarnée est la nouvelle direction la plus prometteuse, plus de 60 % des robots industriels utilisent déjà le modèle du monde pour l'entraînement assisté.
VIII. Pourquoi le manque d'uniformité du concept est en fait une bonne chose
La confusion autour du concept de modèle du monde fait souvent penser à l'extérieur qu'il s'agit d'une tendance créée par la spéculation.
Mais d'un point de vue historique de l'industrie, le manque d'uniformité des concepts est souvent la norme au début d'une révolution technologique.
Au début du cloud computing, il y avait des débats sur IaaS, PaaS, SaaS ; au début du big data, sur Hadoop, NoSQL, l'entrepôt de données ; au début de l'intelligence artificielle, il y avait même des débats sur le symbolisme, le connexionnisme, le comportementalisme. Les divergences de dénomination reflètent le processus par lequel différents groupes abordent un même problème majeur sous différents angles.
La divergence actuelle sur le modèle du monde est essentiellement un débat sur la forme dans laquelle le « monde » devrait être compressé.
Ceux qui font de la génération de vidéos pensent que le monde est une séquence de pixels ; ceux qui font des moteurs 3D pensent que le monde est de la géométrie et de la physique ; ceux qui font de la conduite autonome pensent que le monde est des règles de circulation et des comportements de conduite ; ceux qui font de la robotique pensent que le monde est la conséquence des actions.
Chaque méthode de compression correspond à des données, une puissance de calcul et des scénarios d'application différents. Au début de l'industrie, cette divergence est nécessaire, elle permet à différentes voies d'essayer et d'échouer en parallèle.
Mais sous la divergence, l'objectif converge.
Que ce soit le JEPA de LeCun, la boucle POMDP de Fei-Fei Li, la génération de vidéos de Sora, l'interaction 3D de Genie 3, ou les divers produits des grandes entreprises chinoises, tous pointent finalement vers la même capacité : donner à la machine un monde interne déductible, rejouable, généralisable, afin qu'elle agisse dans le monde réel de manière plus sûre, plus efficace, plus universelle.
Les modèles de langage ont donné aux machines la capacité de parler du monde, les modèles du monde tentent de leur donner la capacité de comprendre, d'imaginer, de raisonner et d'interagir avec le monde.
Le concept s'unifiera, mais ce sera après que la situation se sera stabilisée. Avant cela, la confusion dans la dénomination est précisément le signe que le modèle du monde entre sur le champ de bataille principal.
Cet article provient du compte WeChat public « IT桔子 » (ID: itjuzi521), auteur : Judy






