Ces dernières années, des concepts tels que le métavers, Web3.0, les plateformes de données de simulation, le jumeau numérique et l'IA physique ont fait tour à tour leur apparition, créant facilement de la confusion pour le grand public.
Quel est leur lien avec le modèle du monde ?
La réponse est : ils ne sont pas exactement la même chose, mais ils pointent tous vers la grande tendance de l'effacement des frontières entre le monde numérique et le monde physique.
Le modèle du monde ressemble davantage à la « couche cognitive » ou au « système d'exploitation de base » de ces concepts, responsable de permettre à l'IA de comprendre et de raisonner sur le monde.
Premièrement, la réponse : ce n'est pas la même chose,
mais ils sont tous sur la même carte
Les concepts qui ont fait l'objet d'un battage médiatique intense dans le milieu technologique ces dernières années peuvent être grossièrement divisés en trois catégories.
La première catégorie est l'« expérience spatiale », représentée par le métavers. Il vise à permettre aux humains de socialiser, travailler, consommer et vivre dans un espace virtuel.
La deuxième catégorie est les « rapports de production », représentés par le Web3.0. Il souhaite utiliser la blockchain pour restructurer la propriété des données, l'identité et les modes d'incitation.
La troisième catégorie est les « capacités technologiques », incluant les plateformes de données de simulation, le jumeau numérique, l'IA physique et le modèle du monde. Elles tentent toutes d'utiliser des moyens numériques pour comprendre, simuler, prédire ou générer le monde physique.
Le modèle du monde appartient à la troisième catégorie, mais il est plus fondamental.
Ce n'est pas une application spécifique, mais une capacité permettant à l'IA de construire dans son « esprit » un monde sur lequel elle peut raisonner. Le métavers pourrait en dépendre, les plateformes de données de simulation en sont les précurseurs, le jumeau numérique en est un proche parent, l'IA physique en est l'hôte, et le Web3.0, quant à lui, n'est pratiquement pas sur la même couche technologique.
Analysons-les un par un.
Deuxièmement, le métavers :
Le modèle du monde pourrait être son « moteur »
À l'apogée de sa popularité, le métavers était décrit comme une société virtuelle immersive. On y trouvait des Avatars, des terrains virtuels, des actifs numériques, des concerts en ligne, du télétravail. Son cœur est une expérience spatiale : les gens peuvent y entrer, socialiser, consommer, créer.
Mais le plus grand goulot d'étranglement du métavers à l'époque était la production de contenu. Construire une ville virtuelle nécessitait des ressources artistiques et techniques massives, à un coût très élevé, pour une expérience encore très basique. De nombreux projets ont fini par devenir des salles d'exposition vides ou des terrains de spéculation, où les utilisateurs faisaient un tour puis ne savaient plus quoi faire.
Si le modèle du monde atteint sa maturité, il pourrait générer directement des mondes 3D interactifs à partir de texte, équivalant à équiper le métavers d'un « générateur automatique ». Google Genie 3 en a montré un aperçu : en entrant une phrase, il génère un monde explorable en temps réel. À l'avenir, il suffira peut-être de dire « Je veux me promener sur le Bund de Shanghai dans les années 1920 » pour que le modèle du monde génère une rue, un groupe de PNJ, un scénario.
Donc, ce ne sont pas la même chose. Le métavers est la « destination », le modèle du monde est l'« outil pour construire les routes et les villes ». Le modèle du monde n'a pas nécessairement besoin de devenir un métavers, mais pour réaliser un métavers à faible coût, à grande échelle et interactif, il aura probablement besoin du modèle du monde. Ce que le métavers n'a pas réussi à faire, le modèle du monde pourrait le combler.
Troisièmement, Web3.0 :
Fondamentalement pas sur la même couche que le modèle du monde
Le cœur du Web3.0 est la blockchain, la décentralisation, l'économie des jetons, la propriété des données par les utilisateurs. Il cherche à résoudre les problèmes de propriété et d'incitation sur Internet, et non pas « comment le monde est compris et simulé par la machine ».
Pour faire une analogie : le modèle du monde étudie « comment l'IA peut faire tourner le monde dans sa tête », tandis que le Web3.0 étudie « à qui appartiennent les actifs numériques de ce monde et comment ils sont échangés ». Les deux peuvent être combinés — par exemple, utiliser des NFT pour échanger des terrains dans un monde virtuel généré par un modèle du monde, ou utiliser des DAO pour gouverner les règles d'une ville virtuelle — mais leurs noyaux technologiques sont complètement différents.
Donc, le Web3.0 et le modèle du monde ne sont fondamentalement pas la même chose. Leur relation ressemble davantage à : le Web3.0 pourrait être les « règles économiques » du futur monde virtuel, tandis que le modèle du monde en serait les « lois physiques ». L'un est un problème de sciences sociales, l'autre un problème d'ingénierie.
Quatrièmement, les plateformes de données de simulation :
La version 1.0 du modèle du monde
C'est le plus proche. Ces dernières années, les entreprises de conduite autonome ont dépensé beaucoup d'argent pour développer des plateformes de simulation, comme CARLA, 51World, Unity Simulation for Autonomous Driving, NVIDIA DRIVE Sim. Leur valeur centrale est : générer des scénarios extrêmes dans un monde virtuel, permettant aux algorithmes de conduite autonome de s'entraîner à faible coût.
Le problème de ces plateformes est que les scénarios doivent généralement être construits manuellement ou générés par des règles. Des cas particuliers comme des pluies torrentielles, des tempêtes de neige, des obstacles de forme inhabituelle, des piétons traversant soudainement nécessitent que les concepteurs les modélisent petit à petit, ce qui est peu efficace. De plus, les scénarios générés par règles manquent souvent de naturel, et les algorithmes, après s'y être trop entraînés, peuvent surajuster aux marques artificielles.
Ce que fait le modèle du monde, c'est générer automatiquement ces scénarios grâce à l'IA. Il ne s'appuie pas sur des concepteurs plaçant manuellement des obstacles, mais apprend les lois physiques à partir de données réelles, puis génère des variantes infiniment proches de la réalité. Xiaopeng affirme que les tests de simulation supportés par son modèle du monde équivalent à 30 millions de kilomètres parcourus par jour, et Horizon Robotics peut générer une vidéo de conduite contrôlée en 30 secondes.
On peut donc considérer les plateformes de données de simulation et le modèle du monde comme les versions 1.0 et 2.0 de la même chose. La première repose sur du travail manuel et des règles, la seconde sur la génération par IA. Le modèle du monde ne nie pas la valeur des plateformes de simulation, mais les rend plus intelligentes, automatisées et évolutives.
Cinquièmement, le jumeau numérique :
Le modèle du monde a une capacité supplémentaire : « prédire l'avenir »
Le jumeau numérique a été très en vogue ces dernières années dans les domaines industriel, urbain et énergétique. Son cœur est de créer un miroir haute précision 1:1 du monde physique. Par exemple, créer une version numérique d'une usine, synchronisant en temps réel l'état des équipements, pour la surveillance, la maintenance et l'optimisation. Créer une version numérique d'une ville pour simuler le trafic, la pression sur les réseaux, la réponse aux catastrophes.
Le jumeau numérique est le « miroir du présent ». Il répond à la question : comment est le monde réel en ce moment ?
Le modèle du monde est quant à lui le « bac à sable du futur ». Il ne se contente pas de savoir comment va l'usine maintenant, il doit aussi pouvoir prédire : si cette ligne de production accélère, les équipements vont-ils surchauffer ; si le robot se déplace ainsi, va-t-il heurter l'étagère ; si demain un typhon arrive, comment sera la charge du réseau électrique. Il répond à la question : comment sera le monde réel, et quelle action dois-je entreprendre ?
Le modèle du monde inclut donc une partie des capacités du jumeau numérique, mais va plus loin : de la « reproduction de la réalité » à la « simulation du futur ». On peut voir le jumeau numérique comme un composant ou une condition préalable du modèle du monde, mais les ambitions du modèle du monde sont plus grandes.
Sixièmement, l'IA physique :
Le modèle du monde est l'un de ses composants essentiels
Ces dernières années, Jensen Huang et NVIDIA n'ont cessé d'évoquer l'« IA physique » (Physical AI), c'est-à-dire une IA capable d'agir dans le monde physique. Les voitures autonomes, les robots humanoïdes, les bras robotiques industriels, les drones relèvent de cette catégorie.
Pour agir, une IA physique a besoin de trois éléments : - Perception : voir le monde ; - Compréhension : connaître les lois du monde ; - Prise de décision : choisir une action.
Le modèle du monde est responsable de la couche intermédiaire — comprendre les lois du monde et prédire l'avenir. Il permet à l'IA non seulement de voir qu'il y a un obstacle devant, mais aussi de prédire comment l'obstacle va bouger ensuite, et quelles seront les conséquences de ses propres actions.
On peut donc dire que le modèle du monde est un composant essentiel de l'IA physique, mais pas l'IA physique dans son ensemble. L'IA physique inclut également des capteurs, des actionneurs, des algorithmes de contrôle, des systèmes de sécurité, etc. Le modèle du monde est le « cortex cérébral » de l'IA physique, responsable de la simulation avant l'action.
Septièmement, un schéma pour comprendre leurs relations
Si on les place dans une structure hiérarchique, cela ressemble grossièrement à ceci :
Infrastructure de base : puissance de calcul, GPU, cloud, capteurs, collecte de données
Couche cognitive : Modèle du monde — comprend et simule les lois du monde physique
Couche des outils applicatifs : Plateformes de données de simulation, jumeau numérique — concrétisent les capacités cognitives en outils d'entraînement ou de surveillance
Couche d'action : IA physique — robots, voitures autonomes, etc., qui agissent dans le monde réel
Couche d'expérience : Métavers — espace virtuel où les humains s'immergent
Couche des règles : Web3.0 — règles de propriété, d'identité, d'incitation économique
Le modèle du monde se situe à la « couche cognitive », supportant au-dessus les outils applicatifs, les systèmes d'action et les expériences virtuelles, et dépendant en dessous de la puissance de calcul et des données. Ce n'est pas l'un de ces concepts en soi, mais il pourrait en être la fondation commune de plusieurs.
Huitièmement, le modèle du monde pourrait être le
« système d'exploitation » de ces concepts
La raison pour laquelle ces concepts sont facilement confondus est qu'ils pointent tous vers la même grande tendance : la frontière entre le monde numérique et le monde physique s'estompe.
Le métavers veut faire vivre les humains davantage dans le monde numérique ;
Le Web3.0 veut que les actifs du monde numérique appartiennent aux individus ;
Les plateformes de données de simulation veulent utiliser le monde numérique pour entraîner l'IA du monde physique ;
Le jumeau numérique veut synchroniser les deux mondes en temps réel ;
L'IA physique veut que l'IA agisse dans le monde physique ;
Le modèle du monde, lui, permet à l'IA d'avoir dans son « esprit » un monde sur lequel elle peut raisonner, c'est la « couche cognitive » reliant le numérique au physique.
Le modèle du monde ne remplacera pas nécessairement ces concepts, mais il pourrait devenir l'infrastructure sous-jacente de nombreux d'entre eux. Tout comme un système d'exploitation ne remplace pas les applications, mais les applications s'exécutent sur un système d'exploitation. Les applications comme le métavers, les plateformes de simulation, le jumeau numérique, l'IA physique auront peut-être finalement besoin du modèle du monde, ce système d'exploitation, pour orchestrer la compréhension du monde.
Alors, les concepts largement médiatisés par le passé et le modèle du monde, est-ce la même chose ?
Strictement parlant, non.
Mais nombre des promesses faites par ces concepts pourraient bien devoir être tenues grâce au modèle du monde.
—FIN—
Cet article provient du compte officiel WeChat « IT桔子 » (ID : itjuzi521), auteur : Judy






