« Le monde est tout ce qui arrive. »
En 1921, Ludwig Wittgenstein écrivait cette phrase célèbre dans son Tractatus logico-philosophicus. Un siècle plus tard, elle est citée par l'une des figures de proue de l'IA, Li Fei-Fei, pour ouvrir son dernier billet de blog technique.
Dans le paysage du deep learning, nous nous sommes habitués ces trois dernières années aux prouesses de l'IA dans le traitement du langage, depuis que ChatGPT a doté les machines d'une capacité d'expression, de programmation et de raisonnement dépassant de loin celle des humains.
Pourtant, derrière ce miracle numérique, une zone aveugle est souvent négligée : les machines peuvent parler du monde, mais elles ignorent tout de sa nature physique. Le billet de blog publié par Li Fei-Fei agit comme une douche froide.
À l'heure où l'IA générative est devenue un outil mondial indispensable, la définition interne du « modèle du monde » devient de plus en plus confuse. Qu'il s'agisse de génération vidéo ou d'intelligence incarnée, les entreprises se disputent l'interprétation de ce concept.
Après la publication de ce billet par Li Fei-Fei, beaucoup ont pensé qu'elle tentait de reprendre le contrôle de la définition du « modèle du monde ». Mais c'est tout le contraire. Je pense que ce que Li Fei-Fei cherche véritablement à faire, c'est de lancer un manifeste : le monde n'est pas constitué de langage, mais de lois physiques rigoureuses de l'espace et du temps.
Pour que les machines pénètrent réellement dans le monde physique humain, elles doivent quitter la zone de confort des statistiques textuelles et comprendre à la place la réfraction de la lumière, l'inertie des objets et la logique des collisions. Il ne s'agit pas seulement d'un changement de paradigme technologique, mais aussi d'une étape nécessaire pour que l'IA accède à l'intelligence incarnée.
01
Les gens ont besoin d'une taxonomie
Il faut admettre que dans le dictionnaire de l'IA, « modèle du monde » est devenu un pronom passe-partout ; tout projet impliquant la génération d'images ou la simulation d'environnements semble pouvoir y être rattaché. Cette imprécision découle précisément des besoins multidimensionnels des gens pour définir le « monde ».
Lorsqu'une technologie en est à ses débuts, il est naturel qu'il n'y ait pas de règles uniformes pour la cantonner à des limites claires. Cette confusion dans la définition du « modèle du monde » n'est d'ailleurs pas inédite dans l'histoire. Lorsque les philosophes grecs débattaient pour savoir si l'essence du monde était l'eau, le feu ou des atomes indivisibles, ils cherchaient en réalité une pierre angulaire pour leur raisonnement.
Le domaine de l'IA est confronté au même problème : lorsqu'un modèle de génération vidéo produit un résultat visuellement hyper-réaliste, mais physiquement impossible, comment doit-on le définir ? Le billet de Li Fei-Fei mentionne une base de définition ancienne et solide : le processus de décision markovien partiellement observable (POMDP).
C'est aussi l'axiome central des mécanismes d'apprentissage par renforcement. Il révèle la boucle éternelle de l'interaction entre un agent et le monde physique : l'agent effectue une action (Action), ce qui entraîne un changement de l'état du monde (State). Cependant, l'agent n'a pas une vue divine, il ne peut construire sa perception de la réalité que par l'observation (Observation).
Le modèle du monde, par essence, est l'abstraction que la machine construit dans son « cerveau » pour survivre dans cette boucle. Si un des maillons de cette boucle n'est pas clairement défini, alors le prétendu modèle du monde n'est rien de plus qu'un empilement aveugle de pixels.
02
Les trois piliers de la construction de l'intelligence
Cette boucle semble simple, chaque maillon ayant une fonction facile à comprendre. Cependant, en analysant en détail, on y trouve une myriade de détails aux définitions floues. Pour expliquer cette confusion, Li Fei-Fei décompose le modèle du monde en trois composantes clés, qui sont à la fois une classification technique et les trois piliers de la voie de l'IA vers l'intelligence incarnée.
1. Le Moteur de Rendu (Renderer)
La logique centrale du moteur de rendu est la plausibilité visuelle. Sa sortie est constituée de pixels, son but est de rendre l'image naturelle, cohérente et esthétique aux yeux humains.
C'est actuellement le domaine le plus mature commercialement. Des modèles de génération vidéo comme Sora d'OpenAI et Seedance 2.0 de ByteDance, ou des modèles de génération d'images comme GPT-image-2 d'OpenAI et Nano Banana 2 de Google, sont essentiellement les machines à probabilités visuelles les plus sophistiquées. En apprenant à partir de milliards d'images et de vidéos provenant d'Internet, elles finissent par maîtriser la distribution des lois de la lumière, des ombres et des formes.
Cette réalité idyllique a un prix, souligne Li Fei-Fei. Ces modèles de pointe peuvent générer des bâtiments magnifiques, mais si l'on tente d'interagir avec leur structure physique générée, le bâtiment s'effondrera probablement instantanément par manque de structure porteuse. En d'autres termes, ils ne comprennent pas ce qu'est le « soutien », ils génèrent ce que le spectateur « voit », et non ce que le monde « est ».
2. Le Simulateur (Simulator)
Ce que recherche le simulateur, c'est précisément ce qui manque au moteur de rendu : la fidélité structurelle. Il se soucie peu de savoir si la vidéo est belle ou non, sa seule préoccupation est que le monde suive les lois physiques. Lorsqu'un simulateur génère une tasse des plus ordinaires, il doit inclure la distribution de masse de la tasse, les coefficients de friction du matériau, la réponse à la gravité et les limites physiques en cas de collision.
Avec un simulateur, le contenu d'une vidéo acquiert de la véracité. Pourtant, le simulateur est non seulement largement sous-estimé dans la vague actuelle de l'IA, mais souvent ignoré.
D'après l'exemple de la tasse ci-dessus, l'existence du simulateur transforme la « discussion sur l'art » en « étude de la physique ». Construire un simulateur strictement conforme aux lois physiques exige des ressources de calcul et des coûts d'annotation inimaginables. Mais pour un robot, l'esthétique visuelle est un attribut presque inutile, c'est la précision physique qui détermine tout.
Si le simulateur n'est pas assez précis, les robots qui s'y entraînent ne pourront jamais entrer dans le monde réel. Le défi Sim-to-Real (de la simulation à la réalité) est objectif. Une action testée à 100% en laboratoire peut, dans le monde réel, être complètement paralysée par de minuscules variations de friction. C'est ce que nous appelons souvent le « paradoxe de Moravec ».
3. Le Planificateur (Planner)
Le planificateur est responsable de la sortie d'action. En tant que point de connexion entre la perception et la rétroaction, il doit résoudre la question centrale, qui n'a jamais de réponse standard : « Que faire ensuite ? » Dans le cadre de Li Fei-Fei, c'est aussi le dernier maillon de la boucle « perception-action », et c'est simultanément le domaine le plus avancé et le plus difficile.
Tous les modèles vision-langage-action (VLA) actuels tentent de faire prendre des décisions au système dans un monde complexe et non structuré. Le planificateur ne se contente pas de prédire l'avenir, il choisit, parmi d'innombrables possibilités, le chemin le plus à même d'atteindre l'objectif. C'est la clé pour que la machine évolue d'« observateur » à « acteur ».
03
Le carrefour à cent milliards de dollars
Dans les trois catégories données par Li Fei-Fei, les modèles correspondant au moteur de rendu et au planificateur sont déjà assez courants ; le simulateur restant est naturellement devenu le maillon le plus difficile à réaliser. Li Fei-Fei livre également un jugement très perspicace : le simulateur est le lien entre le rendu et la planification, et le pivot central de tout le système.
L'entité qui excelle le plus dans le domaine du simulateur n'est pas OpenAI, Anthropic ou Google, mais NVIDIA de Jensen Huang.
Omniverse de NVIDIA prétend pouvoir soutenir le rêve de jumeaux numériques à l'échelle du billion, précisément parce qu'il maîtrise l'essence du simulateur. Sur la plateforme de NVIDIA, le fonctionnement d'usines, de chaînes d'approvisionnement et d'entrepôts est déjà devenu un miroir numérique complet. Pour l'industrie, ce n'est plus une démonstration visuelle, mais l'infrastructure centrale de la productivité.
Ce n'est pas une exagération, mais une opportunité de marché de billions de dollars qui s'offre à tous.
De la visualisation virtuelle en ingénierie de la construction, à la simulation de dynamique moléculaire dans l'industrie pharmaceutique, en passant par les tests de scénarios pour la conduite autonome. Ce que ces secteurs manquent, ce ne sont pas des modèles générant des images ou des vidéos réalistes, mais un simulateur de très haute fidélité. Sans exagérer, maîtriser la capacité à simuler le monde physique équivaut à détenir un laissez-passer prioritaire pour l'industrialisation de l'IA.
Mais les difficultés réelles font qu'il n'y a pratiquement pas d'optimistes technologiques dans ce domaine. Li Fei-Fei admet également qu'un énorme fossé persiste.
Tout d'abord, il y a le problème des données pour l'intelligence incarnée, mentionné à plusieurs reprises. Les données vidéo sur Internet sont innombrables, mais les données 3D annotées avec des structures géométriques explicites, des propriétés matérielles et des retours physiques sont extrêmement rares.
Ensuite, l'application de l'IA générative s'accompagne toujours de risques cachés. Les modèles géométriques générés par l'IA ne peuvent au mieux être parfaits visuellement, mais sont souvent irrationnels d'un point de vue structurel physique : intersection d'une tasse avec une table, perte de sensation de volume lors d'une collision d'objets... Dans le langage humain, le simple terme « clipping » peut résumer ces phénomènes étranges, mais dans les applications industrielles réelles, cela signifie une catastrophe.
04
Vers un modèle du monde unifié
Malgré les difficultés, Li Fei-Fei donne une prédiction positive sur la tendance du secteur : les frontières entre le rendu, la simulation et la planification deviennent de plus en plus floues.
Ce n'est pas une vision lointaine et idéale, mais une réalité en cours. L'équipe de World Labs de Li Fei-Fei, après exploration, estime que l'humanité est déjà en train de s'acheminer vers un modèle de base unifié. Dans cette architecture, l'imagination et la logique peuvent fusionner.
Les modèles futurs ne seront plus une addition et un assemblage de fonctions uniques, mais un réseau neuronal de base unifié. Il pourra d'un côté rendre des scènes réalistes via le « Gaussian Splatting », et de l'autre générer en temps réel les maillages de collision requis par un moteur physique. En termes simples, le modèle de base unifié permettra de basculer de manière transparente entre les modes visuels dont les humains ont besoin et les modes d'état requis par les moteurs physiques.
D'un autre point de vue, les modèles traditionnels sont statiques, tandis que les futurs modèles du monde posséderont une plus grande interactivité. Le moteur de rendu ne sera plus un générateur de vidéo passif, il commencera progressivement à accepter des instructions d'action ; le simulateur deviendra plus éditable et contrôlable ; le planificateur pourra également raisonner logiquement et ajuster automatiquement sa stratégie en fonction des changements environnementaux.
05
La longue trajectoire de l'intelligence spatiale
Enfin, d'un point de vue macro, pourquoi tout cela concernant le « modèle du monde » est-il important ?
Pour Li Fei-Fei, les recherches en IA des dernières décennies ont toujours cherché cette clé permettant aux machines d'entrer dans le monde physique. Aujourd'hui, nous disposons de modèles de langage habiles à traiter la logique, il nous faut ensuite des modèles pour traiter l'espace. Le cœur de l'intelligence spatiale réside dans la manière dont la machine interagit avec le monde physique dans lequel elle se trouve.
Cette bataille ne se joue pas sur qui a le plus de puissance de calcul, mais sur qui peut définir la norme numérique du monde physique.
Le modèle du monde n'est absolument pas une simple optimisation algorithmique, mais un tour de force dans l'évolution de l'IA.
« Le langage a donné aux machines la capacité de parler de ce monde, et le modèle du monde est la façon dont les machines finiront par comprendre, imaginer, raisonner et interagir avec le monde physique. »
Chaque personne de cette époque passe de l'étape où l'on parle du monde, à une nouvelle ère où l'on comprend et reconstruit véritablement le monde.
Cela dit, le modèle du monde n'est qu'un point intermédiaire sur la voie de l'AGI, et l'IA créée par l'homme est encore loin d'un « modèle du monde » au sens véritable. Ici, le point de vue légèrement provocateur d'un autre leader du modèle du monde, Yann LeCun, mérite d'être partagé :
De façon optimiste, il faudra encore au moins cinq à dix ans pour que l'intelligence des machines s'approche à peine de celle d'un chiot.
Cet article provient du compte public WeChat « Silicon Starlight », auteur : Si Qi







