Le Manifeste du Modèle du Monde de Li Fei-Fei
« Le monde est tout ce qui arrive. » C'est par cette citation de Wittgenstein que l'experte en IA, Fei-Fei Li, commence un récent article de blog, soulignant un paradoxe crucial de l'IA moderne. Alors que les modèles de langage comme ChatGPT excellent à manipuler les mots, ils restent ignorants de la nature physique du monde qu'ils décrivent.
Face à la confusion grandissante autour du terme « modèle du monde », souvent utilisé à tort pour tout projet génératif, Li propose un cadre théorique rigoureux. Pour elle, un véritable modèle du monde doit permettre à une machine d'interagir avec la réalité physique, en comprenant ses lois fondamentales - la lumière, la gravité, la collision. Elle s'appuie sur le processus de décision markovien partiellement observable (POMDP), cœur de l'apprentissage par renforcement, qui décrit la boucle interaction-perception-action d'un agent intelligent.
Li décompose ensuite la construction d'une intelligence incarnée en trois piliers technologiques :
1. Le **Rendu** : Génère des pixels visuellement plausibles et esthétiques (ex. : Sora, DALL-E). C'est le domaine le plus mature commercialement, mais il ne comprend pas la physique sous-jacente.
2. Le **Simulateur** : Reproduit fidèlement les lois physiques (masse, friction, gravité). C'est le maillon crucial mais sous-estimé, essentiel pour les robots et l'industrie. NVIDIA, avec Omniverse, est un leader dans ce domaine.
3. Le **Planificateur** : Prend des décisions et planifie des actions dans des environnements complexes. C'est le lien entre la perception et l'action, le défi le plus avancé.
Li identifie le simulateur comme le « carrefour » central, reliant le rendu et la planification, et ouvrant la voie à un marché immense (industrie, santé, autonomie). Cependant, des défis majeurs persistent : le manque de données 3D annotées physiquement et les risques des modèles purement génératifs qui produisent des incohérences physiques (« clipping »).
Malgré ces obstacles, Li est optimiste. Elle prévoit une convergence vers un **modèle de monde unifié**, où les frontières entre rendu, simulation et planification s'estomperont. Ce futur modèle sera interactif, capable de basculer entre la génération d'images réalistes et la simulation d'états physiques précis.
En conclusion, cette quête du modèle du monde représente bien plus qu'une avancée algorithmique. Il s'agit d'un saut évolutif pour l'IA, passant de la maîtrise du langage à l'intelligence spatiale – la capacité de comprendre et d'agir dans l'espace physique. Si le chemin est long (Yann LeCun estime qu'il faudra encore 5 à 10 ans pour atteindre l'intelligence d'un chien), c'est une étape essentielle vers une intelligence artificielle générale (IAG) véritablement incarnée. Nous passons de l'ère où l'IA parle du monde à celle où elle commence à le comprendre et à le modeler.
marsbit06/09 00:43