Dernier article long de Fei-Fei Li : Lorsque la génération vidéo, la robotique et NVIDIA se disent tous des modèles du monde, nous avons besoin d'une taxonomie
Dans un article, Li Fei-Fei propose une taxonomie pour clarifier le terme largement utilisé et souvent confus de « modèle du monde » en IA. Elle s'appuie sur le cadre classique du POMDP (processus de décision markovien partiellement observable) où un agent exécute des actions qui modifient l'état du monde, et reçoit en retour des observations.
Elle distingue trois catégories fonctionnelles de « modèles du monde » selon leur sortie dans cette boucle :
1. **Le moteur de rendu (Renderer)** : Génère des observations (pixels visuels). Son critère est la fidélité visuelle (ex : Sora, Genie). Commercialement mature, il a une limite car la beauté ne garantit pas l'exactitude physique.
2. **Le simulateur (Simulator)** : Génère ou modélise des états du monde, avec une représentation géométrique et physiquement précise (ex : Omniverse de NVIDIA). C'est le pont clé et sous-estimé, car il sert à la fois aux humains (visualisation) et aux machines (entraînement de robots, planification). Il travaille sur la structure même du monde (géométrie, physique).
3. **Le planificateur (Planner)** : Génère des actions. À partir d'une observation et d'un but, il détermine la prochaine action d'un agent (ex : modèles vision-langage-action). C'est le plus excitant mais le moins mature, avec un écart important entre les démonstrations en labo et un déploiement réel fiable.
Li Fei-Fei argue que le simulateur est le pivot crucial, car la maîtrise de la simulation fournit une base pour le rendu et la planification. La tendance actuelle est à la fusion de ces trois catégories, reposant sur l'idée qu'elles partagent une compréhension sous-jacente commune du monde. L'objectif final est un modèle du monde unifié capable de basculer entre ces fonctions. Cette convergence redéfinira l'intelligence spatiale, permettant aux machines non seulement de parler du monde (via le langage) mais de le comprendre, de l'imaginer et d'interagir avec lui.
marsbitIl y a 6 h