Dernier article de Fei-Fei Li : Alors que la génération vidéo, la robotique et NVIDIA revendiquent tous le titre de "modèle du monde", nous avons besoin d'une taxonomie
L'article de Fei-Fei Li propose une taxonomie pour clarifier le concept de « modèle du monde », de plus en plus utilisé de manière disparate dans l'IA. En s'appuyant sur le cadre classique du POMDP (Processus de Décision Markovien Partiellement Observable), elle distingue trois fonctions distinctes :
1. **Le moteur de rendu** : Il génère des observations visuelles (pixels) à partir d'actions ou de prompts. Son objectif est la fidélité visuelle, mais il ne garantit pas l'exactitude physique (ex. : Sora, Genie).
2. **Le simulateur** : Il produit un **état** du monde précis sur les plans géométrique, physique et dynamique. Il sert à la fois aux humains (conception, visualisation) et aux programmes (entraînement de robots, tests). C'est le pivot crucial, sous-estimé, car il fournit la base structurelle pour le rendu et la planification.
3. **Le planificateur** : À partir d'une observation et d'un objectif, il détermine les **actions** à exécuter. C'est le plus excitant mais le moins mature, l'écart entre les démonstrations en laboratoire et les déploiements réels restant important (ex. : modèles vision-langage-action).
L'article souligne que ces trois catégories, bien que distinctes, partagent une compréhension sous-jacente commune du monde (géométrie, physique). La tendance actuelle est à leur **fusion**. Un modèle unifié pourrait, à terme, basculer entre ces modes selon les besoins. Le simulateur y joue un rôle central : maîtriser la simulation permet de dériver à la fois le rendu et la planification, l'inverse n'étant pas vrai. La vision finale est un modèle de base unique capable de rendre, simuler et planifier, redéfinissant ainsi l'intelligence spatiale des machines.
链捕手Il y a 54 mins