Dernier article long de Fei-Fei Li : Lorsque la génération vidéo, la robotique et NVIDIA se disent tous des modèles du monde, nous avons besoin d'une taxonomie

marsbitPublié le 2026-07-05Dernière mise à jour le 2026-07-05

Résumé

Dans un article, Li Fei-Fei propose une taxonomie pour clarifier le terme largement utilisé et souvent confus de « modèle du monde » en IA. Elle s'appuie sur le cadre classique du POMDP (processus de décision markovien partiellement observable) où un agent exécute des actions qui modifient l'état du monde, et reçoit en retour des observations. Elle distingue trois catégories fonctionnelles de « modèles du monde » selon leur sortie dans cette boucle : 1. **Le moteur de rendu (Renderer)** : Génère des observations (pixels visuels). Son critère est la fidélité visuelle (ex : Sora, Genie). Commercialement mature, il a une limite car la beauté ne garantit pas l'exactitude physique. 2. **Le simulateur (Simulator)** : Génère ou modélise des états du monde, avec une représentation géométrique et physiquement précise (ex : Omniverse de NVIDIA). C'est le pont clé et sous-estimé, car il sert à la fois aux humains (visualisation) et aux machines (entraînement de robots, planification). Il travaille sur la structure même du monde (géométrie, physique). 3. **Le planificateur (Planner)** : Génère des actions. À partir d'une observation et d'un but, il détermine la prochaine action d'un agent (ex : modèles vision-langage-action). C'est le plus excitant mais le moins mature, avec un écart important entre les démonstrations en labo et un déploiement réel fiable. Li Fei-Fei argue que le simulateur est le pivot crucial, car la maîtrise de la simulation fournit une base pour le rendu et la p...

Auteur : Fei-Fei Li

Traduction : Jia Yang

Le « modèle du monde » est probablement le concept le plus chaud et le plus confus dans le domaine de l'IA depuis 2025. Lorsque Sora est apparu, OpenAI l'a appelé un simulateur de monde ; Genie, qui vous permet de vous déplacer dans des images générées, s'appelle aussi un modèle du monde ; les entreprises de robotique disent qu'elles travaillent sur des modèles du monde, NVIDIA dit qu'Omniverse est l'infrastructure des modèles du monde, et même les moteurs de jeu sont inclus dans ce récit. Tout le monde utilise le même terme, mais chacun parle de choses complètement différentes.

Aujourd'hui, Fei-Fei Li a publié un nouvel article sur son Substack personnel, clarifiant ce concept. Elle revient d'abord au schéma classique des manuels d'apprentissage par renforcement (la boucle POMDP : agent → action → état → observation → agent), puis souligne que ce qu'on appelle aujourd'hui « modèle du monde » sont en réalité trois projections différentes de cette boucle. Ce qui produit des pixels (observation) est un moteur de rendu, ce qui produit l'état est un simulateur, et ce qui produit des actions est un planificateur. Le critère de classification est très simple : regardez quelle partie de la boucle est produite.

(Source : MIT Technology Review)

Elle estime que parmi les trois, le moteur de rendu est le plus mature commercialement mais a un plafond (être beau ne signifie pas être physiquement correct), le planificateur est le plus excitant mais le plus loin d'un déploiement réel (le fossé entre les démonstrations en laboratoire et l'utilisation pratique reste énorme), tandis que le simulateur est le pivot clé sévèrement sous-estimé. Parce que le simulateur opère au niveau de la géométrie, de la physique et de la dynamique, il peut à la fois projeter vers le haut des pixels pour la consommation humaine, et déduire vers le bas les conséquences des actions pour les robots. Maîtriser la simulation donne à la fois la base du rendu et de la planification ; l'inverse n'est pas vrai.

Cet article est bien sûr aussi un manifeste produit pour World Labs. Leur Marble produit déjà simultanément des splats gaussiens et des maillages de collision, cherchant à unifier le moteur de rendu et le simulateur en un seul modèle. La fin de l'article dépeint une fin de partie sous la forme d'un modèle fondamental du monde unifié, capable de basculer librement entre le rendu, la simulation et la planification selon les besoins en aval. La réalisation de cette vision est une autre question, mais comme cadre d'analyse, la tripartition moteur de rendu/simulateur/planificateur aide peut-être vraiment à percer une partie du bruit autour du concept actuel de « modèle du monde ».

Voici la traduction intégrale de l'article.

« Le monde est la totalité des faits. » – Wittgenstein, Tractatus logico-philosophicus, 1921

Le monde n'est pas fait de mots.

Dans un article précédent, nous avons proposé que l'intelligence spatiale soit la prochaine frontière de l'IA, et que les modèles du monde en soient la voie. Ici, l'équipe de World Labs et moi souhaitons approfondir encore : parmi les nombreuses choses aujourd'hui appelées « modèles du monde », quels modules fonctionnels constituent véritablement cette capacité ? Et à quoi servent-ils respectivement ?

Les modèles de langage ont donné aux machines une maîtrise puissante des concepts, du vocabulaire et du raisonnement, mais le monde physique, qu'il soit virtuel ou réel, fonctionne sur une base entièrement différente. Les modèles de langage apprennent la structure statistique du texte, les modèles du monde apprennent la structure statistique de l'espace et du temps : comment la lumière tombe sur une surface, à quoi ressemble un jardin d'un angle jamais capturé par une caméra, comment les objets répondent aux forces et suivent les lois physiques.

Cela fait du « modèle du monde » l'un des termes les plus importants et les plus galvaudés du domaine de l'IA aujourd'hui. La vision par ordinateur, la robotique, l'apprentissage par renforcement et l'IA générative prétendent toutes construire des modèles du monde, mais chacune fait référence à des choses radicalement différentes. Un modèle vidéo générant de splendides flammes physiquement impossibles, un modèle de langage improvisant un jeu jouable, un moteur physique simulant fidèlement un processus de combustion, tous sont appelés du même nom.

Les anciens Grecs n'ont jamais pu s'accorder sur la composition du monde, que ce soit le feu, l'eau ou des atomes indivisibles, car le « monde » n'a jamais été une chose unique. C'était toujours un substitut utilisé par un penseur pour raisonner sur une forme de totalité. L'IA hérite du même problème, et cela arrive précisément au moment où le domaine a le plus besoin de précision.

La boucle derrière la taxonomie

Pour démêler cette confusion, on peut commencer par un schéma plus ancien que toutes ces technologies. Tous les manuels d'apprentissage par renforcement, y compris le classique Sutton et Barto, utilisent depuis des décennies une variante du même schéma pour décrire comment un agent interagit avec le monde. Ce schéma s'appelle formellement le processus de décision markovien partiellement observable (POMDP), et le terme « modèle du monde » a été initialement défini dans cette tradition.

Un agent (qui peut être une personne, un robot ou un système logiciel) exécute une action. Ces actions changent l'état du monde. Mais l'agent ne voit jamais l'état lui-même directement, ce qu'il reçoit est une observation : les photons frappant la rétine, les lectures des capteurs, les pixels d'une image vidéo. La nouvelle observation guide une nouvelle action, et ainsi de suite.

Le mot « état » doit être décomposé, car sa signification varie selon les domaines. Il ne s'agit pas de l'état du chimiste, de la distinction entre solide, liquide et gazeux. C'est l'état du physicien et du roboticien : une description complète de tout ce qui se passe dans le monde à un instant donné, incluant chaque objet, chaque position, chaque vitesse, chaque propriété. L'état est la réalité sous-jacente du monde, en principe complète, mais jamais directement observable par tout agent en son sein. L'observation est la perspective locale de l'agent sur cette réalité. L'action est la réponse de l'agent en conséquence.

Cette boucle (agent → action → état → observation → agent) est précisément la structure qui donne au terme « modèle du monde » sa signification technique. La phrase elle-même est encore plus ancienne, remontant à la proposition de Kenneth Craik en 1943 selon laquelle l'esprit raisonne en exécutant des « modèles à petite échelle » de la réalité, et vers la fin des années 1980 et le début des années 1990, ce concept a été introduit dans le domaine des réseaux de neurones. Cette boucle explique aussi ce que les gens entendent aujourd'hui lorsqu'ils utilisent ce terme. Ce qui est maintenant appelé modèle du monde sont en fait différentes projections de cette même boucle, chacune produisant une composante différente de la boucle.

Les trois fonctions des modèles du monde

Le premier type de modèle du monde est le **moteur de rendu**. Le moteur de rendu produit des observations, spécifiquement des pixels destinés à l'œil humain, et l'indicateur de qualité le plus important est la fidélité visuelle. Un modèle vidéo transformant une invite textuelle en plans aériens cinématographiques est un moteur de rendu ; des systèmes interactifs comme le Genie 3 de Google ou le RTFM de World Labs lui-même sont aussi des moteurs de rendu, générant des images en temps réel selon les entrées de l'utilisateur. Ces modèles n'ont pas une compréhension explicite de la structure tridimensionnelle. Ils génèrent ce que le spectateur verra, et non l'apparence des choses elles-mêmes. Un bâtiment dans un plan aérien peut être parfait vu du ciel, mais essayez de vous déplacer dans la ville en dessous, il s'effondrera.

Le deuxième type est le **simulateur**. Le simulateur produit l'**état** : une représentation du monde fidèle au niveau géométrique, physique ou dynamique, sur laquelle les humains et les programmes informatiques peuvent calculer et interagir. Le contrat du moteur de rendu est purement visuel, tandis que celui du simulateur est structurel, exigeant une géométrie qui résiste à l'examen, une physique qui suit les lois de Newton, et une dynamique qui se comporte comme prévu par les lois physiques. Le simulateur sert deux types d'utilisateurs. Les professionnels comme les architectes, designers, cinéastes, développeurs de jeux ont besoin d'une précision allant au-delà de la crédibilité visuelle. Les programmes informatiques comme les agents d'apprentissage par renforcement, les contrôleurs robotiques, les véhicules autonomes utilisent le simulateur comme terrain d'entraînement, interagissant à grande échelle avec le monde, testant des scénarios qui seraient dangereux, coûteux ou tout simplement impossibles dans la réalité.

Le troisième type est le **planificateur**. Le planificateur produit des **actions**. Étant donnée une observation et un objectif, le planificateur répond à la question : que doit faire l'agent ensuite ? En un sens, le planificateur est le processus inverse du moteur de rendu. Le moteur de rendu prend des actions en entrée et produit des observations, le planificateur prend des observations en entrée et produit des actions, refermant ainsi la boucle perception-action. Les modèles vision-langage-action (VLA), les systèmes basés sur des modèles, et la nouvelle vague de modèles d'action du monde (World Action Models), sont toutes des tentatives de planificateur : faire en sorte que le système puisse décider ce qu'un robot doit faire dans un monde non structuré.

Ces trois catégories couvrent la majeure partie du travail actuellement déployé, et leur distinction est utile en pratique. Mais ces trois catégories ne sont pas fondamentalement disjointes. Elles partagent les mêmes connaissances sous-jacentes sur le fonctionnement du monde : géométrie, physique, dynamique. Un modèle capable de rendre une tasse sous n'importe quel angle devrait en principe aussi pouvoir simuler ce qui se passe si on la pousse, et planifier une main pour la saisir. De plus en plus de recherches fascinantes brouillent intentionnellement les frontières entre ces trois aspects.

Figure | Trois types de modèles du monde (Source : Substack)

Pourquoi la simulation est le pivot clé

Parmi les trois catégories, le simulateur reçoit le moins d'attention du public, mais c'est le plus important des trois. Cet article vise à corriger cette asymétrie.

Le moteur de rendu est actuellement le plus commercialisé. De nombreux produits de génération d'images ou de texte vers vidéo se développent rapidement sur les marchés grand public et professionnels. Le modèle Nano Banana de Google a apporté les capacités de génération d'images au niveau du moteur de rendu à des centaines de millions d'utilisateurs potentiels. La technologie est réelle, le marché aussi. Cependant, l'objectif d'optimisation du moteur de rendu est la crédibilité visuelle, pas la précision physique, et ce plafond est important. Leurs résultats sont beaux, mais vous ne pouvez pas les utiliser pour concevoir un bâtiment ou entraîner un robot.

Le planificateur est le plus excitant et le moins mature, étroitement lié au domaine de l'apprentissage robotique en évolution rapide. Ces deux dernières années, ce domaine a produit plusieurs démonstrations robotiques impressionnantes en vidéo, mais nous devons être honnêtes sur ce qu'elles montrent réellement. Presque toutes ces démonstrations se limitent à des environnements de laboratoire très contraints, avec des types d'objets limités et des tâches de courte durée. Aucune n'a été validée face à la complexité, la diversité et la durée continues exigées par un déploiement réel. Le fossé entre une vidéo de démonstration spectaculaire et un robot pouvant fonctionner de manière fiable dans une cuisine, un entrepôt ou une salle d'opération reste énorme.

Néanmoins, la mise commerciale reste considérable. Une vague de nouveaux entrants bien financés se précipite pour lancer des systèmes de planification généraux, tandis que les grands acteurs de l'infrastructure construisent des capacités de planification sur des piles de simulation plus larges.

La simulation est le pont entre les deux. Si le langage est une abstraction du monde, et les pixels une projection du monde, alors la géométrie, la physique et la dynamique sont le monde lui-même. Le simulateur doit opérer à ce niveau : c'est la charpente structurelle dont peuvent être déduites la représentation visuelle (pour le moteur de rendu) et les conséquences des actions (pour le planificateur).

Un modèle qui maîtrise la simulation peut projeter sa compréhension en pixels pour la consommation humaine, ainsi qu'en prédictions d'actions pour les agents incarnés. Un modèle qui ne maîtrise que le rendu ou seulement la planification ne peut faire ni l'un ni l'autre. L'espace commercial ici est extrêmement vaste. Rien que l'Omniverse de NVIDIA, son marché adressable total est estimé par la société à plus de mille milliards de dollars, couvrant les usines, entrepôts, chaînes d'approvisionnement et jumeaux numériques. L'entraînement des robots, les tests de conduite autonome, la visualisation architecturale, l'ingénierie, la découverte de médicaments, tous dépendent d'une forme de simulation.

Les questions ouvertes les plus difficiles dans ce domaine sont aussi concentrées ici. Les données 3D avec une géométrie explicite, des attributs de matériau et des annotations physiques sont plusieurs ordres de grandeur plus rares que les vidéos internet utilisées pour l'entraînement des moteurs de rendu. L'écart sim-to-real (la différence entre le comportement des objets en simulation et dans le monde réel) persiste. Les simulateurs génératifs introduisent de nouveaux risques : la géométrie générée par l'IA peut sembler correcte mais contenir en réalité des problèmes d'auto-intersection ou de proportion erronée, conduisant à des résultats physiques absurdes. Le coût computationnel de la simulation multi-physique à grande échelle (corps rigides, objets déformables, fluides, tissus interagissant simultanément) reste plusieurs ordres de grandeur supérieur à celui de la simulation dans un domaine unique.

Chez World Labs, Marble est notre première étape dans cette direction. Il accepte des entrées multimodales (texte, image, vidéo ou croquis spatial), génère des environnements 3D explorables, et produit simultanément des splats gaussiens pour l'exploration visuelle et des maillages de collision pour l'exploitation par un moteur physique. Mais Marble n'est que le premier chapitre d'un long arc. Alors que les frontières entre rendu, simulation et planification commencent à s'estomper, tout le domaine écrit cette histoire.

Les frontières s'estompent, et ce qui va suivre

La tendance la plus importante dans ce domaine aujourd'hui est que les trois catégories commencent à fusionner. Le consensus sous-jacent est que les connaissances requises pour rendre un monde, le simuler et y agir sont largement les mêmes. Reprenant l'exemple précédent, un modèle qui comprend vraiment comment une tasse repose sur une table (sa forme géométrique, ses attributs de matériau, sa réponse aux forces, etc.) devrait pouvoir rendre cette tasse sous n'importe quel angle, simuler ce qui se passe si on la pousse, et planifier une main pour la saisir. Les trois catégories sont trois projections de la même compréhension sous-jacente.

Par exemple, un nombre petit mais croissant de travaux provenant de différents laboratoires de robotique ont montré une possibilité au moins conceptuellement viable : un moteur de rendu vidéo pré-entraîné peut servir de réseau principal pour la prédiction conjointe du monde et des actions, permettant à un modèle unique d'imaginer à la fois « ce qui va se passer » et « ce qu'il faut faire », établissant ainsi un pont entre le moteur de rendu et le planificateur. Le Marble de World Labs peut déjà produire simultanément des splats gaussiens et des maillages de collision à partir d'un modèle unique, estompant la frontière entre moteur de rendu et simulateur. À chaque niveau, on passe d'une sortie passive à un système interactif : les moteurs de rendu deviennent réactifs aux conditions d'action, les mondes générés par les simulateurs deviennent plus contrôlables et éditables, les planificateurs commencent à raisonner de manière délibérative plutôt que de simplement réagir.

Le point final logique est un **modèle du monde unifié** : un modèle fondamental capable de rendre des vues photoréalistes, de générer des structures physiquement précises, de planifier des séquences d'actions, et de basculer entre différentes modalités de sortie selon les besoins des utilisateurs en aval. Nous ferons toujours face à une série de défis redoutables. Le paysage des données est très inégal, les moteurs de rendu bénéficient de vastes quantités de vidéos internet, tandis que les simulateurs et planificateurs souffrent d'une grave pénurie de données d'actifs 3D et de démonstrations robotiques. L'optimisation pour l'esthétique visuelle peut sacrifier la précision nécessaire pour les robots ou la simulation haute fidélité. Réconcilier ces tensions au sein d'une architecture unique est le problème ouvert central de la recherche actuelle sur les modèles du monde, et ce sur quoi World Labs travaille dans l'évolution continue de Marble.

(Source : Substack)

Mais la direction générale est déjà claire. De la fin des années 1980 à aujourd'hui, le pari du domaine est resté le même : pourvu qu'un modèle du monde soit assez riche, tout ce dont un agent a besoin pour voir le monde, le construire et y agir s'y trouve. Ce pari anime maintenant une génération entière de recherche. Et ce qui lui donne vraiment du poids, c'est la fusion déjà en cours : les trois fils du rendu, de la simulation et de la planification, chacun a déjà soutenu des industries de plusieurs milliards de dollars, ils ont commencé comme des directions de recherche indépendantes et convergent maintenant. Lorsque les frontières disparaissent, la confluence des trois redéfinira une chose plus grande : la relation entre l'intelligence artificielle et le monde physique qu'elle habite, c'est-à-dire la trajectoire à long terme de l'intelligence spatiale.

Le langage a donné aux machines une manière de parler de ce monde. Les modèles du monde sont le moyen pour les machines de finalement le comprendre, l'imaginer, raisonner et interagir avec lui.

Références : 1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models

Questions liées

QQu'est-ce qu'un modèle du monde (world model) selon l'article de Li Fei-Fei, et pourquoi ce terme est-il considéré comme confus dans le domaine de l'IA ?

ASelon Li Fei-Fei, un modèle du monde est un système qui apprend la structure statistique de l'espace et du temps, contrairement aux modèles de langage qui apprennent la structure statistique du texte. Le terme est considéré comme confus car il est utilisé pour désigner des technologies très différentes : les générateurs de vidéo (comme Sora), les simulateurs physiques (comme les moteurs de jeu), les systèmes de planification pour robots, etc., chacun ayant des fonctions et des objectifs distincts, mais tous revendiquant le même label de 'modèle du monde'.

QQuels sont les trois types fonctionnels de modèles du monde proposés par Li Fei-Fei dans sa taxonomie ? Décrivez brièvement chacun d'eux.

ALi Fei-Fei propose une taxonomie en trois types fonctionnels basés sur la boucle POMDP (Processus de Décision Markovien Partiellement Observable) : 1. **Le Rendu (Renderer)** : Il produit des observations, principalement des pixels pour l'œil humain. Son objectif principal est la fidélité visuelle (ex: génération de vidéos à partir de texte). 2. **Le Simulateur (Simulator)** : Il produit l'état du monde, une représentation fidèle sur les plans géométrique, physique et dynamique. Il sert à la fois aux humains (design, visualisation) et aux programmes (entraînement de robots, tests). 3. **Le Planificateur (Planner)** : Il produit des actions. Étant donné une observation et un but, il décide de la prochaine action à effectuer pour un agent (ex: robots, véhicules autonomes).

QPourquoi l'article affirme-t-il que le simulateur (simulator) est la 'pivot clé' sous-estimé parmi les trois types de modèles du monde ?

AL'article affirme que le simulateur est le pivot clé car il opère au niveau fondamental de la géométrie, de la physique et de la dynamique, qui constituent la réalité du monde. Un modèle maîtrisant la simulation peut projeter cette compréhension à la fois en pixels pour le rendu visuel et en prédictions d'actions pour la planification. En revanche, un modèle limité au rendu ou à la planification ne peut pas faire les deux. De plus, les applications commerciales de la simulation (usines digitales, jumeaux numériques, entraînement de robots) représentent un marché immense, estimé à des milliers de milliards de dollars.

QQuel est le principal défi ou limitation actuel des planificateurs (planners) mentionné dans l'article, malgré les démonstrations impressionnantes ?

ALe principal défi des planificateurs est l'écart entre les démonstrations en laboratoire et un déploiement réel fiable. Les démonstrations sont souvent réalisées dans des environnements de laboratoire très contrôlés, avec des objets limités et des tâches de courte durée. Aucun système n'a encore fait ses preuves face à la complexité, la diversité et la durée requises pour un fonctionnement fiable dans des environnements réels comme une cuisine, un entrepôt ou une salle d'opération. Le fossé reste donc énorme.

QQuelle est la tendance majeure et la vision finale concernant l'évolution des modèles du monde selon la conclusion de l'article ?

ALa tendance majeure est la fusion progressive des trois types fonctionnels (rendu, simulation, planification). La vision finale est un **modèle du monde unifié**, un modèle de base capable de basculer entre différents modes de sortie selon les besoins : rendre des vues photoréalistes, générer des structures physiquement précises et planifier des séquences d'actions. Cette convergence redéfinira la relation entre l'intelligence machine et le monde physique, ouvrant la voie à une véritable intelligence spatiale. Le projet Marble de World Labs, qui génère à la fois des 'Gaussian splats' pour le rendu et des maillages de collision pour la simulation, est un pas dans cette direction.

Lectures associées

Forbes : Les paiements transfrontaliers en stablecoins sont plus rapides, mais pas encore moins chers

L'article examine la croissance rapide du secteur des paiements transfrontaliers en stablecoins, tout en soulignant un décalage entre la promesse de réduction des coûts et la réalité actuelle. Lors d'une conférence à Mexico, les professionnels ont confirmé que la technologie est mature, la régulation s'améliore et les volumes augmentent. Les stablecoins offrent des avantages en termes de vitesse, d'accessibilité 24/7 et de fiabilité. Cependant, ils ne sont pas encore significativement moins chers que les méthodes traditionnelles (frais de 60-70 points de base via les courtiers en devises). La raison principale est l'absence de pools de liquidités profonds et institutionnels nécessaires pour matérialiser la promesse théorique de frais de 2 à 5 points de base. Imran Ahmad de Bitso Business estime que les prix ne baisseront que lorsque les banques interviendront directement. Un autre obstacle majeur est la confiance. Les entreprises entretiennent souvent des relations de longue date avec leurs courtiers en devises, valorisant la fiabilité plus que les économies marginales. Ezra Kebrab, PDG de Caliza, une entreprise de paiements, insiste sur l'importance de la confiance et de l'exactitude des transactions, surtout pour les paiements aux fournisseurs où une erreur peut bloquer une cargaison. Contrairement à certains récits, les entreprises performantes comme Caliza ne cherchent pas à remplacer les infrastructures existantes comme Swift, mais à les compléter. Elles utilisent les stablecoins pour la vitesse tout en s'appuyant sur Swift pour la standardisation et la précision des informations requises. Cette approche a permis à Caliza une croissance mensuelle supérieure à 40%. En conclusion, le secteur est en forte croissance mais doit surmonter les défis de la liquidité, de la confiance et de l'intégration avec les systèmes traditionnels pour réaliser pleinement son potentiel de réduction des coûts. Une consolidation future est attendue, où seules les entreprises disposant de licences, de corridors fiables fiat-crypto et de liquidités solides survivront.

链捕手Il y a 1 h

Forbes : Les paiements transfrontaliers en stablecoins sont plus rapides, mais pas encore moins chers

链捕手Il y a 1 h

Dernier article de Fei-Fei Li : Alors que la génération vidéo, la robotique et NVIDIA revendiquent tous le titre de "modèle du monde", nous avons besoin d'une taxonomie

L'article de Fei-Fei Li propose une taxonomie pour clarifier le concept de « modèle du monde », de plus en plus utilisé de manière disparate dans l'IA. En s'appuyant sur le cadre classique du POMDP (Processus de Décision Markovien Partiellement Observable), elle distingue trois fonctions distinctes : 1. **Le moteur de rendu** : Il génère des observations visuelles (pixels) à partir d'actions ou de prompts. Son objectif est la fidélité visuelle, mais il ne garantit pas l'exactitude physique (ex. : Sora, Genie). 2. **Le simulateur** : Il produit un **état** du monde précis sur les plans géométrique, physique et dynamique. Il sert à la fois aux humains (conception, visualisation) et aux programmes (entraînement de robots, tests). C'est le pivot crucial, sous-estimé, car il fournit la base structurelle pour le rendu et la planification. 3. **Le planificateur** : À partir d'une observation et d'un objectif, il détermine les **actions** à exécuter. C'est le plus excitant mais le moins mature, l'écart entre les démonstrations en laboratoire et les déploiements réels restant important (ex. : modèles vision-langage-action). L'article souligne que ces trois catégories, bien que distinctes, partagent une compréhension sous-jacente commune du monde (géométrie, physique). La tendance actuelle est à leur **fusion**. Un modèle unifié pourrait, à terme, basculer entre ces modes selon les besoins. Le simulateur y joue un rôle central : maîtriser la simulation permet de dériver à la fois le rendu et la planification, l'inverse n'étant pas vrai. La vision finale est un modèle de base unique capable de rendre, simuler et planifier, redéfinissant ainsi l'intelligence spatiale des machines.

链捕手Il y a 1 h

Dernier article de Fei-Fei Li : Alors que la génération vidéo, la robotique et NVIDIA revendiquent tous le titre de "modèle du monde", nous avons besoin d'une taxonomie

链捕手Il y a 1 h

Trading

Spot
活动图片