5 millions d'années, c'est l'âge de l'histoire évolutive du langage humain. 540 millions d'années, c'est le point de départ de l'explosion cambrienne, déclenchée par la perception visuelle et spatiale.
En 2025 et 2026, alors que presque tous les grands laboratoires de la Silicon Valley s'activent sur les modèles de langage, Fei-Fei Li, professeure à Stanford et fondatrice de World Labs, lance sans cesse une question qui oblige le secteur à relever la tête : si l'IA ne sait que parler et regarder des images, elle ne « comprendra » jamais vraiment le monde.
Lors de trois entretiens clés, incluant le podcast a16z en juin 2025, le sommet sur l'IA de Cisco en février 2026, et une conversation approfondie d'1h19 dans le podcast de Lenny publiée le 22 mai 2026, elle a systématiquement exposé un jugement qui est en train d'être accélérément validé : l'intelligence spatiale (Spatial Intelligence) est la prochaine frontière de l'IA.
Les formulations comme « créer des univers infinis » ou « vivre dans un multivers » dans l'entretien a16z, ainsi que les affirmations « les modèles du monde sont la prochaine frontière » ou « l'AGI est plutôt un terme marketing » dans le podcast de Lenny, ont récemment été massivement relayées sur la plateforme X.
« Il nous manque un modèle du monde »
D'après le souvenir de Martin Casado, partenaire chez a16z, lors d'un déjeuner dans la Silicon Valley, tous les participants parlaient avec excitation des grands modèles de langage. Fei-Fei Li, assise à l'autre bout de la table, s'est soudain tournée vers lui :
« Tu sais ce qui nous manque ? Il nous manque un modèle du monde. »
Casado, investisseur précoce de World Labs et vieil ami de Fei-Fei Li depuis l'époque de Stanford, se souvient de ce moment : « Tout a fait sens. » Il venait justement de tirer une conclusion similaire après de nombreux investissements dans le domaine de l'image : le langage n'est pas la fin de l'histoire.
Mais la réflexion de Fei-Fei Li sur cette question remonte bien plus loin que pour la plupart des gens.
En avril 2024, lors d'une conférence TED de 15 minutes, elle a utilisé la théorie de l'évolution pour introduire le sujet : l'apparition des trilobites il y a 540 millions d'années a permis pour la première fois à la vie de « voir » le monde. La naissance de la vision a déclenché une course à l'évolution de l'intelligence, le système nerveux s'est développé, les animaux sont devenus actifs, et l'intelligence a ainsi émergé. Le langage n'est qu'un produit très récent de cette longue compétition.
Ce jugement a été renforcé à plusieurs reprises lors des trois entretiens. Lors du sommet sur l'IA de Cisco, sa formulation a été plus directe :
« Le langage a une histoire d'environ 500 000 ans seulement. Mais il y a 1,5 milliard d'années, les animaux ont commencé à percevoir la lumière et à toucher leur environnement. La capacité à comprendre, raisonner, interagir et naviguer dans le monde physique réel en 3D, 4D est fondamentale, tout aussi importante que l'intelligence langagière. »
Fei-Fei Li ne nie pas la valeur de l'intelligence langagière. Son argument central est que le langage est, par nature, une façon de coder le monde avec « une perte d'information ».
Dans l'entretien a16z, Casado propose une expérience de pensée : bandez-vous les yeux, décrivez une pièce avec des mots, puis essayez d'accomplir une tâche, vos chances de succès sont minimes. Parce que la description langagière de la réalité est toujours grossière. Enlevez le bandeau, votre cerveau reconstruit instantanément l'espace en 3D, et vous pouvez agir, toucher, vous déplacer.
Fei-Fei Li ajoute un exemple encore plus extrême, le raisonnement spatial le plus célèbre de l'histoire des sciences : la photo de diffraction des rayons X de l'ADN prise par Rosalind Franklin est une image plane en 2D, sur laquelle la structure ressemble à une croix avec des anneaux de diffraction. Mais Watson et Crick, à partir de cette image en 2D, ont déduit la structure en double hélice de l'ADN dans l'espace en 3D. « Cette structure ne pouvait pas être en 2D. On ne peut pas la déduire avec une pensée en 2D. »
« Si vous observez l'intelligence humaine, beaucoup dépasse le cadre du langage. Le langage est une façon de capturer le monde avec une perte d'information. La ‘langue’ purement générative n'existe pas dans la nature ; nous regardons autour de nous, il n'y a pas de phrases ou de mots prêts à l'emploi, alors que le monde physique, perceptif et visuel existe bel et bien. »
C'est une perspective facilement négligée : la plupart des capacités des grands modèles actuels reposent sur un format de compression d'information naturellement imparfait. Dans le podcast de Lenny, elle dévoile cette illusion avec un test plus quotidien :
« Aujourd'hui, prenez un modèle, faites-lui lire une vidéo de quelques salles de bureau, puis demandez-lui de compter le nombre de chaises. C'est quelque chose qu'un jeune enfant peut faire, mais l'intelligence artificielle ne le peut pas. »
Sans parler de déduire les lois de la physique du mouvement des corps célestes : « Donnons toutes les données à l'IA, y compris celles des instruments modernes que Newton n'avait pas, et demandons-lui de créer un ensemble d'équations du 17e siècle sur les lois du mouvement des objets. L'intelligence artificielle d'aujourd'hui ne le peut pas. »
Marble : plusieurs ordres de grandeur plus petit que GPT-5
La concrétisation de ce jugement est le modèle de première génération de World Labs, Marble, publié fin 2024.
Lors du sommet sur l'IA de Cisco, Fei-Fei Li a détaillé le positionnement technique de Marble : recevoir des entrées texte, image, vidéo ou 3D simple, et générer un « monde 3D entièrement navigable, interactif et doté d'une permanence cohérente ». Elle insiste particulièrement sur la différence fondamentale avec les modèles de génération vidéo comme Sora : les environnements générés par Marble ont une structure géométrique, ce n'est pas une animation de pixels qui « ressemble » à une vidéo.
Dans le podcast de Lenny, elle utilise l'allégorie de la caverne de Platon pour une explication plus profonde : les prisonniers attachés sur une chaise ne voient que les ombres en 2D projetées sur le mur, mais le véritable drame se joue dans l'espace en 3D derrière eux. Les modèles vidéo sont ces ombres, et ce que l'intelligence spatiale veut faire, c'est créer et raisonner sur le monde réel derrière ces ombres.
Un contraste : la puissance de calcul pour l'entraînement de GPT-5 est d'environ 10^26 FLOPS, tandis que Marble est plusieurs ordres de grandeur plus petit en termes d'échelle. Il y a deux raisons à cela : la difficulté d'acquisition des données est complètement différente (les données physiques 3D de haute qualité sont extrêmement rares), et ce domaine en est encore aux premiers stades de la « courbe ascendante de la loi de mise à l'échelle (Scaling Law) ».
Dans le podcast de Lenny, elle explique plus en détail pourquoi l'apprentissage robotique ne peut pas simplement reproduire la « leçon amère » des modèles de langage. Il y a dans le domaine de l'IA un célèbre argument : un modèle simple avec des données massives finit toujours par surpasser un modèle complexe. Mais « les modèles de langage ont une configuration parfaite : les données d'entraînement sont des mots, la sortie aussi est du texte. » Alors qu'en robotique, « vous voulez obtenir des actions, mais les données d'entraînement manquent d'actions dans le monde en 3D. » Ce décalage fondamental entre l'objectif d'entraînement et la forme des données est le problème central de l'apprentissage robotique.
World Labs adopte une stratégie de données hybrides : texte, images et vidéos à l'échelle d'Internet, plus des données de simulation, plus des données collectées dans le monde réel. Fei-Fei Li reconnaît franchement : « Nous en sommes encore à une phase relativement précoce d'exploration de l'architecture du modèle », mais elle prévoit que « les prochaines années seront très excitantes. »
À peine ces mots prononcés, World Labs a levé 10 milliards de dollars en février 2026, avec la participation de NVIDIA, AMD et a16z, faisant passer sa valorisation d'environ 1 milliard de dollars un an plus tôt à environ 5 milliards de dollars. En avril, l'équipe a open-sourcé le moteur de rendu par splatting gaussien 3D Spark 2.0, permettant le rendu en temps réel de scènes 3D avec des centaines de millions de polygones dans un navigateur web, passant d'un produit propriétaire à une double stratégie « produit + écosystème open source », abaissant rapidement le seuil technique de l'intelligence spatiale.
Dans le podcast de Lenny, Fei-Fei Li a aussi révélé rarement les difficultés de l'entrepreneuriat : « Si je pouvais murmurer une phrase à moi-même il y a 18 mois : 'L'intensité de la compétition dans ce domaine, tant sur le plan technique que des talents, dépasse tout ce que tu peux imaginer.' »
Univers infini et multivers
Ce qui a vraiment fait resurgir l'entretien a16z sur X, ce sont les propos de Fei-Fei Li sur « l'univers infini » :
« Dans toute l'histoire de la civilisation humaine, nous avons tous vécu ensemble dans un seul monde en 3D. Seule une poignée de personnes sont allées sur la Lune, et très peu. Et cette technologie rend les mondes virtuels numériques incroyablement riches. Soudainement, nous pouvons en fait créer des univers infinis, certains pour les robots, d'autres pour la créativité, d'autres pour la socialisation, d'autres pour les voyages, d'autres pour raconter des histoires. Soudain, nous pouvons vivre dans un multivers, l'espace d'imagination est infini. »
Casado, quant à lui, a fourni une explication technique plus concrète : à partir d'une simple photo en 2D, le modèle peut générer une représentation 3D complète à 360 degrés, y compris l'arrière d'une table. Vous pouvez manipuler, mesurer, empiler, tout ce qu'on peut faire dans l'espace devient possible.
Ce n'est pas de la science-fiction. Dans les deux entretiens, Fei-Fei Li a listé des applications déjà en place de Marble :
• Des développeurs de jeux utilisent les premières versions pour créer des jeux
• L'équipe de production virtuelle en partenariat avec Sony a réduit le cycle de production cinématographique d'un facteur 40
• NVIDIA et plusieurs laboratoires académiques utilisent Marble pour entraîner des robots
• Des architectes et designers l'utilisent pour la conception d'intérieur
• Des chercheurs cliniques créent des environnements déclencheurs immersifs personnalisés pour des patients souffrant de TOC, d'acrophobie
• Certains l'utilisent pour générer des espaces d'entraînement de yoga personnalisés
La dernière application est particulièrement surprenante. Fei-Fei Li a mentionné lors du sommet que les patients TOC sont déclenchés par des scènes très spécifiques, « par exemple, personnellement, je suis gênée par des piles de vêtements sales, mais le point de déclenchement de chacun est différent. » Dans le podcast de Lenny, elle ajoute qu'après la sortie, un ami l'a appelée tard dans la nuit pour lui demander si Marble pouvait être utilisé pour traiter l'acrophobie. La construction d'environnements physiques est extrêmement coûteuse, alors que Marble ne nécessite qu'un mot-clé pour générer divers environnements en quelques minutes.
L'allégorie de la caverne de Platon est justement la meilleure entrée pour comprendre la divergence entre 2D et 3D.
Fei-Fei Li utilise cette allégorie pour expliquer : les prisonniers attachés sur une chaise ne voient que les ombres en 2D projetées sur le mur. Les modèles de langage et vidéo actuels sont essentiellement ces ombres, devinant le monde en 3D à partir de la 2D. L'ambition de l'intelligence spatiale est de créer, raisonner et interagir avec le monde réel derrière ces ombres.
Sur le plan technologique, elle trace une frontière claire avec une comparaison concise :
« Une voiture peut être considérée comme un robot cubique qui se déplace sur un plan en 2D, son objectif est de ne toucher à rien. Alors qu'un robot est une entité en 3D, qui fonctionne dans un monde en 3D, l'objectif d'un robot généraliste est de devoir toucher des objets sans les détruire. C'est un problème de dimension supérieure. »
Elle donne aussi une échelle de temps tirée de son expérience personnelle : en 2006, elle a participé à la création de la première voiture autonome à parcourir 138 miles dans le désert, prédisant alors qu'il y aurait des voitures autonomes dans 20 ans. Ce n'est qu'en 2025 que Waymo a commencé à fonctionner massivement dans les rues des villes.
« Voir l'étoile polaire ne signifie pas que le voyage sera court. »
Casado ajoute lors de l'entretien a16z une observation plus intuitive sur le plan commercial : rien que pour le secteur de la conduite autonome, l'industrie a investi environ 100 milliards de dollars, et il a fallu 20 ans pour en arriver là. « Notre feuille de route initiale était de résoudre d'abord le problème de la navigation dans le monde, mais cela s'est avéré extrêmement difficile. »
Fei-Fei Li a même partagé une expérience personnelle lors de l'entretien a16z pour renforcer son argument : il y a environ cinq ans, elle a perdu la vision stéréoscopique pendant plusieurs mois suite à une blessure de la cornée. « Même si je savais parfaitement la taille de ma voiture, et que je connaissais à peu près la taille des voitures garées chez mes voisins, et que j'ai conduit sur cette route pendant des années, je ne pouvais pas bien juger la distance entre ma voiture et celles garées sur le bord. Je ne pouvais conduire qu'à 10 miles à l'heure pour ne pas rayer les autres voitures. »
Une scientifique ayant consacré sa vie à étudier l'intelligence visuelle, utilisant sa propre expérience de perte de perception de la profondeur, répond à la question « pourquoi la 3D est irremplaçable ».
Technologie à double tranchant et mesure de la civilisation
Entre l'optimisme technologique et le discours apocalyptique, Fei-Fei Li choisit une position plus mesurée et plus opérationnelle. Elle exprime clairement lors du sommet sur l'IA de Cisco son inquiétude face aux discours polarisés :
« Les discussions en ligne sont souvent manichéennes : soit un utopisme technologique complet, ignorant que la technologie est une arme à double tranchant ; soit des déclarations apocalyptiques, comme si l'humanité était constamment en danger de survie. Pour une technologie aussi profonde pour la civilisation humaine, cette façon de discuter est irresponsable. »
Elle ne s'arrête pas à la critique, mais donne un point d'ancrage de valeur quantifiable : l'électricité.
« Si on remonte de plus de cent ans en arrière, imaginez comment les gens de l'époque définissaient le succès de l'électricité. J'espère que la vision était : des écoles bien éclairées, des foyers chaleureux, des machines dotées de puissance pour l'industrialisation, prolongeant ainsi la vie humaine, permettant à plus d'enfants d'être éduqués. »
Puis elle transpose cet ancrage à l'IA : « La définition du succès devrait être que la civilisation devient meilleure, et la civilisation est composée de chaque individu en quête de bonheur, de prospérité et de dignité. C'est la définition du succès pour l'IA et pour chaque technologie. »
À la fin du podcast de Lenny, elle ramène cette préoccupation aux personnes concrètes. Elle dit qu'à chaque fois qu'elle se rend quelque part, on lui pose la même question : si je suis fermier, infirmier, musicien, l'IA va-t-elle me remplacer ? Sa réponse est : « En fin de compte, l'IA concerne les gens. Aucune technologie ne devrait priver les gens de leur dignité. La dignité et l'autonomie humaines devraient être au cœur du développement, du déploiement et de la gouvernance de chaque technologie. »
En revenant sur les trois entretiens, une ligne directrice claire émerge.
La réflexion de Fei-Fei Li sur l'intelligence spatiale n'est pas une rébellion contre la vague des grands modèles, mais une extension basée sur ceux-ci. Elle a vu plus tôt que la plupart des gens les limites des modèles de langage, ce qu'un format de compression d'information imparfait peut faire est finalement limité. Le problème que l'intelligence spatiale veut résoudre est : faire passer l'IA de « parler du monde » à « comprendre le monde », et finalement à « agir dans le monde ».
L'équipe de World Labs compte environ 30 personnes et a levé plus de 1 milliard de dollars. Marble est le produit de première génération, bien plus petit que les principaux modèles de langage. La rareté des données 3D et l'état précoce de l'architecture du modèle font que ce ne sera pas une route rapide. Mais Fei-Fei Li a dit une autre chose dans le podcast de Lenny, qui est peut-être la meilleure annotation pour cette patience :
« Notre cerveau ne consomme qu'environ 20 watts, plus faible que n'importe quelle ampoule dans cette pièce, et pourtant il peut faire tant de choses. Plus je travaille dans le domaine de l'IA, plus je respecte l'être humain. »
Il a fallu 540 millions d'années d'évolution pour que la vie à base de carbone acquière cette intelligence spatiale de 20 watts. L'évolution de l'IA est en train d'être compressée en quelques années.
Fei-Fei Li n'a donné aucun calendrier dans les trois entretiens. Elle revient sans cesse à ce jugement tiré de la théorie de l'évolution : la perception précède le langage, l'espace précède le symbole. Ce qui se passe actuellement dans la Silicon Valley, les laboratoires de Stanford et les bureaux de World Labs, ce n'est pas une itération technologique, mais une rejouée accélérée de la théorie de l'évolution. (Cet article a été publié pour la première fois sur l'application TiMedia, auteur | Silicon Valley Tech News, éditeur | Zhao Hongyu)
Annexe : Adresses où les transcriptions des trois entretiens sont archivées [Base de connaissances IMA] Entretiens avec Fei-Fei Li https://ima.qq.com/wiki/?shareId=3f1d4b4c0d6cb2aeca250e2c5d068390e2d45895816ad607309820e25cb2e9c5








