Sur le marché actuel du capital-risque, les « modèles du monde » sont sans aucun doute le mot à la mode parmi les mots à la mode. Nous voyons presque chaque jour de nouvelles entreprises de « modèles du monde » boucler des levées de fonds, avec une valorisation en forte croissance et des listes d'investisseurs prestigieuses. De plus, dans les communiqués de presse de ces levées de fonds, on répète souvent un fait : un agent super-intelligent digne de ce nom ne devrait pas se contenter d'être nourri de données pour acquérir ses capacités, mais devrait comprendre activement le monde physique, comme le font les humains.
Mais Pete Florence, après avoir créé son entreprise, a écrit une longue lettre ouverte qui commence ainsi : « Ne collez pas à mon entreprise l'étiquette de modèle du monde. »
C'est vraiment renversant. Parce que Pete Florence n'est pas simplement un « entrepreneur ». Avant de créer son entreprise, Pete Florence a travaillé chez Google DeepMind, évoluant d'un chercheur ordinaire à un scientifique principal de recherche. Le modèle de contrôle robotique Gemini Robotics publié par DeepMind en 2025, Pete Florence était l'un des développeurs clés. Cependant, sa contribution la plus influente pendant cette période fut, en 2023, de présenter au monde avec ses collègues une toute nouvelle architecture de modèle robotique : « Vision-Language-Action Models » (Modèles Vision-Langue-Action).
(Pete Florence, source : Réseaux sociaux)
Oui, tout à fait. Si les « modèles du monde » ou « VLA » sont aujourd'hui la voie la plus avancée et faisant le plus consensus, alors Pete Florence est sans conteste un précurseur sur cette voie. Voir une telle personne rejeter ouvertement l'étiquette « modèle du monde » est vraiment déstabilisant.
Et maintenant, le choc est doublé. Récemment, Generalist AI, la société d'intelligence incarnée fondée par Pete Florence, a réalisé une nouvelle levée de fonds d'un montant total de 4 milliards de dollars (environ 27 milliards de yuans), avec une valorisation de 20 milliards de dollars (environ 135,5 milliards de yuans). Les investisseurs de ce tour incluent NVentures, la branche capital-risque de Nvidia, le fonds NFDG co-géré par les investisseurs providentiels renommés Nat Friedman et Daniel Gross, la société de gestion familiale de Jeff Bezos Bezos Expeditions, ainsi que le cofondateur de Xiaomi Lin Bin, le fondateur de Zoom Eric Yuan, et la scientifique la plus représentative du domaine des modèles du monde, Fei-Fei Li.
L'« objectif » est plus important que l'« étiquette »
Pourquoi Pete Florence, en tant que l'un des principaux fondateurs des modèles du monde, rejette-t-il si fermement l'étiquette « modèle du monde » ? Pourquoi Fei-Fei Li, en tant que scientifique la plus représentative du domaine des modèles du monde, a-t-elle investi des fonds réels pour soutenir un tel « hérétique » ouvertement rebelle ? L'histoire commence peut-être en 2019.
À l'époque, Pete Florence préparait son doctorat en informatique au MIT, se concentrant principalement sur la manipulation robotique, la vision par ordinateur et le traitement du langage naturel. De ce point de vue, Pete Florence est « orthodoxe » : ses axes de recherche et son parcours académique sont classiques, ce n'est pas un « marginal » qui aurait besoin de « singularité » pour attirer des ressources. Le problème, c'est que le MIT lui a attribué comme directeur de thèse un certain Russ Tedrake.
Qui est Russ Tedrake ? Tout d'abord, c'est incontestablement un grand nom académique. En 2019, il était professeur au département de génie électrique et d'informatique du MIT et directeur du centre de robotique du laboratoire d'informatique et d'intelligence artificielle. Chaque année, lors du célèbre DARPA Robotics Challenge, il menait également l'équipe du MIT. À l'extérieur, il occupait également le poste de vice-président du centre de recherche en robotique du Toyota Research Institute. On peut dire que Russ Tedrake est l'un des chercheurs les plus éminents dans le domaine de la robotique, avec des ressources suffisantes pour aider le jeune Pete Florence à réaliser son rêve académique.
Cependant, dans la perception de soi de Russ Tedrake, ce qui le fascine n'est pas le code informatique, mais la « physique ». Dans une auto-présentation, Russ Tedrake raconte que sa décision de s'engager dans la voie académique de l'informatique découle de ses recherches sur les « robots bipèdes », où il a observé une « riche dynamique » qui a éveillé en lui un vif intérêt pour le « contrôle de la dynamique des fluides complexes ». Ainsi, contrairement à d'autres chercheurs qui, en début de carrière, étudieraient d'abord comment faire saisir une pomme ou plier une couverture par un robot, ses premiers sujets de recherche portaient sur le contrôle d'« avions en perte de vitesse ou de machines volantes à ailes battantes », et sur la façon de « traverser à grande vitesse des environnements denses d'obstacles ».
Un tel parcours a inévitablement conduit Russ Tedrake à accorder une grande importance à la « compréhension du monde physique ». Le site web du MIT décrit ainsi les caractéristiques académiques de Russ Tedrake : « Les recherches de ce professeur se concentrent sur la recherche de solutions de contrôle élégantes pour des systèmes dynamiques intéressants (sous-actionnés, stochastiques et/ou difficiles à modéliser), et sur la capacité à construire ces systèmes pour une validation expérimentale. Il s'intéresse particulièrement aux liens entre la mécanique (en particulier la mécanique non lisse) et la théorie de l'apprentissage automatique/de l'optimisation, afin de concevoir des contrôles robustes pour des systèmes mécaniques complexes. »
Imprégné par cet environnement, Pete Florence est naturellement devenu un « physicien » de l'informatique. Par exemple, son résultat académique le plus représentatif pendant son doctorat est un article intitulé « Auto-supervised Correspondence in Vision-Motor Policy Learning ». Cet article proposait une méthode permettant, par apprentissage par imitation, à un robot d'accomplir des tâches de manipulation complexes avec seulement 50 démonstrations, tout en étant capable de généraliser à différentes catégories d'objets et de s'adapter aux configurations d'objets déformables. Cet article a reçu le prix de la meilleure thèse de l'année 2020 de l'IEEE (Institute of Electrical and Electronics Engineers) dans le domaine de la robotique et de l'automatisation.
Bien sûr, l'appartenance à une « école » n'est pas importante ; ce qui compte, c'est que Pete Florence a développé sous cette influence une façon de penser différente. De nombreux chercheurs partent des technologies existantes, explorent leurs possibilités par l'expérimentation, puis déterminent leurs scénarios d'application. Pete Florence, lui, croit que l'ordre correct devrait être de « fixer d'abord un objectif concret », puis de concevoir la voie technologique.
Après avoir rejoint l'équipe Google DeepMind, Pete Florence a mené ses travaux précisément dans cette direction, et sa première œuvre marquante est l'architecture de modèle robotique de première génération Transporter Network, lancée par Google en 2021. Dans l'article présentant le modèle, Pete Florence expliquait que ranger des objets devrait être une compétence très basique, mais pour un robot, accomplir cette action implique un « raisonnement perceptuel de haut et bas niveau », nécessitant de considérer où placer le livre, dans quel ordre l'empiler, tout en s'assurant que les bords des livres sont alignés pour former une pile nette.
Transporter Network a été conçu précisément pour « simplifier les actions simples », permettant aux robots d'effectuer diverses opérations de manière générale sur la base de la vision, avec une vitesse d'entraînement rapide et une dépendance moindre à l'environnement d'entraînement.
La publication de l'architecture VLA avec l'équipe DeepMind en 2023 découle naturellement de cette logique. Dans cet article qui a inauguré l'âge d'or actuel des modèles du monde, les auteurs déclaraient qu'ils espéraient que l'architecture VLA permettrait « d'améliorer significativement la capacité de généralisation à de nouveaux objets, d'interpréter des instructions absentes des données d'entraînement du robot (par exemple, placer un objet sur un chiffre ou une icône spécifique), et de raisonner de manière basique selon les instructions de l'utilisateur (par exemple, saisir l'objet le plus petit ou le plus grand, ou celui le plus proche d'un autre objet) ».
Revenons à la question initiale : pourquoi Pete Florence, en tant que l'un des principaux fondateurs des modèles du monde, rejette-t-il si fermement cette étiquette ? La réponse est la même : Pete Florence pense que l'« objectif » est plus important que l'« étiquette ».
À ses yeux, l'enthousiasme actuel autour des modèles du monde est en réalité « piloté par des concepts » ; une partie importante de cet enthousiasme peut être attribuée à l'excitation des marchés financiers à découvrir des points de vue non consensuels dans une direction très chaude. De plus, si l'on veut véritablement faire entrer les robots dans notre vie professionnelle et quotidienne pour créer de la productivité, construire un « modèle du monde » n'est clairement pas un objectif en soi. Le véritable objectif devrait être que les robots puissent accomplir toutes sortes de tâches jamais vues auparavant avec un taux de réussite et une vitesse extrêmement élevés, et sans nécessiter aucune donnée spécifique à la tâche.
Et c'est aussi la raison pour laquelle Pete Florence a décidé de quitter Google DeepMind et de créer sa propre entreprise. Lors de la conférence GTC de Nvidia en 2025, Pete Florence est apparu pour la première fois sous les projecteurs en tant que cofondateur et PDG de Generalist AI. Il déclara : « Nous sommes déterminés à créer des robots capables de tout faire... Imaginez un instant ce que serait un monde où le coût marginal du travail manuel tomberait à zéro. »
99 % de taux de réussite
Outre son « hérésie » en termes de philosophie technologique, le parcours entrepreneurial de Pete Florence semble également peu conventionnel.
En théorie, un entrepreneur avec un tel CV serait actuellement très courtisé par les VC. Des exemples comme Yann LeCun, Ilya Sutskever ou Mira Murati montrent que leurs entreprises ont bouclé des tours de financement d'amorçage dépassant le milliard de dollars dès leur création (voire avant même leur enregistrement). Mais Generalist AI de Pete Florence, au départ, n'a accepté des investissements que de quelques institutions comme Nvidia, la société de gestion de Bezos, NFDG, etc. Si ce n'était le « panel d'entreprises financées » organisé par NVentures, la branche capital-risque de Nvidia, lors du GTC 2025, beaucoup ignoraient encore qu'il avait quitté son emploi pour créer son entreprise.
Pourquoi ? La réponse la plus probable est le choix actif de Pete Florence. Comme mentionné précédemment, Pete Florence est entré chez Google DeepMind dès l'obtention de son diplôme, y restant de 2019 à 2025 sans autre expérience professionnelle. Autrement dit, Generalist AI est sa première expérience entrepreneuriale, il est donc tout à fait naturel qu'il soit extrêmement prudent.
D'ailleurs, lors de sa première apparition publique en tant qu'entrepreneur au GTC 2025, Pete Florence a montré très clairement sa « prudence ». Hormis le fait de dire qu'il construisait des « robots », il n'a révélé aucune orientation commerciale spécifique, déclarant directement : « Nous sommes encore en mode furtif. »
Il a fallu attendre novembre 2025 pour voir enfin le premier produit concret de Generalist AI. En novembre 2025, Generalist AI a publié son premier modèle d'intelligence incarnée, GEN-0. Dans sa présentation officielle, Generalist AI indiquait que GEN-0 combinait les avantages des modèles de vision et des modèles de langage, tout en les dépassant simultanément — GEN-0 pouvait capturer des réflexes et un sens commun physique de niveau humain.
En termes simples, sa capacité augmente avec l'échelle du modèle et la quantité de données d'entraînement, surmontant les limites des petits modèles précédents ; il peut penser et agir simultanément comme un humain, réagissant rapidement et naturellement dans des environnements physiques réels ; il s'adapte naturellement à différents types de robots sans nécessiter de modifications supplémentaires ; plus important encore, il s'appuie sur des masses de données d'opérations réelles, ne souffrant plus de pénurie de données, et permet d'ajuster de manière flexible la composition des données d'entraînement. De nombreux médias technologiques ont souligné que GEN-0 prouvait que les « lois d'échelle » mathématiques qui régissent les grands modèles de langage comme ChatGPT s'appliquent également au mouvement physique.
Cependant, GEN-0 n'est pas parfait. Par exemple, il n'a pas résolu le problème des jeux de données qui tourmente le domaine de l'intelligence incarnée. Ainsi, en avril 2026, Generalist AI a rapidement évolué vers une nouvelle version, GEN-1.
(« Main mécanique », source : Réseaux sociaux de Generalist AI)
Pour résoudre le problème des jeux de données, Generalist AI a développé un dispositif portable pour capturer les micro-mouvements et les informations visuelles lorsque les humains exécutent des tâches manuelles. Generalist AI a indiqué que durant le développement de GEN-1, ils avaient collecté plus de 500 000 heures de « données d'interaction physique de niveau pétaoctet » à l'aide de ces mains mécaniques pour entraîner leur modèle physique. Après un entraînement suffisant, Generalist AI a déclaré que GEN-1 atteignait un taux de réussite de 99 % sur des tâches mécaniques répétitives mais précises comme le pliage de cartons, l'emballage de téléphones ou la maintenance d'aspirateurs robots, à une vitesse environ trois fois supérieure à celle du modèle précédent GEN-0, et qu'il ne fallait qu'environ une heure pour atteindre cet objectif.
Ainsi, Generalist AI a fièrement annoncé que le modèle physique de GEN-1 approchait d'un point d'inflexion similaire à celui de GPT-3, les performances sur certaines tâches commençant à « atteindre le niveau requis pour un déploiement dans des environnements commerciaux pratiques », et que « nous pouvons anticiper que chaque nouvelle génération de modèle apportera une série de nouvelles tâches de plus en plus complexes, toutes maîtrisables ».
Dans le blog officiel, Pete Florence soulignait que le processus de développement de GEN-1 illustrait parfaitement sa philosophie technologique personnelle : d'abord, il fixait un objectif rationnel, à savoir que les robots puissent accomplir toutes sortes de tâches jamais vues auparavant avec un taux de réussite et une vitesse extrêmement élevés, et sans nécessiter aucune donnée spécifique à la tâche. Ensuite, sur la base de cet objectif, il établissait une voie de résolution permettant d'utiliser une petite quantité de données robotiques pour une tâche spécifique (appelée X) et d'atteindre un haut niveau d'exécution de cette tâche, puis de réduire constamment X tout en améliorant les performances.
Arrivés à ce point, la question posée précédemment trouve sa réponse. Peu importe si le produit développé par Generalist AI s'appelle ou non un « modèle du monde » ; dès lors que vous vous intéressez au secteur de l'intelligence incarnée et que vous croyez que les robots peuvent entrer massivement dans la production réelle, alors Generalist AI est effectivement un choix sur lequel il vaut la peine de miser. Et cette levée de fonds de Generalist AI a effectivement été bouclée rapidement dans les deux mois suivant la publication de GEN-1.
Selon les rapports, les actionnaires existants Nvidia, Bezos Expeditions et NFDG ont tous choisi de réinvestir, et même de doubler leurs mises. En outre, les nouveaux investisseurs incluent le cofondateur de Xiaomi Lin Bin, le fondateur de Zoom Eric Yuan, la scientifique sino-américaine Fei-Fei Li, ainsi que des investisseurs institutionnels comme Radical Ventures, 8VC, Union Square Ventures, Hanabi Capital, Norwest.
En d'autres termes, en juin 2026, Pete Florence n'a plus besoin de se prouver. Au minimum, les promesses qu'il a faites au fil des années — comme lorsqu'il déclarait en 2025, au début de son aventure entrepreneuriale, dans un podcast : « Un robot généraliste ne doit pas effleurer superficiellement chaque chose, mais être suffisamment expert dans des tâches réelles pour être utile » — sont en train de se réaliser les unes après les autres.
Cet article provient du compte WeChat public « Touzhongwang », auteur : Pu Fan







