Article | Le Nouvel Œil, Auteur | Lu Yao
Un terme fait beaucoup parler de lui ces derniers temps dans le milieu : "IA physique".
Ce terme avait déjà été répété une dizaine de fois par Jensen Huang dans son discours au salon CES de Las Vegas début de l'année dernière, mais c'est seulement cette année que le "Physical AI" a véritablement explosé.
Alors, qu'est-ce que l'"IA physique" ?
Avant-hier, j'ai vu une vidéo d'un robot arrosant des fleurs. Le robot s'est d'abord approché du robinet, l'a ouvert, a rempli l'arrosoir, puis s'est retourné vers le pot de fleurs, a ajusté l'angle et a arrosé uniformément, sans que le bec ne heurte le bord du pot et sans renverser d'eau.
Pour qu'une machine comprenne "porter un verre d'eau", elle doit savoir que le verre est cylindrique, calculer la force nécessaire pour le tenir sans le faire glisser ni le casser, comprendre que l'eau est un liquide qui peut se renverser si on la secoue, et ajuster en temps réel l'angle de son bras pendant la marche pour compenser les mouvements du corps.
Tout cela, un enfant de trois ans le fait intuitivement. Mais pour une IA, c'est un énorme saut. Au cours de la dernière décennie, l'IA a appris à voir, à entendre, à parler, à dessiner, mais elle est restée prisonnière de l'écran. L'objectif de l'IA physique est d'insérer ce cerveau intelligent dans un corps capable de courir, sauter, saisir et lâcher dans le monde réel.
En clair, l'IA physique, c'est faire en sorte que l'IA comprenne et agisse sur le monde physique. Elle ne se contente plus de traiter du texte et des images, elle doit effectuer les bonnes actions dans un environnement où la gravité, la friction et l'inertie jouent leur rôle.
Un fait rarement discuté en Chine est que l'appellation "Physical AI" ne vient pas du service de communication d'un géant des puces. Ce concept est apparu pour la première fois dans un article publié en 2020 dans *Nature Machine Intelligence*. L'article définissait systématiquement l'IA physique pour la première fois :
un type de système physique capable d'exécuter des tâches généralement associées aux organismes vivants intelligents. L'essentiel est d'intégrer profondément les lois physiques dans le système d'intelligence artificielle, afin que la machine ne soit plus "aveugle à la physique" et puisse accomplir la boucle fermée allant de la perception à l'action.
Du coup de feu académique en 2020 à la reprise complète par l'industrie en 2026, six années entières se sont écoulées. Durant ces six années, le coût des capteurs a diminué de plusieurs ordres de grandeur, la puissance de calcul de l'IA en périphérie est passée de la théorie à l'ingénierie, et la fiabilité et la capacité de production de masse des robots eux-mêmes ont discrètement atteint un point critique — voilà les forces motrices cachées qui ont poussé l'IA physique de l'article scientifique à la ligne de production.
De la démonstration au travail effectif
Si les grands modèles de langage de 2023 ont appris à l'IA à converser, alors le mot-clé de l'IA physique en 2026 n'en a qu'un : travailler.
Le changement est visible à l'œil nu.
À la même période l'année dernière, les entreprises de robotique montraient encore leurs muscles en tournant des vidéos de démonstration, en définissant un scénario, en répétant encore et encore, plan-séquence. C'était beau à voir, mais on ne savait pas combien de prises avaient été nécessaires.
Cette année, le jeu est complètement différent. Cette année, l'entreprise de robots Agibot a fait quelque chose sur une ligne de production 3C à Nanchang : elle a placé un robot dans une usine réelle, où il a travaillé pendant plusieurs heures d'affilée, en direct. Pas de scénario prédéfini, pas de scène limitée, juste la ligne de production quotidienne des ouvriers. Des dizaines de milliers de personnes ont regardé en ligne.
Un mois plus tard, Agibot a annoncé à Hong Kong la production en série de dix mille robots humanoïdes. Passer d'un prototype en laboratoire à dix mille unités sur une ligne de production d'usine, franchir ce cap change la nature des choses.
L'approche d'Agibot est intéressante. La plupart des start-ups de robotique se concentrent sur un maillon spécifique : celles qui fabriquent le corps s'occupent uniquement du corps, celles qui font les grands modèles ne s'occupent que des modèles, celles qui font les mains habiles ne s'occupent que des mains. Agibot a choisi une autre voie : tout faire, en développant simultanément la fabrication du corps, les modèles d'IA, la manipulation habile et la collecte de données, tout en investissant dans plus de 60 entreprises en amont et en aval de la chaîne.
Le coût de cette approche est évident : plus de mille employés dans la maison-mère, avec un effectif qui devrait encore augmenter d'ici la fin de l'année, seulement les salaires représentent déjà des milliards par an. Cette voie est coûteuse, mais une fois maîtrisée, elle crée aussi la barrière la plus solide.
Le fondateur d'Agibot, Deng Taihua, a proposé un cadre d'analyse appelé "Courbe XYZ". Il a déclaré que le développement de l'intelligence incarnée se divise en trois étapes : X est la phase de développement et d'expérimentation, où tout le monde joue encore avec des démos ; Y est la phase de déploiement et de croissance, où les robots commencent véritablement à travailler sur les lignes de production ; Z est la phase finale d'émergence de l'intelligence.
Il a qualifié l'année 2026 d'"année zéro du déploiement, passant officiellement de 'capable de bouger' à 'capable de faire' ". "Capable de bouger" et "capable de faire", une seule lettre de différence, mais c'est tout le rite de passage de l'industrie qui est en jeu.
À l'étranger aussi, on est en pleine course, le rythme sur l'autre rive du Pacifique n'est pas moins soutenu.
La société américaine de robots humanoïdes Figure AI est un nom incontournable sur cette piste. En septembre dernier, elle a levé plus d'un milliard de dollars, portant sa valorisation à 39 milliards de dollars, ce qui en faisait à l'époque la société de robots humanoïdes la plus valorisée au monde.
Un mois plus tard, elle a présenté le Figure 03, d'une hauteur de 1m68 et d'un poids d'environ 60 kg, démontrant des tâches ménagères comme arroser les fleurs, servir des plats ou plier des vêtements. Le fondateur, Brett Adcock, a spécifiquement ajouté sur les réseaux sociaux : toutes les actions ont été réalisées de manière autonome par le robot, personne ne le télécommandait en coulisses.
Sur le plan technique, il est à noter que Figure a effectué un ajustement majeur de sa trajectoire, mettant fin à sa collaboration avec OpenAI et passant entièrement à son propre système de réseaux neuronaux, Helix.
Ce système imite la cognition humaine avec une structure à trois couches : la couche la plus basse gère l'équilibre et les réflexes instinctifs, la couche intermédiaire traduit les instructions du cerveau en commandes de moteur 200 fois par seconde, et la couche supérieure est le cerveau logique, responsable de la compréhension des scènes et de la prise de décision. Cette architecture à trois niveaux "instinct-réflexion-pensée" est une idée ingénieuse, équivalant à doter le robot d'un système nerveux qui ne plante pas.
Autre point à mentionner. Cette année, lors de la conférence GTC, NVIDIA a annoncé une initiative : un partenariat approfondi avec les quatre géants mondiaux de la robotique industrielle, ABB, KUKA, Yaskawa et FANUC. Les plus de 2 millions de robots industriels déjà installés sur les lignes de production dans le monde pourront désormais être virtuellement configurés et entraînés par l'IA via la plateforme de simulation de NVIDIA.
Ensemble, ces quatre entreprises représentent plus de la moitié du marché mondial des robots industriels. Au cours de la prochaine décennie, ces robots seront confrontés à une mise à niveau du "programmation traditionnelle" à l'"entraînement par IA". La plateforme logicielle qui pourra s'intégrer à ce processus aura essentiellement obtenu la couche "système d'exploitation" de la prochaine génération de l'automatisation industrielle. NVIDIA ne veut manifestement pas manquer ce billet.
Les anticipations transfrontalières de la chaîne d'approvisionnement
Un autre phénomène intéressant : les entreprises de la chaîne d'approvisionnement automobile affluent à grande échelle sur le créneau de l'IA physique.
Lors du Salon de l'Automobile de Pékin cette année, des fournisseurs automobiles traditionnels comme Aptiv, Valeo, Horizon Robotics et Qianxun SIwei ont présenté en masse des solutions liées aux robots. De nombreux professionnels ont alors réalisé que la perception de l'intelligence incarnée et la perception de la conduite autonome automobile sont les mêmes, et que les solutions automobiles peuvent être directement appliquées aux robots humanoïdes.
En y réfléchissant, c'est effectivement le cas. Le système de conduite autonome automobile est essentiellement une boucle fermée de perception-décision-exécution pour un "robot mobile", dont les trois modules principaux — perception visuelle, planification de trajectoire et contrôle en temps réel — sont hautement similaires sur le plan architectural aux robots industriels traditionnels et aux robots humanoïdes.
Les caméras, radars, châssis à commande électronique et systèmes d'exploitation en temps réel dont disposent les fournisseurs automobiles peuvent, avec un peu d'adaptation, être transférés au domaine de la robotique. En ce sens, les centaines de milliards dépensés en R&D pour l'intelligence dans l'industrie automobile au cours de la dernière décennie se déversent maintenant, sous forme d'"effet de débordement technologique", dans le domaine de l'IA physique.
Cela pourrait expliquer pourquoi les entreprises chinoises de robotique ont pu atteindre si rapidement le stade de la production de masse. Les capacités de fabrication et la gestion de la chaîne d'approvisionnement ne sont pas sorties de nulle part, beaucoup sont déjà existantes. Ces fournisseurs de composants qui ont été rodés sur les lignes de production automobile depuis plus de dix ans ont maintenant un nouveau champ de bataille.
Il existe des cas concrets à l'étranger, prenons Tesla par exemple. Son robot humanoïde de première génération, Optimus, accélère également son entrée sur le marché. Lors de la conférence téléphonique sur les résultats du premier trimestre 2026, Tesla a clairement annoncé que l'entreprise se transformerait pour "un avenir centré sur l'IA, les taxis autonomes et les robots humanoïdes". La première ligne de production de robots aura une capacité d'un million d'unités et remplacera les lignes de production actuelles des Model S et Model X.
Le chiffre d'un million peut sembler exagéré dans le contexte actuel, mais la logique de Tesla est claire : elle veut répliquer directement l'expérience de production à grande échelle et de gestion de la chaîne d'approvisionnement acquise dans la fabrication automobile au domaine des robots humanoïdes.
Ce que veut Musk, ce n'est pas un "robot qui bouge", mais un "outil produit en série" capable de travailler en collaboration avec les humains dans une usine. Une fois cette voie tracée, son impact sur le paysage de l'automatisation manufacturière ne sera pas moindre que celui de la Model 3 sur le marché des véhicules thermiques.
Les modèles du monde : pourquoi soudainement utilisables cette année ?
Après avoir abordé les actions des grands acteurs industriels, zoomons un peu plus profondément : quelle est la base technologique de cette compétition d'IA physique ?
Si je devais la résumer en une phrase, ce serait : la percée en ingénierie des *modèles du monde*. Je pense que c'est également le point le plus crucial pour comprendre cette vague.
Le concept de "modèle du monde" n'est pas nouveau, il a été proposé dès 2018. L'idée centrale est simple : faire en sorte que l'IA acquière une compréhension interne du fonctionnement du monde physique, afin qu'elle puisse prédire "ce qui se passera si je pousse cette tasse". Mais auparavant, cette idée restait principalement confinée aux articles scientifiques — trop gourmande en calculs, qualité de génération instable, incapable d'interactions en temps réel.
Le tournant s'est produit au cours de la dernière année. NVIDIA a lancé une série de modèles appelée Cosmos, dont la capacité principale est de générer des données d'action conformes aux lois physiques à partir de texte ou d'images.
Par exemple : pour entraîner un robot à déplacer des cartons sous diverses conditions météorologiques, pas besoin de filmer réellement sous la pluie, la neige ou la nuit dans l'usine. En définissant les paramètres dans un environnement de simulation, Cosmos peut générer directement des masses de données d'entraînement hautement réalistes, couvrant divers scénarios extrêmes.
Début de cette année, l'équipe Lingbo d'Ant Group a rendu open source un framework appelé LingBot-World, spécialisé dans les modèles du monde interactifs. Il peut générer des vidéos stables pendant près de 10 minutes d'affilée, avec une latence de bout en bout contrôlée en secondes. Les utilisateurs peuvent, comme dans un jeu vidéo, contrôler en temps réel un personnage virtuel avec le clavier et la souris, le modèle réagissant instantanément aux changements de scène. L'importance réside dans le fait que le modèle du monde passe du "rendu hors ligne" à "l'interaction en ligne", améliorant l'efficacité de l'entraînement d'un ordre de grandeur.
La start-up GigaWorld a publié la plateforme GigaWorld-1, positionnée comme le "bac à sable numérique" du monde physique. Un mois plus tard, le modèle ABot-PhysWorld d'Alibaba l'a dépassé sur un benchmark d'évaluation appelé WorldArena, atteignant la première place au classement général. La concurrence progresse au rythme mensuel.
L'importance de ces projets open source ne réside pas dans le nombre de paramètres, mais dans le fait qu'ils transforment un jeu "réservé aux géants" en un outil "accessible aux petites équipes". Quand il y a assez de gens pour construire les roues, il y aura plus de voitures qui rouleront vraiment.
La raison pour laquelle les modèles du monde sont devenus un élément central à l'ère de l'IA physique, c'est qu'ils répondent à cette question longtemps sans réponse : comment permettre aux robots d'apprendre les lois complexes du monde physique de manière rentable et efficace ?
L'acquisition de données d'entraînement du monde réel est extrêmement coûteuse et présente naturellement des biais de distribution ; il est difficile de rassembler dans la réalité tous les scénarios extrêmes comme les équipes de nuit en usine pendant une tempête de neige, les urgences en cas de panne de courant dans un entrepôt logistique, ou l'intervention soudaine d'un ouvrier sur une ligne. Mais les données synthétiques le peuvent. En manipulant les paramètres de scène par des invites dans un environnement simulé, les chercheurs peuvent générer en quelques heures de grandes quantités de vidéos d'entraînement couvrant des conditions extrêmes, ce qui nécessiterait des mois, voire des années, avec l'approche traditionnelle de collecte réelle.
L'effet de levier de cette percée pourrait dépasser toute amélioration algorithmique individuelle.
Le paradigme a changé
La percée des modèles du monde ne représente en fait qu'une partie de l'évolution de la pile technologique de l'IA physique. Les changements dans les technologies de base poussent à une reconstruction architecturale de toute l'industrie robotique.
Les robots traditionnels utilisaient une approche en trois étapes : "perception, planification, contrôle". Les capteurs perçoivent d'abord l'environnement, les ingénieurs écrivent des règles pour indiquer à la machine comment planifier la trajectoire, et enfin l'action est exécutée. Cela fonctionne dans des environnements structurés comme les chaînes de montage d'usine, mais dès que le scénario se complexifie, les faiblesses apparaissent : la machine ne suit qu'un scénario prédéfini et se bloque face à une situation inédite.
L'IA physique emprunte une autre voie : "perception, raisonnement, exécution". Après la perception, au lieu de passer par des règles figées écrites par l'homme, le réseau neuronal entraîné raisonne par lui-même sur ce qu'il faut faire, puis exécute. La différence essentielle est que le premier est "l'ingénieur pense à la place de la machine", tandis que le second est "la machine comprend elle-même le monde physique".
L'Organisation internationale de normalisation en robotique a publié cette année une feuille de route technologique prédisant que dans les trois prochaines années, 80 % des nouveaux modèles de robots adopteront cette nouvelle architecture, et que l'approche traditionnelle en trois étapes sera progressivement marginalisée. Il ne s'agit pas de rafistolages, mais d'un changement complet de paradigme.
Comme l'a dit un expert du secteur, je trouve le résumé assez pertinent : l'IA physique est le mode ultime du développement de l'IA, car elle doit non seulement comprendre les instructions humaines, mais aussi toutes les lois du monde physique.
Jensen Huang a déclaré que le moment ChatGPT du développement des robots était déjà arrivé." À mon avis, le "moment ChatGPT" de l'IA physique est totalement différent de celui des modèles de langage. Le "moment" des modèles de langage a permis au grand public d'utiliser l'IA pour la première fois. Le "moment" de l'IA physique, c'est que l'IA commence véritablement à travailler pour la première fois.
Actuellement, ce domaine est à un stade très particulier : la direction est tracée, le concept est reconnu, mais la structure n'est pas encore fixée.
D'une part, faire une démonstration et produire en masse sont deux ensembles de compétences totalement différents. Qu'un prototype fonctionne, c'est une chose ; mais pour dix mille produits dans des scénarios réels, c'est la cohérence de fabrication, la résilience de la chaîne d'approvisionnement, la capacité de généralisation aux scénarios, le système de maintenance qui sont testés — rien à voir avec les algorithmes d'IA, mais chacun suffit à éliminer un certain nombre de joueurs. D'autre part, le coût de collecte des données du monde réel est élevé, le cycle est long et la couverture est limitée, ce qui signifie presque inévitablement que l'entraînement à grande échelle de l'IA physique dépendra fortement des données synthétiques.
Parallèlement, depuis la chaîne d'approvisionnement automobile, l'automatisation industrielle traditionnelle, jusqu'à la sous-traitance en électronique grand public, ces secteurs qui semblent éloignés de l'"IA" pénètrent de plus en plus rapidement l'IA physique par le biais du débordement technologique. Leurs capacités de fabrication, leur expérience en gestion de la chaîne d'approvisionnement et leurs ressources en scénarios pourraient être des variables clés déterminant la vitesse de déploiement de l'IA physique.
Un jugement intuitif est que, si l'on observe la vague d'IA déclenchée par ChatGPT début 2023, ceux qui ont créé le plus de valeur n'étaient pas les fabricants de modèles, mais les fournisseurs d'infrastructures. Cette vague d'IA physique va-t-elle répéter le même scénario ?
Les actions de NVIDIA suggèrent qu'elle parie dans cette direction, mais l'histoire n'est pas encore écrite. 2026 est l'année zéro du déploiement, la compétition industrielle ne fait que commencer. Dans trois ans, en regardant en arrière, quels noms seront encore sur le marché, lesquels auront disparu, cela pourrait surprendre la plupart des observateurs.






