L'équipe NVIDIA permet à un Agent de programmation de prendre en charge des expériences robotiques réelles avec un taux de réussite de 99%

marsbitPublié le 2026-06-18Dernière mise à jour le 2026-06-18

Résumé

NVIDIA a dévoilé le projet ENPIRE, un système où des agents de programmation (Codex, Claude Code, Kimi Code) pilotent de manière autonome des recherches sur des robots physiques. Ce cadre repose sur quatre modules qui forment une boucle fermée : l'environnement, l'amélioration des stratégies, l'évaluation des déploiements et l'évolution par analyse des journaux. Les agents peuvent ainsi automatiser des tâches complexes comme serrer des attaches, ranger des épingles ou installer des GPU, en atteignant un taux de réussite de 99%. Une observation clé est qu'il est souvent plus facile de réinitialiser un environnement robotique que d'accomplir la tâche elle-même. Les agents commencent donc par créer des routines de réinitialisation automatique. L'équipe a constaté une "loi d'échelle physique" : augmenter le nombre de robots parallèles (par exemple, passer à 8) accélère considérablement la résolution des tâches. Le système fonctionne désormais toute la nuit sans intervention humaine. Deux nouvelles métriques sont proposées : le MRU (taux d'utilisation moyen des robots), souvent inférieur à 50%, et le MTU (taux d'utilisation moyen des tokens). Le projet, destiné à être open source, vise à permettre à quiconque de mettre en place un système similaire de recherche robotique autonome.

La recherche automatisée sort cette fois-ci véritablement de son bac à sable logiciel pour entrer dans le monde physique réel.

Récemment, Jim Fan, responsable du laboratoire GEAR de NVIDIA, a présenté un nouveau projet nommé ENPIRE. C'est la première fois qu'ils ont réalisé une recherche automatisée sur du matériel robotique.

Ils ont placé 8 Agents Codex dans une flotte de robots, leur attribuant une puissance de calcul GPU et un budget de token suffisants, avec pour seul objectif simple : résoudre la tâche le plus rapidement possible, maintenir les robots occupés tout en assurant leur sécurité, et ne pas gaspiller la puissance de calcul.

Ensuite, l'intervention humaine a été pratiquement supprimée. Les Agents ont piloté de manière autonome la boucle complète, comprenant la réinitialisation automatique des scènes, la recherche documentaire, la mise en œuvre d'idées et la construction d'infrastructures, l'entraînement et le déploiement de stratégies, l'auto-vérification, l'analyse des journaux et la modification du code, itérant ainsi jusqu'à l'accomplissement fiable de tâches de manipulation délicates et de haute précision sur du matériel réel, comme attacher des serre-câbles, ranger des épingles dans une boîte, ou installer des GPU.

Ils ont également observé une « loi d'échelle physique » : augmenter le nombre de robots en parallèle (par exemple, passer de quelques-uns à 8) accélère significativement la vitesse de résolution des tâches.

Actuellement, certains systèmes du laboratoire fonctionnent en itération autonome toute la nuit sans intervention humaine, les chercheurs n'ayant qu'à consulter les rapports le matin.

Jim Fan affirme que l'objectif futur est de permettre à l'équipe de partir en vacances l'esprit tranquille, et même que le PDG de NVIDIA, Jensen Huang, ne remarquerait pas que le laboratoire continue de fonctionner de manière autonome.

Le projet ENPIRE est prévu pour être entièrement open source, permettant ainsi à tout développeur de construire chez lui un système similaire de recherche robotique autonome.

Adresse du projet : https://research.nvidia.com/labs/gear/enpire/

Architecture du système ENPIRE : quatre modules formant une boucle

ENPIRE est un système-cadre conçu pour les Agents de codage, construisant une boucle de rétroaction physique reproductible grâce à quatre modules centraux : le module Environnement (EN) est responsable de la réinitialisation et de la validation automatiques, le module d'Amélioration de la Stratégie (PI) lance l'optimisation de la stratégie, le module de Déploiement (R) permet d'évaluer la stratégie sur un ou plusieurs robots en parallèle, et le module d'Évolution (E) permet à l'Agent de codage d'analyser les journaux, de consulter la littérature, d'améliorer l'infrastructure d'entraînement et le code algorithmique pour résoudre les modes d'échec.

Ce système en boucle fermée transforme l'apprentissage robotique dans le monde réel en un processus d'optimisation contrôlé et géré par des Agents, minimisant ainsi au maximum l'intervention humaine, tout en permettant de réaliser des expériences d'ablation équitables entre différentes recettes d'entraînement et variantes d'Agents.

Grâce à ENPIRE, des Agents de programmation de pointe peuvent développer de manière autonome des stratégies et atteindre un taux de réussite de 99% sur des tâches complexes de manipulation dans le monde réel, telles que PushT, ranger des épingles dans une boîte, ou utiliser un couteau pour couper des serre-câbles.

Observation clé : réinitialiser l'environnement est plus facile que d'accomplir la tâche elle-même

Une observation clé est la suivante : pour de nombreuses tâches robotiques, réinitialiser l'environnement est souvent plus facile que d'accomplir la tâche elle-même.

Par conséquent, l'approche d'ENPIRE consiste à laisser d'abord l'Agent construire un environnement de réinitialisation automatique via Code-as-Policy. Dans de nombreux cas, la réinitialisation est en fait une simple tâche de pick-and-place, résolvable par Cap-X.

Ensuite, l'agent intelligent écrit une fonction de récompense basée sur des règles heuristiques. L'équipe de recherche place ensuite cet environnement dans un sandbox et lance l'Agent pour mener une recherche automatisée autour du score.

Cela fait écho à la définition de Karpathy sur la recherche automatisée : ici, la recherche automatisée ne se limite pas à ajuster un hyperparamètre ou à modifier un petit bout de code. L'Agent explorera différents paradigmes sur Internet et réécrira tout ce qui peut améliorer les performances, y compris les algorithmes, les objectifs d'entraînement, et même le chargeur de données.

Pour la tâche de rangement des épingles, un Agent a même écrit seul un contrôleur de sécurité basé sur la force de contact, surpassant l'effet d'un simple ajustement de quelques paramètres d'apprentissage par renforcement.

Nouveaux indicateurs : MRU et MTU

La capacité d'extension d'ENPIRE dépend de la taille de l'équipe d'Agents et des ressources de calcul, mais ici, la ressource véritablement rare n'est pas le GPU, mais le temps robotique.

Lorsque l'équipe de recherche a fourni 8 robots aux Agents, au lieu d'un seul, le temps nécessaire pour atteindre une performance quasi parfaite sur la tâche de rangement des épingles est passé de plus de 1,5 heure à environ 40 minutes. Ces Agents se coordonnent via Git : partageant le code, abandonnant les idées non optimales, et sélectionnant de manière autonome les meilleurs résultats d'exécution les uns des autres.

Cela indique un changement plus important : la recherche robotique est en train de devenir un travail de conception d'environnement, consistant à construire pour les Agents de codage un environnement dans lequel ils peuvent mener une recherche automatisée ; le travail algorithmique se déplace vers une couche supérieure, se tournant vers la construction d'une boucle de rétroaction que les Agents peuvent refermer par eux-mêmes.

Et cette boucle s'accumule de manière exponentielle : une compétence acquise aujourd'hui par un Agent devient demain un module de base pour construire et réinitialiser des environnements pour des tâches plus difficiles. Les capacités engendrent de nouvelles capacités.

Dans ce paradigme, la véritable contrainte dure est le budget d'interaction avec le monde réel.

Par conséquent, l'équipe de recherche propose deux indicateurs :

Taux d'Utilisation Moyen des Robots (Mean Robot Utilization, MRU) : proportion du temps réel total pendant lequel les robots exécutent effectivement des expériences.
Taux d'Utilisation Moyen des Token (Mean Token Utilization, MTU) : mesure l'efficacité avec laquelle l'Agent convertit les token en progrès de recherche.

Dans leurs expériences, le MRU est toujours inférieur à 50%. Autrement dit, les robots sont à l'arrêt la moitié du temps, attendant que l'Agent réfléchisse. Par conséquent, un meilleur cadre de travail et des modèles plus rapides se traduiront directement en bénéfices réels.

PushT est un benchmark de manipulation robotique utilisé depuis longtemps. Habituellement, accomplir cette tâche nécessite beaucoup de données de démonstration humaines, ainsi que plusieurs heures d'entraînement par clonage comportemental.

Mais ils ont constaté que Codex, Claude Code et Kimi Code ont tous « résolu » cette tâche en moins de 2 heures avec une méthode heuristique basée sur des règles : sans réseau de neurones, sans entraînement, et sans dépendre de données humaines.

Pour permettre à plus de personnes d'essayer la recherche automatisée dans le monde physique à la maison, ils ont développé un système complet basé sur le kit SO-101 de @LeRobotHF + NVIDIA Jetson Thor. Ce système peut accomplir la tâche PushT.

Liens de référence :

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Cet article provient du compte public WeChat « Machine Heart » (ID : almosthuman2014), auteur : Yang Wen

Questions liées

QQuel est le projet présenté par l'équipe de NVIDIA GEAR et quel est son objectif principal ?

ALe projet s'appelle ENPIRE. Son objectif principal est d'implémenter pour la première fois la recherche automatisée sur du matériel robotique réel, permettant à des agents de programmation de piloter de manière autonome un processus complet de résolution de tâches physiques complexes, avec pour objectif final de fonctionner sans aucune intervention humaine.

QQuelle est l'architecture du système ENPIRE et quels sont ses quatre modules principaux ?

AL'architecture d'ENPIRE est conçue pour créer une boucle de rétroaction physique reproductible. Elle est composée de quatre modules principaux : le module Environnement (EN) pour la réinitialisation et la validation automatiques, le module Amélioration des Politiques (PI) pour l'optimisation, le module Rollout (R) pour l'évaluation des politiques sur un ou plusieurs robots, et le module Évolution (E) où l'agent analyse les journaux, consulte la littérature et améliore le code.

QQuel est l'un des résultats clés observés concernant la difficulté des tâches robotiques dans ENPIRE ?

AUne observation clé est que pour de nombreuses tâches robotiques, réinitialiser l'environnement est souvent plus facile que d'accomplir la tâche elle-même. C'est pourquoi ENPIRE commence par faire construire à l'agent un environnement de réinitialisation automatique, souvent via une simple tâche de saisie et de placement.

QQuels sont les deux nouveaux indicateurs de performance proposés par les chercheurs pour mesurer l'efficacité d'ENPIRE et que révèlent-ils ?

ALes chercheurs ont proposé le Taux d'Utilisation Moyen du Robot (Mean Robot Utilization - MRU) et le Taux d'Utilisation Moyen des Tokens (Mean Token Utilization - MTU). Le MRU, qui mesure le temps où le robot exécute réellement des expériences, était inférieur à 50% dans leurs expériences, révélant que les robots passaient la moitié du temps à attendre que l'agent 'pense'.

QComment la parallélisation des robots a-t-elle affecté les performances dans l'expérience ENPIRE, et quels sont les plans pour ce projet ?

AL'augmentation du nombre de robots parallèles (par exemple, passer à 8 robots) a considérablement accéléré la résolution des tâches, réduisant le temps pour atteindre une performance quasi parfaite sur une tâche d'insertion d'épingle d'environ 1,5 heure à seulement 40 minutes. Le projet ENPIRE prévoit d'être entièrement open-source, permettant potentiellement aux développeurs de construire des systèmes similaires chez eux.

Lectures associées

Un article approfondi de Ray Dalio : Comment s'orienter dans l'environnement de marché actuel ?

L'article de Ray Dalio explore comment investir dans l'environnement de marché actuel, caractérisé par une concentration autour de l'intelligence artificielle et d'autres nouvelles technologies révolutionnaires. Il compare l'investissement à un jeu stratégique où il faut évaluer le "plateau" actuel. Dalio identifie "cinq grandes forces" créant de l'incertitude : la dette/monnaie, les enjeux politiques/sociaux, la géopolitique, les forces naturelles et les nouvelles technologies. Il souligne que les périodes de nouvelles technologies majeures sont intrinsèquement volatiles et incertaines, les entreprises leaders pouvant connaître des revers importants. Face à cette concentration et ces risques élevés, Dalio préconise avant tout la **diversification**. Son "Saint Graal de l'investissement" est de détenir environ 15 paris de qualité, non corrélés et équilibrés en risque. Il explique mathématiquement qu'un portefeuille diversifié offre un bien meilleur ratio risque/rendement qu'un pari concentré, même sur des entreprises prometteuses. Il estime que les rendements futurs attendus des actions, notamment technologiques, semblent faibles, certaines évaluations paraissant élevées. Le message clé est qu'il est souvent difficile de posséder une information suffisante pour justifier des paris concentrés. La sagesse consiste à reconnaître ce que l'on ne sait pas et à adopter une approche diversifiée et structurée, plutôt que de succomber à l'excitation et de prendre des risques excessifs liés à une concentration dans un secteur incertain.

marsbitIl y a 3 mins

Un article approfondi de Ray Dalio : Comment s'orienter dans l'environnement de marché actuel ?

marsbitIl y a 3 mins

Buffett et les VC, l'un doit perdre

**Résumé :** L'article, intitulé "Buffett et le Capital-Risque (VC), l'un doit perdre", examine les tensions perçues entre l'approche d'investissement prudente et valorielle de Warren Buffett et l'engouement actuel du capital-risque pour les technologies, notamment l'IA. L'auteur note que si un conflit direct est rarement exprimé, un contraste frappant existe : Berkshire Hathaway accumule des niveaux record de trésorerie, tandis que les VC investissent massivement et rapidement dans la tech à des valorisations élevées. Pour contextualiser, l'article revient sur deux débats historiques où Buffett s'est opposé aux tendances du marché. Lors de la bulle Internet (1999-2000), il a critiqué la spéculation sur des entreprises sans avantage concurrentiel durable, affirmant que l'Internet pourrait même réduire la profitabilité globale des entreprises. Il a été vivement critiqué avant que la bulle n'éclate. Puis, en 2007, il a parié qu'un fonds indiciel simple surperformerait un portefeuille de hedge funds sophistiqués sur dix ans. Il a gagné ce pari en 2016, soulignant que les frais élevés et la complexité des gestionnaires "actifs" nuisent souvent aux rendements des investisseurs à long terme. L'auteur conclut que Buffett ne s'oppose pas à l'innovation en soi, mais à deux écueils : remplacer l'analyse concrète par des récits spéculatifs ("cette fois c'est différent") et ajouter une complexité inutile qui sert plus les intermédiaires que les investisseurs. Appliqué à la frénésie actuelle autour de l'IA, il se demanderait probablement quelles entreprises généreront réellement des flux de trésorerie durables, au-delà des besoins massifs en capital. La leçon fondamentale reste sa parabole de "M. Marché", un partenaire émotionnel dont il faut ignorer les sautes d'humeur pour se concentrer sur la valeur intrinsèque. L'essence du débat n'est pas "Buffett contre les VC", mais une question de discipline face à l'euphorie du marché.

marsbitIl y a 10 mins

marsbitIl y a 10 mins

Article décisif de Dalio : Comment planifier dans l'environnement de marché actuel ?

Dans cet article, Ray Dalio compare l'investissement à un jeu stratégique où il faut analyser la situation actuelle pour prendre des décisions. Il identifie l'environnement de marché actuel comme étant principalement conduit par une nouvelle technologie révolutionnaire, l'intelligence artificielle, avec une concentration du marché autour de quelques entreprises dominantes. Dalio énumère "cinq grandes forces" influençant l'incertitude : la dette et la monnaie, les questions politiques et sociales, la géopolitique, les forces naturelles et les nouvelles technologies. Il souligne les risques élevés inhérents aux investissements dans les nouvelles technologies, citant l'historique de volatilité, d'incertitude et le potentiel de dépassement ou de sous-investissement. Il met également en garde contre la concurrence internationale, notamment de la Chine, et d'autres risques comme les changements fiscaux. Face à cette concentration et cette incertitude, Dalio préconise fortement la **diversification** comme stratégie clé. Il explique mathématiquement qu'un portefeuille bien diversifié de paris non corrélés offre un meilleur ratio risque/rendement qu'un pari concentré. Son "Saint Graal de l'investissement" est de détenir environ 15 actifs de qualité, non corrélés et équilibrés en termes de risque. Il estime que les rendements attendus pour les actions, notamment technologiques, semblent faibles, voire négatifs sur 5 à 10 ans, selon ses indicateurs d'évaluation. Dalio conseille de reconnaître ce que l'on ne sait pas et d'éviter les paris concentrés lorsqu'on manque d'informations fiables. Il conclut qu'il est crucial de ne pas confondre l'enthousiasme pour une technologie avec l'attractivité de ses actions, et que la diversification permet de rechercher des rendements avec un risque bien moindre.

链捕手Il y a 13 mins

Article décisif de Dalio : Comment planifier dans l'environnement de marché actuel ?

链捕手Il y a 13 mins

Arthur Hayes dans une dernière interview : l'IA draine la liquidité du marché, le BTC ne reviendra pas à 100 000 $ cette année

Dans un entretien, Arthur Hayes explique avoir liquidé ses principales positions cryptos (HYPE, NEAR, Worldcoin, Zcash) en raison d'une série de risques macroéconomiques. Il anticipe que la hausse des prix du pétrole, liée au conflit avec l'Iran, pourrait pousser le président Trump, pour des raisons électorales, à adopter un discours populiste contre l'IA. Selon Hayes, une régulation ou une taxation de l'IA, évoquée en campagne, pourrait faire éclater la bulle des actifs IA. Il souligne que le marché de l'IA a absorbé presque toute la liquidité nouvelle (environ 1 500 milliards de dollars de dette), privant les cryptomonnaies comme Bitcoin de carburant pour monter. L'introduction en bourse attendue de SpaceX à une valorisation très élevée (1 800 milliards de dollars) représente selon lui un risque majeur ; un échec à répondre aux attentes du marché pourrait déclencher un repli général. Hayes a réalloué son portefeuille vers les obligations d'État et les actions énergétiques. Bien qu'il croie au long terme de l'IA, il estime que la perception d'un ralentissement de la croissance des dépenses d'investissement (dérivée seconde) va peser sur les valorisations. Il ne prévoit pas de retour significatif des cryptomonnaies avant un ralentissement de la bulle IA ou une injection de liquidités non captée par ce secteur. Il conclut en prédisant que le Bitcoin restera sous 100 000 dollars d'ici la fin de l'année.

marsbitIl y a 21 mins

Arthur Hayes dans une dernière interview : l'IA draine la liquidité du marché, le BTC ne reviendra pas à 100 000 $ cette année

marsbitIl y a 21 mins

Entretien avec le cofondateur de CoreWeave, un titre lié à Nvidia : La demande d'IA semble s'intensifier chaque jour

**Résumé :** Dans un entretien avec Key Context, les dirigeants de CoreWeave, Brannin McBee (co-fondateur) et Nick Robbins (VP), décrivent une demande en infrastructure AI qui ne cesse de s'intensifier quotidiennement, dépassant la seule question des GPU. La demande est tirée par l'essor des agents IA, du raisonnement et des applications d'inférence en entreprise, entraînant une évolution structurelle des besoins. Les goulots d'étranglement se déplacent désormais des puces vers des défis plus complexes : disponibilité des centres de données alimentés ("powered shells"), CPU, stockage, main-d'œuvre qualifiée et logistique. CoreWeave, positionné au cœur de la chaîne d'approvisionnement avec des clients comme OpenAI, Anthropic et les hyperscalers, observe cette transition. L'importance relative du CPU et du stockage augmente pour supporter les nouvelles charges de travail. L'entreprise a déjà repensé ses centres de données pour y intégrer davantage de CPU (comme les futurs Vera de NVIDIA) et de stockage à côté des GPU. La concurrence dans le cloud AI évolue donc d'une course aux puces vers une capacité d'exécution globale : déployer rapidement, optimiser les coûts par token et livrer une infrastructure complexe à grande échelle. CoreWeave attribue son succès à son approche axée sur le client, ses performances techniques certifiées et son historique d'exécution solide (49 sites déployés). Les dirigeants confirment que les coûts des composants comme la HBM sont répercutés sur les clients via des contrats à long terme, protégeant leurs marges. Ils anticipent un déploiement progressif des futures plateformes comme Vera Rubin à partir de fin 2024, avec une montée en puissance majeure tout au long de 2027.

marsbitIl y a 24 mins

Entretien avec le cofondateur de CoreWeave, un titre lié à Nvidia : La demande d'IA semble s'intensifier chaque jour