L'équipe NVIDIA permet à un Agent de programmation de prendre en charge des expériences robotiques réelles avec un taux de réussite de 99%

marsbitPublié le 2026-06-18Dernière mise à jour le 2026-06-18

Résumé

NVIDIA a dévoilé le projet ENPIRE, un système où des agents de programmation (Codex, Claude Code, Kimi Code) pilotent de manière autonome des recherches sur des robots physiques. Ce cadre repose sur quatre modules qui forment une boucle fermée : l'environnement, l'amélioration des stratégies, l'évaluation des déploiements et l'évolution par analyse des journaux. Les agents peuvent ainsi automatiser des tâches complexes comme serrer des attaches, ranger des épingles ou installer des GPU, en atteignant un taux de réussite de 99%. Une observation clé est qu'il est souvent plus facile de réinitialiser un environnement robotique que d'accomplir la tâche elle-même. Les agents commencent donc par créer des routines de réinitialisation automatique. L'équipe a constaté une "loi d'échelle physique" : augmenter le nombre de robots parallèles (par exemple, passer à 8) accélère considérablement la résolution des tâches. Le système fonctionne désormais toute la nuit sans intervention humaine. Deux nouvelles métriques sont proposées : le MRU (taux d'utilisation moyen des robots), souvent inférieur à 50%, et le MTU (taux d'utilisation moyen des tokens). Le projet, destiné à être open source, vise à permettre à quiconque de mettre en place un système similaire de recherche robotique autonome.

La recherche automatisée sort cette fois-ci véritablement de son bac à sable logiciel pour entrer dans le monde physique réel.

Récemment, Jim Fan, responsable du laboratoire GEAR de NVIDIA, a présenté un nouveau projet nommé ENPIRE. C'est la première fois qu'ils ont réalisé une recherche automatisée sur du matériel robotique.

Ils ont placé 8 Agents Codex dans une flotte de robots, leur attribuant une puissance de calcul GPU et un budget de token suffisants, avec pour seul objectif simple : résoudre la tâche le plus rapidement possible, maintenir les robots occupés tout en assurant leur sécurité, et ne pas gaspiller la puissance de calcul.

Ensuite, l'intervention humaine a été pratiquement supprimée. Les Agents ont piloté de manière autonome la boucle complète, comprenant la réinitialisation automatique des scènes, la recherche documentaire, la mise en œuvre d'idées et la construction d'infrastructures, l'entraînement et le déploiement de stratégies, l'auto-vérification, l'analyse des journaux et la modification du code, itérant ainsi jusqu'à l'accomplissement fiable de tâches de manipulation délicates et de haute précision sur du matériel réel, comme attacher des serre-câbles, ranger des épingles dans une boîte, ou installer des GPU.

Ils ont également observé une « loi d'échelle physique » : augmenter le nombre de robots en parallèle (par exemple, passer de quelques-uns à 8) accélère significativement la vitesse de résolution des tâches.

Actuellement, certains systèmes du laboratoire fonctionnent en itération autonome toute la nuit sans intervention humaine, les chercheurs n'ayant qu'à consulter les rapports le matin.

Jim Fan affirme que l'objectif futur est de permettre à l'équipe de partir en vacances l'esprit tranquille, et même que le PDG de NVIDIA, Jensen Huang, ne remarquerait pas que le laboratoire continue de fonctionner de manière autonome.

Le projet ENPIRE est prévu pour être entièrement open source, permettant ainsi à tout développeur de construire chez lui un système similaire de recherche robotique autonome.

Adresse du projet : https://research.nvidia.com/labs/gear/enpire/

Architecture du système ENPIRE : quatre modules formant une boucle

ENPIRE est un système-cadre conçu pour les Agents de codage, construisant une boucle de rétroaction physique reproductible grâce à quatre modules centraux : le module Environnement (EN) est responsable de la réinitialisation et de la validation automatiques, le module d'Amélioration de la Stratégie (PI) lance l'optimisation de la stratégie, le module de Déploiement (R) permet d'évaluer la stratégie sur un ou plusieurs robots en parallèle, et le module d'Évolution (E) permet à l'Agent de codage d'analyser les journaux, de consulter la littérature, d'améliorer l'infrastructure d'entraînement et le code algorithmique pour résoudre les modes d'échec.

Ce système en boucle fermée transforme l'apprentissage robotique dans le monde réel en un processus d'optimisation contrôlé et géré par des Agents, minimisant ainsi au maximum l'intervention humaine, tout en permettant de réaliser des expériences d'ablation équitables entre différentes recettes d'entraînement et variantes d'Agents.

Grâce à ENPIRE, des Agents de programmation de pointe peuvent développer de manière autonome des stratégies et atteindre un taux de réussite de 99% sur des tâches complexes de manipulation dans le monde réel, telles que PushT, ranger des épingles dans une boîte, ou utiliser un couteau pour couper des serre-câbles.

Observation clé : réinitialiser l'environnement est plus facile que d'accomplir la tâche elle-même

Une observation clé est la suivante : pour de nombreuses tâches robotiques, réinitialiser l'environnement est souvent plus facile que d'accomplir la tâche elle-même.

Par conséquent, l'approche d'ENPIRE consiste à laisser d'abord l'Agent construire un environnement de réinitialisation automatique via Code-as-Policy. Dans de nombreux cas, la réinitialisation est en fait une simple tâche de pick-and-place, résolvable par Cap-X.

Ensuite, l'agent intelligent écrit une fonction de récompense basée sur des règles heuristiques. L'équipe de recherche place ensuite cet environnement dans un sandbox et lance l'Agent pour mener une recherche automatisée autour du score.

Cela fait écho à la définition de Karpathy sur la recherche automatisée : ici, la recherche automatisée ne se limite pas à ajuster un hyperparamètre ou à modifier un petit bout de code. L'Agent explorera différents paradigmes sur Internet et réécrira tout ce qui peut améliorer les performances, y compris les algorithmes, les objectifs d'entraînement, et même le chargeur de données.

Pour la tâche de rangement des épingles, un Agent a même écrit seul un contrôleur de sécurité basé sur la force de contact, surpassant l'effet d'un simple ajustement de quelques paramètres d'apprentissage par renforcement.

Nouveaux indicateurs : MRU et MTU

La capacité d'extension d'ENPIRE dépend de la taille de l'équipe d'Agents et des ressources de calcul, mais ici, la ressource véritablement rare n'est pas le GPU, mais le temps robotique.

Lorsque l'équipe de recherche a fourni 8 robots aux Agents, au lieu d'un seul, le temps nécessaire pour atteindre une performance quasi parfaite sur la tâche de rangement des épingles est passé de plus de 1,5 heure à environ 40 minutes. Ces Agents se coordonnent via Git : partageant le code, abandonnant les idées non optimales, et sélectionnant de manière autonome les meilleurs résultats d'exécution les uns des autres.

Cela indique un changement plus important : la recherche robotique est en train de devenir un travail de conception d'environnement, consistant à construire pour les Agents de codage un environnement dans lequel ils peuvent mener une recherche automatisée ; le travail algorithmique se déplace vers une couche supérieure, se tournant vers la construction d'une boucle de rétroaction que les Agents peuvent refermer par eux-mêmes.

Et cette boucle s'accumule de manière exponentielle : une compétence acquise aujourd'hui par un Agent devient demain un module de base pour construire et réinitialiser des environnements pour des tâches plus difficiles. Les capacités engendrent de nouvelles capacités.

Dans ce paradigme, la véritable contrainte dure est le budget d'interaction avec le monde réel.

Par conséquent, l'équipe de recherche propose deux indicateurs :

  • Taux d'Utilisation Moyen des Robots (Mean Robot Utilization, MRU) : proportion du temps réel total pendant lequel les robots exécutent effectivement des expériences.
  • Taux d'Utilisation Moyen des Token (Mean Token Utilization, MTU) : mesure l'efficacité avec laquelle l'Agent convertit les token en progrès de recherche.

Dans leurs expériences, le MRU est toujours inférieur à 50%. Autrement dit, les robots sont à l'arrêt la moitié du temps, attendant que l'Agent réfléchisse. Par conséquent, un meilleur cadre de travail et des modèles plus rapides se traduiront directement en bénéfices réels.

PushT est un benchmark de manipulation robotique utilisé depuis longtemps. Habituellement, accomplir cette tâche nécessite beaucoup de données de démonstration humaines, ainsi que plusieurs heures d'entraînement par clonage comportemental.

Mais ils ont constaté que Codex, Claude Code et Kimi Code ont tous « résolu » cette tâche en moins de 2 heures avec une méthode heuristique basée sur des règles : sans réseau de neurones, sans entraînement, et sans dépendre de données humaines.

Pour permettre à plus de personnes d'essayer la recherche automatisée dans le monde physique à la maison, ils ont développé un système complet basé sur le kit SO-101 de @LeRobotHF + NVIDIA Jetson Thor. Ce système peut accomplir la tâche PushT.

Liens de référence :

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Cet article provient du compte public WeChat « Machine Heart » (ID : almosthuman2014), auteur : Yang Wen

Questions liées

QQuel est le projet présenté par l'équipe de NVIDIA GEAR et quel est son objectif principal ?

ALe projet s'appelle ENPIRE. Son objectif principal est d'implémenter pour la première fois la recherche automatisée sur du matériel robotique réel, permettant à des agents de programmation de piloter de manière autonome un processus complet de résolution de tâches physiques complexes, avec pour objectif final de fonctionner sans aucune intervention humaine.

QQuelle est l'architecture du système ENPIRE et quels sont ses quatre modules principaux ?

AL'architecture d'ENPIRE est conçue pour créer une boucle de rétroaction physique reproductible. Elle est composée de quatre modules principaux : le module Environnement (EN) pour la réinitialisation et la validation automatiques, le module Amélioration des Politiques (PI) pour l'optimisation, le module Rollout (R) pour l'évaluation des politiques sur un ou plusieurs robots, et le module Évolution (E) où l'agent analyse les journaux, consulte la littérature et améliore le code.

QQuel est l'un des résultats clés observés concernant la difficulté des tâches robotiques dans ENPIRE ?

AUne observation clé est que pour de nombreuses tâches robotiques, réinitialiser l'environnement est souvent plus facile que d'accomplir la tâche elle-même. C'est pourquoi ENPIRE commence par faire construire à l'agent un environnement de réinitialisation automatique, souvent via une simple tâche de saisie et de placement.

QQuels sont les deux nouveaux indicateurs de performance proposés par les chercheurs pour mesurer l'efficacité d'ENPIRE et que révèlent-ils ?

ALes chercheurs ont proposé le Taux d'Utilisation Moyen du Robot (Mean Robot Utilization - MRU) et le Taux d'Utilisation Moyen des Tokens (Mean Token Utilization - MTU). Le MRU, qui mesure le temps où le robot exécute réellement des expériences, était inférieur à 50% dans leurs expériences, révélant que les robots passaient la moitié du temps à attendre que l'agent 'pense'.

QComment la parallélisation des robots a-t-elle affecté les performances dans l'expérience ENPIRE, et quels sont les plans pour ce projet ?

AL'augmentation du nombre de robots parallèles (par exemple, passer à 8 robots) a considérablement accéléré la résolution des tâches, réduisant le temps pour atteindre une performance quasi parfaite sur une tâche d'insertion d'épingle d'environ 1,5 heure à seulement 40 minutes. Le projet ENPIRE prévoit d'être entièrement open-source, permettant potentiellement aux développeurs de construire des systèmes similaires chez eux.

Lectures associées

SpaceX, OpenAI, Anthropic s'inscrivent en bourse à la suite, le marché pourra-t-il vraiment les absorber ?

## Résumé de l'article Trois géants technologiques – SpaceX, OpenAI et Anthropic – annoncent des introductions en bourse (IPO) successives visant à lever plus de 2000 milliards de dollars sur les marchés publics américains en 2026, soit près de quatre fois le total des IPO de l'année précédente. Cette vague soulève la question de la capacité du marché à absorber une telle demande de liquidités. **1. Les données clés :** * **SpaceX** a déjà mené son IPO en juin, levant 75 milliards de dollars à une valorisation initiale de 1,77 trillion. Elle a démontré une forte demande avec un niveau de souscription 3,5 à 4 fois supérieur à l'offre. * **OpenAI** vise une valorisation d'environ 1000 milliards de dollars pour une IPO potentielle fin 2026. Sa situation financière est scrutée, avec des pertes élevées (environ 1,22 dollar dépensé pour chaque dollar de revenu en 2026). * **Anthropic**, visant aussi le trillion de dollars, pourrait être la première à montrer une rentabilité opérationnelle dès son introduction, prévue à l'automne 2026, ce qui en fait un cas distinct. **2. Réactions divergentes de Wall Street :** * Les **optimistes** soulignent l'abondance de liquidités (fonds du marché monétaire) et la demande longtemps contenue pour des actifs AI purs. * Les **pessimistes** craignent un effet d'aspiration des liquidités, forçant les investisseurs à vendre d'autres actifs (comme observé lors d'un récent recul des semi-conducteurs) et voient ces IPO comme un transfert de risque des investisseurs privés vers le public. * Une attitude prédominante est le **"bullish surrender"** (reddition haussière) : participer par peur de manquer le mouvement, malgré des doutes sur les valorisations. **3. Contexte et motivations :** Les introductions répondent à un besoin de liquidités pour financer des visions à long terme (colonisation martiale, AGI). Elles se caractérisent par un fort contrôle des fondateurs (ex: Musk), une inclusion accrue des investisseurs particuliers, et un écosystème financier en circuit fermé où les investissements et dépenses des uns alimentent les revenus des autres (ex: Nvidia, OpenAI, Oracle). **4. La capacité d'absorption du marché : une réponse nuancée** * **Couche 1 : Absorption individuelle.** Oui, comme prouvé par SpaceX. * **Couche 2 : Absorption successive.** Le risque est que les IPO d'OpenAI et Anthropic, proches dans le temps, se fassent concurrence pour les capitaux. Leur calendrier décalé est une reconnaissance de ce risque. * **Couche 3 : Soutien fondamental de la valorisation.** C'est l'incertitude clé. Le succès dépendra de la capacité à démontrer une rentabilité réelle. SpaceX a des flux de trésorerie concrets. Anthropic pourrait rassurer si elle confirme sa profitabilité. OpenAI est le maillon le plus vulnérable : la révélation de ses données financières précises lors de l'IPO sera un test crucial pour sa valorisation et pourrait impacter tout le secteur. **Conclusion :** Le marché a la capacité liquide d'absorber ces introductions. Cependant, leur digestion réelle et la pérennité des valorisations astronomiques dépendront fondamentalement de la capacité des entreprises – en particulier OpenAI – à prouver, par des données financières transparentes, que l'IA génère une véritable valeur économique et un retour sur investissement pour ses clients. Le second semestre 2026 constituera le premier vrai test de résistance des valorisations de l'IA face à la réalité des marchés publics.

marsbitIl y a 14 mins

SpaceX, OpenAI, Anthropic s'inscrivent en bourse à la suite, le marché pourra-t-il vraiment les absorber ?

marsbitIl y a 14 mins

Retrospective du premier trimestre 2026 d'Ethereum : L'activité on-chain atteint un niveau record, les actifs tokenisés en tête du secteur

**Rapport du premier trimestre 2026 sur Ethereum : Adoption record en chaîne, les actifs tokenisés dominent** Le premier trimestre 2026 a présenté un double visage pour Ethereum : une activité en chaîne record mais des indicateurs en dollars en baisse. L'adoption a explosé avec 13.2 millions d'utilisateurs actifs mensuels (hausse de 53.5%), 200.4 millions de transactions (hausse de 38%) et un débit (TPS) atteignant 25.78, des sommets historiques. Paradoxalement, les frais totaux du réseau principal se sont effondrés de 47.9% grâce aux améliorations de capacité de stockage (BPO#2), illustrant le succès de la stratégie de scalabilité. Ethereum consolide sa position de plaque tournante centrale pour la finance tokenisée, avec une capitalisation totale de 2034 milliards de dollars pour ces actifs. Les stablecoins (1789 milliards de dollars) dominent, mais les fonds tokenisés (194 milliards, +73.1% en un an) et les matières premières tokenisées (47 milliards, +325.9% en un an) sont les secteurs à la croissance la plus rapide. Ethereum détient des parts de marché écrasantes parmi les principales blockchains : 79.2% du crédit DeFi actif, 73% des fonds tokenisés et 84% des matières premières tokenisées. Malgré une baisse de 30.3% de sa capitalisation diluée, les fondamentaux d'ETH restent solides : le taux de mise en jeu a augmenté à 0.31 et le nombre d'adresses détentrices a progressé à 292.8 millions. L'écosystème institutionnel s'accélère, avec des lancements majeurs de fonds tokenisés par des acteurs comme BlackRock et JPMorgan en mai. L'analogie avec l'essor d'Internet est souvent citée : en sacrifiant les revenus à court terme des frais pour une scalabilité accrue, Ethereum vise à établir sa position à long terme en tant que couche de règlement fondamentale ouverte et neutre pour les actifs mondiaux.

marsbitIl y a 34 mins

Retrospective du premier trimestre 2026 d'Ethereum : L'activité on-chain atteint un niveau record, les actifs tokenisés en tête du secteur

marsbitIl y a 34 mins

Matrixdock Réapparaît dans le 'Crucible' de la SBMA : Explorer Comment la Tokenisation Améliore l'Efficacité du Marché des Métaux Précieux

Matrixdock, plateforme de tokenisation d'actifs réels de BIT, publie à nouveau dans le magazine sectoriel « Crucible » de la SBMA. Un article d'Eva Meng, intitulé « Why Tokenisation Matters for the Bullion Industry and How Carrying Costs Fit In », explore comment la tokenisation peut améliorer l'efficacité du marché des métaux précieux. L'article souligne que la tokenisation ne redéfinit pas l'or mais améliore son utilité dans le système financier numérique, en permettant des règlements instantanés, des nantissements et une liquidité accrue, au-delà de la simple exposition au prix offerte par les ETF. Il aborde le coût de détention inhérent aux actifs physiques comme l'argent, et présente le « Fungible Reserve Standard » (FRS). Ce cadre vise à refléter ces coûts de manière transparente, suivant un principe de « pureté économique » pour représenter fidèlement les attributs de l'actif sous-jacent. Matrixdock illustre sa démarche avec ses jetons XAUm (or) et XAGm (argent), ce dernier étant le premier actif construit sur le cadre FRS. Le marché de l'or tokenisé, dépassant 6 milliards de dollars début 2026, montre une adoption croissante. En conclusion, la tokenisation élargit les cas d'usage des métaux précieux, les transformant progressivement d'outils de réserve de valeur en actifs numériques intégrés à l'écosystème financier moderne.

marsbitIl y a 1 h

Matrixdock Réapparaît dans le 'Crucible' de la SBMA : Explorer Comment la Tokenisation Améliore l'Efficacité du Marché des Métaux Précieux

marsbitIl y a 1 h

Trading

Spot
Futures
活动图片