El equipo de NVIDIA permite a un agente de programación hacerse cargo de experimentos con robots reales, logrando una tasa de éxito del 99%

marsbitPublicado a 2026-06-18Actualizado a 2026-06-18

Resumen

La investigación en automatización ha dado un paso significativo al salir del entorno simulado y adentrarse en el mundo físico real. El equipo de NVIDIA GEAR, dirigido por Jim Fan, presentó el proyecto ENPIRE, un marco que permite por primera vez que agentes de programación autónomos realicen investigación en hardware robótico real. El sistema coloca ocho agentes Codex en una flota de robots con recursos de GPU y un presupuesto de tokens, asignándoles el objetivo de resolver tareas de forma eficiente y segura. Estos agentes operan con mínima intervención humana, manejando de forma autónoma un ciclo cerrado que incluye el reinicio automático de escenarios, la búsqueda en literatura, la implementación y entrenamiento de estrategias, la verificación y el análisis de registros para iterar continuamente. Han logrado una tasa de éxito del 99% en tareas de manipulación diestra como atar bridas, organizar clavos en una caja o instalar GPUs. Un hallazgo clave es que para muchas tareas robóticas, restablecer el entorno es más fácil que completar la tarea principal. Por ello, ENPIRE se centra primero en que los agentes creen procedimientos automáticos de reinicio. El sistema consta de cuatro módulos principales que forman el bucle de retroalimentación física: Entorno (EN), Mejora de Políticas (PI), Evaluación (Rollout, R) y Evolución (E). El proyecto también observó una "ley de escala física": aumentar el número de robots en paralelo (por ejemplo, a 8) acelera significativamente la r...

La investigación automatizada ha salido esta vez de la "caja de arena" del código para entrar en el mundo físico real.

Recientemente, Jim Fan, director del laboratorio NVIDIA GEAR, presentó un nuevo proyecto llamado ENPIRE. Es la primera vez que han logrado una investigación automatizada en hardware robótico.

Colocaron 8 agentes Codex en una flota de robots, asignaron potencia de cálculo GPU y un amplio presupuesto de tokens, y solo les dieron un objetivo simple: resolver las tareas lo más rápido posible, mantener los robots ocupados pero seguros, y no desperdiciar potencia de cálculo.

A partir de ahí, la intervención humana fue mínima. Los agentes impulsaron de forma autónoma todo el ciclo cerrado, incluyendo el reinicio automático de escenarios, la búsqueda de literatura, la implementación de ideas y la construcción de infraestructura, el entrenamiento y despliegue de estrategias, la autoverificación, el análisis de registros y la mejora del código, iterando continuamente hasta completar de forma confiable en hardware real tareas delicadas de alta precisión, como atar bridas, organizar alfileres en una caja o instalar GPUs.

También observaron una "ley de escala física": aumentar el número de robots en paralelo (por ejemplo, de unos pocos a 8) aceleraba significativamente la velocidad de resolución de tareas.

Actualmente, algunos sistemas de este laboratorio ya pueden realizar iteraciones autónomas durante toda la noche sin intervención humana, y los investigadores solo necesitan revisar los informes por la mañana.

Jim Fan afirmó que el objetivo futuro es que los miembros del equipo puedan tomarse vacaciones tranquilamente, e incluso que el CEO de NVIDIA, Jensen Huang, no se dé cuenta de que el laboratorio sigue funcionando de forma autónoma.

El proyecto ENPIRE tiene planes de ser totalmente de código abierto, lo que permitiría que desarrolladores comunes también pudieran construir sistemas similares de investigación robótica autónoma en casa.

Dirección del proyecto: https://research.nvidia.com/labs/gear/enpire/

Arquitectura del sistema ENPIRE: Cuatro módulos forman un ciclo cerrado

ENPIRE es un sistema de framework diseñado para agentes de programación, que construye un ciclo de retroalimentación física reproducible mediante cuatro módulos principales: el módulo de entorno (EN) se encarga del reinicio y verificación automática, el módulo de mejora de estrategias (PI) inicia la optimización de políticas, el módulo Rollout (R) permite la evaluación de políticas en paralelo con uno o varios robots, y el módulo evolutivo (E) permite a los agentes de programación analizar registros, consultar literatura, y mejorar la infraestructura de entrenamiento y el código de algoritmos para resolver modos de fallo.

Este sistema de ciclo cerrado convierte el aprendizaje robótico en el mundo real en un proceso de optimización controlado y gestionado por agentes, minimizando así la intervención manual y permitiendo realizar experimentos de abalación justos entre diferentes recetas de entrenamiento y variantes de agentes.

Con el apoyo de ENPIRE, los agentes de programación de vanguardia pueden desarrollar estrategias de forma autónoma y lograr una tasa de éxito del 99% en tareas desafiantes de manipulación diestra en el mundo real, como PushT, organizar alfileres en una caja, o cortar bridas con un cortador.

Descubrimiento clave: Restablecer el entorno es a menudo más fácil que completar la tarea

Una observación clave fue: Para muchas tareas robóticas, restablecer el entorno suele ser más fácil que completar la tarea en sí.

Por lo tanto, el enfoque de ENPIRE es hacer que el agente construya primero un entorno de reinicio automático mediante Code-as-Policy. En muchos casos, el reinicio es esencialmente una tarea de "pick-and-place" que puede resolver Cap-X.

Posteriormente, el agente escribe una función de recompensa basada en reglas heurísticas. El equipo de investigación coloca entonces ese entorno en un sandbox e inicia una investigación automatizada guiada por los puntos obtenidos.

Esto también refleja la definición de investigación automatizada de Karpathy: la automatización aquí no es simplemente ajustar un hiperparámetro o cambiar un pequeño fragmento de código. El agente explora diferentes paradigmas desde Internet y reescribe cualquier parte que pueda impulsar el rendimiento, incluyendo algoritmos, objetivos de entrenamiento, e incluso el cargador de datos.

En la tarea de los alfileres, un agente incluso escribió por sí solo un controlador de seguridad de fuerza de contacto, cuyo efecto superó al de simplemente ajustar algunos parámetros de aprendizaje por refuerzo.

Nuevas métricas: MRU y MTU

La capacidad de escalado de ENPIRE depende del tamaño del equipo de agentes y los recursos computacionales, aunque aquí el recurso realmente escaso no es la GPU, sino el tiempo de los robots.

Cuando el equipo de investigación proporcionó 8 robots a los agentes, en lugar de 1, el tiempo necesario para que la tarea de los alfileres alcanzara un rendimiento casi perfecto se redujo de más de 1,5 horas a unos 40 minutos. Estos agentes se coordinaban mediante Git: compartiendo código, descartando ideas no ideales y seleccionando de forma autónoma los mejores resultados de ejecución entre ellos.

Esto apunta a un cambio mayor: la investigación robótica se está convirtiendo en un trabajo de diseño de entornos, es decir, construir entornos en los que los agentes de programación puedan realizar investigación automatizada; el trabajo algorítmico se desplaza a un nivel superior, hacia la construcción de un ciclo de retroalimentación que los agentes puedan cerrar por sí mismos.

Y este ciclo se acumula de forma compuesta: una habilidad que un agente domina hoy, mañana se convierte en un módulo base para construir y restablecer entornos de tareas más difíciles. La capacidad genera nueva capacidad.

En este paradigma, la verdadera limitación dura es el presupuesto de interacción con el mundo real.

Por lo tanto, el equipo de investigación propuso dos métricas:

  • Utilización Media del Robot (Mean Robot Utilization, MRU): la proporción de tiempo que los robots ejecutan realmente experimentos respecto al tiempo total real transcurrido.
  • Utilización Media de Tokens (Mean Token Utilization, MTU): mide la eficiencia con la que los agentes convierten tokens en progreso de investigación.

En sus experimentos, la MRU estuvo constantemente por debajo del 50%. Es decir, los robots permanecían inactivos la mitad del tiempo, esperando a que los agentes pensaran. Por lo tanto, un mejor "harness" y modelos más rápidos se traducirían directamente en beneficios reales.

PushT es un punto de referencia de operación robótica de larga data. Normalmente, para completar esta tarea, se necesita una gran cantidad de datos de demostración humana, además de horas de entrenamiento por clonación de comportamiento.

Pero ellos vieron que Codex, Claude Code y Kimi Code "resolvieron" esta tarea en menos de 2 horas usando un método heurístico basado en reglas: sin usar redes neuronales, sin entrenamiento y sin depender de ningún dato humano.

Para permitir que más personas prueben la investigación automatizada en el mundo físico desde casa, han desarrollado un sistema completo de pila completa basado en el kit SO-101 de @LeRobotHF + NVIDIA Jetson Thor. Este sistema puede completar la tarea PushT.

Enlaces de referencia:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Este artículo procede del WeChat oficial "机器之心" (ID: almosthuman2014), autor: Yang Wen.

Preguntas relacionadas

Q¿Qué es el proyecto ENPIRE desarrollado por NVIDIA GEAR y cuál es su objetivo principal?

AENPIRE es un proyecto del laboratorio NVIDIA GEAR que implementa por primera vez la investigación automatizada en hardware robótico real. Su objetivo principal es que un equipo de agentes de programación (coding Agents) controle autónomamente el ciclo completo de investigación, desde el restablecimiento del entorno hasta el desarrollo, entrenamiento y mejora de estrategias en robots físicos, con la meta de lograr una operación completamente autónoma sin intervención humana.

Q¿Qué porcentaje de éxito logró el sistema ENPIRE en las tareas de destreza y cuáles fueron algunas de esas tareas?

AEl sistema ENPIRE logró una tasa de éxito del 99% en tareas desafiantes de manipulación diestra en el mundo real. Algunos ejemplos de estas tareas incluyen atar y cortar bridas (cable ties), ordenar clavijas en una caja de clavijas e instalar unidades GPU.

Q¿Qué descubrimiento clave se menciona sobre la dificultad de las tareas en robótica y cómo lo aprovechó ENPIRE?

AUn descubrimiento clave fue que, para muchas tareas robóticas, restablecer el entorno es más fácil que completar la tarea principal. ENPIRE aprovechó esto haciendo que el agente primero construyera un sistema automatizado de restablecimiento del entorno (por ejemplo, con una política de 'Code-as-Policy' para tareas de pick-and-place), para luego enfocarse en la investigación automatizada de la tarea objetivo dentro de ese entorno preparado.

Q¿Qué significan las siglas ENPIRE y qué función cumple cada uno de sus cuatro módulos principales?

AENPIRE es un acrónimo de sus cuatro módulos principales que forman un bucle de retroalimentación física: Entorno (EN) para el restablecimiento y verificación automáticos, Mejora de Políticas (PI) para iniciar la optimización de estrategias, Rollout (R) para evaluar estrategias en uno o múltiples robots en paralelo, y Evolución (E) donde el agente analiza registros, consulta literatura y mejora el código para resolver modos de fallo. Juntos convierten el aprendizaje robótico en el mundo real en un proceso de optimización gestionado por el agente.

Q¿Qué métricas nuevas propone el equipo de ENPIRE para medir la eficiencia y qué limitación principal revela la métrica MRU en sus experimentos?

AEl equipo propone dos nuevas métricas: la Utilización Media del Robot (MRU), que mide el tiempo que el robot está activamente ejecutando experimentos, y la Utilización Media de Tokens (MTU), que mide la eficiencia con la que los agentes convierten tokens en progreso de investigación. En sus experimentos, la MRU fue consistentemente inferior al 50%, revelando que el recurso más limitante era el tiempo de interacción del robot en el mundo real, ya que pasaba la mitad del tiempo inactivo esperando a que los agentes 'pensaran'.

Lecturas Relacionadas

Matrixdock vuelve a aparecer en 'Crucible' de la SBMA: analizando cómo la tokenización puede mejorar la eficiencia del mercado de metales preciosos

Recientemente, el artículo de investigación de Matrixdock, la plataforma de tokenización RWA de BIT (anteriormente Matrixport), fue publicado nuevamente en la revista especializada *Crucible* de la Asociación del Mercado de Metales Preciosos de Singapur (SBMA). Eva Meng, directora de Matrixdock, publicó un artículo titulado *Why Tokenisation Matters for the Bullion Industry and How Carrying Costs Fit In*, analizando cómo la tokenización puede mejorar la disponibilidad y la eficiencia del capital de los activos de metales preciosos desde las perspectivas de la eficiencia del mercado, los costos de mantenimiento y la evolución de la infraestructura del mercado. El artículo argumenta que, similar a cómo los ETF transformaron la inversión en oro, la tokenización no redefine el valor del oro, sino que lo integra de manera más eficiente en el sistema financiero digital. Va más allá de la exposición al precio, permitiendo que el oro participe en actividades como liquidación instantánea, garantías digitales y operaciones en mercados que funcionan 24/7. Se destaca que los costos de almacenamiento y custodia para activos físicos como el oro y la plata son inherentes, siendo más significativos para la plata. Matrixdock introduce el marco Fungible Reserve Standard (FRS), basado en el "Principio de Pureza Económica", para reflejar estos costos de manera transparente en el token, en lugar de ocultarlos. La clave de la tokenización de activos del mundo real reside en representar con precisión y transparencia sus atributos económicos subyacentes. Matrixdock está ampliando su práctica en este campo con tokens como XAUm (oro) y XAGm (plata), siendo este último el primer activo tokenizado basado en el marco FRS. El artículo señala que el tamaño del mercado de oro tokenizado superó los 60 mil millones de dólares en febrero de 2026, mostrando un crecimiento significativo. A medida que el mercado madura, el enfoque de la industria está pasando de la verificación de reservas a cuestiones de eficiencia y utilización del capital. En conclusión, si los ETF integraron el oro en las carteras de inversión modernas, la tokenización está impulsando su entrada en el ecosistema financiero digital, expandiendo sus casos de uso potenciales más allá del almacenamiento de valor hacia la liquidación, las garantías y otras operaciones financieras.

marsbitHace 5 min(s)

Matrixdock vuelve a aparecer en 'Crucible' de la SBMA: analizando cómo la tokenización puede mejorar la eficiencia del mercado de metales preciosos

marsbitHace 5 min(s)

Instituto de Investigación New Huo: BTC recibe una intensa compra en la región de $60,000, la 'región de alto valor' experimenta una oleada de rotación de manos

Esta semana, Bitcoin experimentó un fuerte rebote tras una caída excesiva, y el pánico extremo en el mercado de criptomonedas ha disminuido. Múltiples datos muestran que el mercado está formando un suelo significativo. Desde el lado de la oferta, las salidas netas de los ETF spot de Bitcoin siguen reduciéndose. Los datos operativos de primera línea muestran una tendencia prominente de capital institucional apostando contra la tendencia. Como ejemplo, el volumen semanal de transacciones OTC del grupo New Huo aumentó más de 8 veces en comparación con la semana anterior, alcanzando un máximo histórico. El seguimiento de datos on-chain por parte del Instituto de Investigación New Huo también revela que fondos institucionales están acumulando Bitcoin de manera activa alrededor del nivel clave de 60.000 dólares. El instituto ha señalado desde mediados de mayo que se ha reabierto una ventana de "alto valor" para invertir, y el mercado está completando la transferencia de fichas desde el pánico de venta hacia la tenencia a largo plazo. Mirando hacia adelante, la liberación de liquidez y la implementación de políticas macroeconómicas serán los principales impulsores para una tendencia alcista. Con la exitosa OPV de SpaceX, una enorme liquidez congelada se está liberando y es probable que fluya hacia activos como Bitcoin, actualmente subvaluados. En el ámbito político macroeconómico, el próximo discurso de Kevin Warsh en la reunión del FOMC es crucial para establecer las expectativas de política monetaria. Además, si la "Ley CLARITY" se implementa a fines de julio, impulsará significativamente la confianza institucional para la entrada de capitales. Considerando las características de suelo del mercado junto con los factores positivos de liquidez y políticas, el Instituto de Investigación New Huo mantiene una perspectiva optimista para la tendencia futura del mercado.

marsbitHace 9 min(s)

Instituto de Investigación New Huo: BTC recibe una intensa compra en la región de $60,000, la 'región de alto valor' experimenta una oleada de rotación de manos

marsbitHace 9 min(s)

Desvelando al 'Dios de la Investigación de Inversiones' detrás de Citrini: Número uno habitual en Substack, un informe hizo que el mercado de valores de EE.UU. se evaporara cientos de miles de millones

*Título*: Revelando al "Dios de la Investigación" detrás de Citrini: Número 1 en Substack, un informe que evaporó billones en la bolsa de EE.UU. James van Geelen, fundador de Citrini Research, es una figura inusual en el mundo de las inversiones. Con formación en biología y psicología (UCLA) y experiencia como técnico de emergencias médicas, ha creado una de las newsletters de investigación de inversiones más influyentes en Substack, con cerca de 250.000 suscriptores. Citrini saltó a la fama en febrero tras publicar "La Crisis de Inteligencia Global 2028", un informe que, presentado como un experimento mental, provocó una oleada de ventas en acciones de software y tecnología en Wall Street, borrando temporalmente cientos de miles de millones de dólares en valor de mercado. El reporte especulaba sobre los impactos disruptivos de la IA en el empleo y la economía. Su enfoque se basa en el "pensamiento de segundo orden" (pensar en las consecuencias de las consecuencias) y en narrativas a largo plazo sobre megatendencias como la IA, la geopolítica y la energía. Geelen, que también cofundó un dispensario de cannabis medicinal, busca identificar oportunidades antes de que sean evidentes para el mercado, comparando su método con la etapa de la alquimia en la que el plomo comienza a transformarse en oro. Recientemente, Citrini ha ampliado su equipo con analistas especializados en macroeconomía y semiconductores. Además de su influencia en mercados tradicionales, la firma ha llamado la atención sobre plataformas de criptoactivos como Trade.xyz en Hyperliquid, destacando su papel en el descubrimiento de precios de activos tradicionales antes de su cotización oficial.

marsbitHace 11 min(s)

Desvelando al 'Dios de la Investigación de Inversiones' detrás de Citrini: Número uno habitual en Substack, un informe hizo que el mercado de valores de EE.UU. se evaporara cientos de miles de millones

marsbitHace 11 min(s)

Revisión del primer trimestre de 2026 de Ethereum: La actividad en la cadena alcanza un nuevo récord y los activos tokenizados lideran la industria

**Resumen del informe de Ethereum Q1 2026** En el primer trimestre de 2026, Ethereum mostró una divergencia: la actividad en la cadena alcanzó máximos históricos mientras los indicadores en dólares se contrajeron. El número de usuarios activos mensuales (13,2 millones) y las transacciones totales en L1 (200 millones) batieron récords, con un TPS promedio de 25,78. Sin embargo, la capitalización de mercado de ETH cayó un 30,3% intertrimestral, arrastrando los valores totales bloqueados en DeFi (TVL) a 316.200 millones de dólares (-11%). Ethereum consolidó su liderazgo en tokenización de activos del mundo real (RWA). Con un valor total de 2,034 billones de dólares, es la plataforma principal para stablecoins (1,789 billones), fondos tokenizados (194.000 millones, +73,1% interanual) y materias primas tokenizadas (47.000 millones, +325,9% interanual), dominando ampliamente estas categorías frente a otras cadenas. La bajada del 47,9% en las tarifas de transacción de L1, a pesar del aumento de la actividad, confirma el impacto de la ampliación de capacidad con Blob Parameter Overhaul #2 (BPO#2). Esto ejemplifica la estrategia de sacrificar ingresos a corto plazo por adopción a largo plazo. Las instituciones financieras tradicionales aceleraron su entrada, con lanzamientos clave en mayo como nuevos fondos tokenizados de BlackRock y JPMorgan, y proyectos de stablecoin del euro respaldados por un consorcio bancario europeo. Los datos confirman que Ethereum, como infraestructura neutral y abierta, ha superado un punto de inflexión, atrayendo capital institucional gracias a su liquidez, combinabilidad y casos de uso establecidos.

Foresight NewsHace 13 min(s)

Revisión del primer trimestre de 2026 de Ethereum: La actividad en la cadena alcanza un nuevo récord y los activos tokenizados lideran la industria

Foresight NewsHace 13 min(s)

Trading

Spot
Futuros
活动图片