El equipo de NVIDIA permite a un agente de programación hacerse cargo de experimentos con robots reales, logrando una tasa de éxito del 99%

marsbitPublicado a 2026-06-18Actualizado a 2026-06-18

Resumen

La investigación en automatización ha dado un paso significativo al salir del entorno simulado y adentrarse en el mundo físico real. El equipo de NVIDIA GEAR, dirigido por Jim Fan, presentó el proyecto ENPIRE, un marco que permite por primera vez que agentes de programación autónomos realicen investigación en hardware robótico real. El sistema coloca ocho agentes Codex en una flota de robots con recursos de GPU y un presupuesto de tokens, asignándoles el objetivo de resolver tareas de forma eficiente y segura. Estos agentes operan con mínima intervención humana, manejando de forma autónoma un ciclo cerrado que incluye el reinicio automático de escenarios, la búsqueda en literatura, la implementación y entrenamiento de estrategias, la verificación y el análisis de registros para iterar continuamente. Han logrado una tasa de éxito del 99% en tareas de manipulación diestra como atar bridas, organizar clavos en una caja o instalar GPUs. Un hallazgo clave es que para muchas tareas robóticas, restablecer el entorno es más fácil que completar la tarea principal. Por ello, ENPIRE se centra primero en que los agentes creen procedimientos automáticos de reinicio. El sistema consta de cuatro módulos principales que forman el bucle de retroalimentación física: Entorno (EN), Mejora de Políticas (PI), Evaluación (Rollout, R) y Evolución (E). El proyecto también observó una "ley de escala física": aumentar el número de robots en paralelo (por ejemplo, a 8) acelera significativamente la r...

La investigación automatizada ha salido esta vez de la "caja de arena" del código para entrar en el mundo físico real.

Recientemente, Jim Fan, director del laboratorio NVIDIA GEAR, presentó un nuevo proyecto llamado ENPIRE. Es la primera vez que han logrado una investigación automatizada en hardware robótico.

Colocaron 8 agentes Codex en una flota de robots, asignaron potencia de cálculo GPU y un amplio presupuesto de tokens, y solo les dieron un objetivo simple: resolver las tareas lo más rápido posible, mantener los robots ocupados pero seguros, y no desperdiciar potencia de cálculo.

A partir de ahí, la intervención humana fue mínima. Los agentes impulsaron de forma autónoma todo el ciclo cerrado, incluyendo el reinicio automático de escenarios, la búsqueda de literatura, la implementación de ideas y la construcción de infraestructura, el entrenamiento y despliegue de estrategias, la autoverificación, el análisis de registros y la mejora del código, iterando continuamente hasta completar de forma confiable en hardware real tareas delicadas de alta precisión, como atar bridas, organizar alfileres en una caja o instalar GPUs.

También observaron una "ley de escala física": aumentar el número de robots en paralelo (por ejemplo, de unos pocos a 8) aceleraba significativamente la velocidad de resolución de tareas.

Actualmente, algunos sistemas de este laboratorio ya pueden realizar iteraciones autónomas durante toda la noche sin intervención humana, y los investigadores solo necesitan revisar los informes por la mañana.

Jim Fan afirmó que el objetivo futuro es que los miembros del equipo puedan tomarse vacaciones tranquilamente, e incluso que el CEO de NVIDIA, Jensen Huang, no se dé cuenta de que el laboratorio sigue funcionando de forma autónoma.

El proyecto ENPIRE tiene planes de ser totalmente de código abierto, lo que permitiría que desarrolladores comunes también pudieran construir sistemas similares de investigación robótica autónoma en casa.

Dirección del proyecto: https://research.nvidia.com/labs/gear/enpire/

Arquitectura del sistema ENPIRE: Cuatro módulos forman un ciclo cerrado

ENPIRE es un sistema de framework diseñado para agentes de programación, que construye un ciclo de retroalimentación física reproducible mediante cuatro módulos principales: el módulo de entorno (EN) se encarga del reinicio y verificación automática, el módulo de mejora de estrategias (PI) inicia la optimización de políticas, el módulo Rollout (R) permite la evaluación de políticas en paralelo con uno o varios robots, y el módulo evolutivo (E) permite a los agentes de programación analizar registros, consultar literatura, y mejorar la infraestructura de entrenamiento y el código de algoritmos para resolver modos de fallo.

Este sistema de ciclo cerrado convierte el aprendizaje robótico en el mundo real en un proceso de optimización controlado y gestionado por agentes, minimizando así la intervención manual y permitiendo realizar experimentos de abalación justos entre diferentes recetas de entrenamiento y variantes de agentes.

Con el apoyo de ENPIRE, los agentes de programación de vanguardia pueden desarrollar estrategias de forma autónoma y lograr una tasa de éxito del 99% en tareas desafiantes de manipulación diestra en el mundo real, como PushT, organizar alfileres en una caja, o cortar bridas con un cortador.

Descubrimiento clave: Restablecer el entorno es a menudo más fácil que completar la tarea

Una observación clave fue: Para muchas tareas robóticas, restablecer el entorno suele ser más fácil que completar la tarea en sí.

Por lo tanto, el enfoque de ENPIRE es hacer que el agente construya primero un entorno de reinicio automático mediante Code-as-Policy. En muchos casos, el reinicio es esencialmente una tarea de "pick-and-place" que puede resolver Cap-X.

Posteriormente, el agente escribe una función de recompensa basada en reglas heurísticas. El equipo de investigación coloca entonces ese entorno en un sandbox e inicia una investigación automatizada guiada por los puntos obtenidos.

Esto también refleja la definición de investigación automatizada de Karpathy: la automatización aquí no es simplemente ajustar un hiperparámetro o cambiar un pequeño fragmento de código. El agente explora diferentes paradigmas desde Internet y reescribe cualquier parte que pueda impulsar el rendimiento, incluyendo algoritmos, objetivos de entrenamiento, e incluso el cargador de datos.

En la tarea de los alfileres, un agente incluso escribió por sí solo un controlador de seguridad de fuerza de contacto, cuyo efecto superó al de simplemente ajustar algunos parámetros de aprendizaje por refuerzo.

Nuevas métricas: MRU y MTU

La capacidad de escalado de ENPIRE depende del tamaño del equipo de agentes y los recursos computacionales, aunque aquí el recurso realmente escaso no es la GPU, sino el tiempo de los robots.

Cuando el equipo de investigación proporcionó 8 robots a los agentes, en lugar de 1, el tiempo necesario para que la tarea de los alfileres alcanzara un rendimiento casi perfecto se redujo de más de 1,5 horas a unos 40 minutos. Estos agentes se coordinaban mediante Git: compartiendo código, descartando ideas no ideales y seleccionando de forma autónoma los mejores resultados de ejecución entre ellos.

Esto apunta a un cambio mayor: la investigación robótica se está convirtiendo en un trabajo de diseño de entornos, es decir, construir entornos en los que los agentes de programación puedan realizar investigación automatizada; el trabajo algorítmico se desplaza a un nivel superior, hacia la construcción de un ciclo de retroalimentación que los agentes puedan cerrar por sí mismos.

Y este ciclo se acumula de forma compuesta: una habilidad que un agente domina hoy, mañana se convierte en un módulo base para construir y restablecer entornos de tareas más difíciles. La capacidad genera nueva capacidad.

En este paradigma, la verdadera limitación dura es el presupuesto de interacción con el mundo real.

Por lo tanto, el equipo de investigación propuso dos métricas:

Utilización Media del Robot (Mean Robot Utilization, MRU): la proporción de tiempo que los robots ejecutan realmente experimentos respecto al tiempo total real transcurrido.
Utilización Media de Tokens (Mean Token Utilization, MTU): mide la eficiencia con la que los agentes convierten tokens en progreso de investigación.

En sus experimentos, la MRU estuvo constantemente por debajo del 50%. Es decir, los robots permanecían inactivos la mitad del tiempo, esperando a que los agentes pensaran. Por lo tanto, un mejor "harness" y modelos más rápidos se traducirían directamente en beneficios reales.

PushT es un punto de referencia de operación robótica de larga data. Normalmente, para completar esta tarea, se necesita una gran cantidad de datos de demostración humana, además de horas de entrenamiento por clonación de comportamiento.

Pero ellos vieron que Codex, Claude Code y Kimi Code "resolvieron" esta tarea en menos de 2 horas usando un método heurístico basado en reglas: sin usar redes neuronales, sin entrenamiento y sin depender de ningún dato humano.

Para permitir que más personas prueben la investigación automatizada en el mundo físico desde casa, han desarrollado un sistema completo de pila completa basado en el kit SO-101 de @LeRobotHF + NVIDIA Jetson Thor. Este sistema puede completar la tarea PushT.

Enlaces de referencia:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Este artículo procede del WeChat oficial "机器之心" (ID: almosthuman2014), autor: Yang Wen.

Preguntas relacionadas

Q¿Qué es el proyecto ENPIRE desarrollado por NVIDIA GEAR y cuál es su objetivo principal?

AENPIRE es un proyecto del laboratorio NVIDIA GEAR que implementa por primera vez la investigación automatizada en hardware robótico real. Su objetivo principal es que un equipo de agentes de programación (coding Agents) controle autónomamente el ciclo completo de investigación, desde el restablecimiento del entorno hasta el desarrollo, entrenamiento y mejora de estrategias en robots físicos, con la meta de lograr una operación completamente autónoma sin intervención humana.

Q¿Qué porcentaje de éxito logró el sistema ENPIRE en las tareas de destreza y cuáles fueron algunas de esas tareas?

AEl sistema ENPIRE logró una tasa de éxito del 99% en tareas desafiantes de manipulación diestra en el mundo real. Algunos ejemplos de estas tareas incluyen atar y cortar bridas (cable ties), ordenar clavijas en una caja de clavijas e instalar unidades GPU.

Q¿Qué descubrimiento clave se menciona sobre la dificultad de las tareas en robótica y cómo lo aprovechó ENPIRE?

AUn descubrimiento clave fue que, para muchas tareas robóticas, restablecer el entorno es más fácil que completar la tarea principal. ENPIRE aprovechó esto haciendo que el agente primero construyera un sistema automatizado de restablecimiento del entorno (por ejemplo, con una política de 'Code-as-Policy' para tareas de pick-and-place), para luego enfocarse en la investigación automatizada de la tarea objetivo dentro de ese entorno preparado.

Q¿Qué significan las siglas ENPIRE y qué función cumple cada uno de sus cuatro módulos principales?

AENPIRE es un acrónimo de sus cuatro módulos principales que forman un bucle de retroalimentación física: Entorno (EN) para el restablecimiento y verificación automáticos, Mejora de Políticas (PI) para iniciar la optimización de estrategias, Rollout (R) para evaluar estrategias en uno o múltiples robots en paralelo, y Evolución (E) donde el agente analiza registros, consulta literatura y mejora el código para resolver modos de fallo. Juntos convierten el aprendizaje robótico en el mundo real en un proceso de optimización gestionado por el agente.

Q¿Qué métricas nuevas propone el equipo de ENPIRE para medir la eficiencia y qué limitación principal revela la métrica MRU en sus experimentos?

AEl equipo propone dos nuevas métricas: la Utilización Media del Robot (MRU), que mide el tiempo que el robot está activamente ejecutando experimentos, y la Utilización Media de Tokens (MTU), que mide la eficiencia con la que los agentes convierten tokens en progreso de investigación. En sus experimentos, la MRU fue consistentemente inferior al 50%, revelando que el recurso más limitante era el tiempo de interacción del robot en el mundo real, ya que pasaba la mitad del tiempo inactivo esperando a que los agentes 'pensaran'.

Lecturas Relacionadas

¡Se observa un crecimiento explosivo en los volúmenes de trading de 15 altcoins en Corea del Sur!

Las principales bolsas de criptomonedas de Corea del Sur, Upbit y Bithumb, registraron un fuerte aumento en el volumen de operaciones con varios altcoins. En las últimas 24 horas, el volumen total de los altcoins más populares alcanzó aproximadamente 347,7 millones de dólares. MetaDAO (META) lideró la clasificación con un volumen de 65,84 millones de dólares solo en Upbit, representando el 12,39% del volumen spot total de la bolsa. Le siguió Euler (EUL) con 47,65 millones de dólares combinados en ambas plataformas. XRP, tradicionalmente popular entre los inversores coreanos, registró 38,11 millones de dólares. A continuación, se presentan los volúmenes de operaciones de 24 horas para los 15 altcoins más negociados en Upbit y Bithumb: 1. MetaDAO (META) – 65,84M$ 2. Euler (EUL) – 47,65M$ 3. XRP – 38,11M$ 4. ThunderCore (TT) – 35,64M$ 5. Babylon (BABY) – 25,15M$ 6. Geodnet (GEOD) – 20,28M$ 7. Hyperlane (HYPER) – 19,72M$ 8. Momentum (MMT) – 17,67M$ 9. Ondo (ONDO) – 15,65M$ 10. Shiba Inu (SHIB) – 10,55M$ 11. DOME – 9,61M$ 12. Lorenzo Protocol (BANK) – 9,51M$ 13. Akash Network (AKT) – 7,36M$ 14. Dogecoin (DOGE) – 7,30M$ 15. Worldcoin (WLD) – 5,74M$ *Esto no es una recomendación de inversión.

cryptonews.ruHace 57 min(s)

¡Se observa un crecimiento explosivo en los volúmenes de trading de 15 altcoins en Corea del Sur!

cryptonews.ruHace 57 min(s)

¡La compañía de Donald Trump vendió otro lote importante de bitcoins!

Se reporta una nueva transferencia de bitcoins desde direcciones presuntamente vinculadas a la compañía mediática del expresidente estadounidense Donald Trump, Trump Media & Technology Group, a la bolsa de criptomonedas CryptoCom. Según datos de la cadena de bloques, las direcciones asociadas con Trump Media transfirieron aproximadamente 2,628 BTC (unos 165 millones de dólares) a CryptoCom. Anteriormente se creía que la empresa había comprado un total de 11,542 BTC a un precio promedio de $118,500. Se afirma que en 2026 se retiraron de estas direcciones alrededor de 7,281 BTC, y que aproximadamente 4,261 BTC permanecen almacenados en ellas. Se estima que las pérdidas totales, realizadas y no realizadas, de Trump Media por sus inversiones en bitcoin ascienden a unos 555 millones de dólares. Cabe señalar que el envío de criptomonedas a una bolsa no significa necesariamente una venta; podría ser para custodia, gestión de liquidez u otra operación. Sin embargo, estas transferencias desde carteras frías suelen interpretarse como preparativos para la venta.

cryptonews.ruHace 2 hora(s)

¡La compañía de Donald Trump vendió otro lote importante de bitcoins!

cryptonews.ruHace 2 hora(s)

Por qué el Bitcoin se mantiene en $64,000 tras la dura pausa de la Fed

Bitcóin cierra julio cerca de los 64.000 dólares tras una volátil reacción a la decisión de la Fed de mantener las tasas sin cambios, aunque sin indicar un pronto aflojamiento monetario. Esto ha provocado una rotación de capital hacia los ETF de Bitcoin, que registraron una entrada neta de 32,1 millones de dólares, mientras que los fondos de Ethereum experimentaron salidas. El mercado de criptomonedas, con una capitalización de unos 2,29 billones de dólares, se mantiene en un rango lateral, con Bitcoin encontrando soporte en 63.000-63.500 dólares y resistencia en 66.000 dólares. La Fed mantuvo su tasa clave, pero tres miembros votaron a favor de un aumento, señalando una postura más dura de lo esperada. En este entorno macroeconómico incierto, los inversores institucionales parecen favorecer a Bitcoin como activo principal, aunque persiste el interés selectivo en activos como Solana. Mientras, la aprobación de la ley CLARITY en EE.UU. se retrasa hasta después del receso de agosto. Para el último día de julio, el enfoque estará en los datos macro de EE.UU. El escenario base para Bitcoin es la consolidación entre 63.000 y 66.000 dólares, con su ruptura superior dependiendo de nuevos flujos institucionales. La estabilidad por encima de 63.000 dólares para BTC, el mantenimiento de Ethereum sobre 1.860 dólares y las entradas continuas en ETF son claves para una posible base de recuperación en la segunda mitad del año.

cryptonews.ruHace 3 hora(s)

Por qué el Bitcoin se mantiene en $64,000 tras la dura pausa de la Fed

cryptonews.ruHace 3 hora(s)

Parker Lewis responde por qué bitcoin sigue siendo el mejor dinero

El influyente analista de Bitcoin, Parker Lewis, critica las estrategias de marketing de corporaciones que actúan como tesorerías cripto. Advierte que la venta de "crédito digital" mediante acciones preferentes perpetuas distorsiona la esencia de la criptomoneda. Lewis enfatiza que Bitcoin no genera rendimiento fiduciario por diseño y que las promesas de dividendos son riesgosas, dependiendo de nuevos inversores. Destaca el riesgo de estos derivados, señalando que el mercado de acciones preferentes perpetuas es minúsculo comparado con el crédito global, lo que demuestra que los grandes actores evitan estos riesgos, trasladándolos a minoristas. Rechaza la idea de que Bitcoin es "demasiado volátil", argumentando que la volatilidad es una consecuencia natural de la adopción masiva de un activo con oferta fija e inelástica. En lugar de comprar derivados corporativos como acciones de MicroStrategy, recomienda adquirir Bitcoin directamente, considerándolo más seguro. Lewis alerta que este enfoque distrae de la verdadera amenaza: la rápida devaluación del dinero fiduciario. Ilustra la inflación real con su "Índice Ribeye", mostrando un aumento del 90% en el precio de un filete desde 2020, muy superior a las cifras oficiales. Concluye que la estrategia más prudente es la posesión directa de Bitcoin y el control total de las claves privadas, protegiendo así los ahorros de la inflación y los riesgos sistémicos de los derivados corporativos.

cryptonews.ruHace 3 hora(s)

Parker Lewis responde por qué bitcoin sigue siendo el mejor dinero

cryptonews.ruHace 3 hora(s)

ARK Invest de Cathie Wood compra 109,129 acciones de Circle por $6.83 millones

La empresa ARK Invest, dirigida por Cathie Wood, compró aproximadamente 109,129 acciones de Circle por cerca de 6,83 millones de dólares. La adquisición se realizó a través de tres de sus fondos cotizados (ETFs): el ETF principal ARK Innovation, el ARK Next Generation Internet y el ARK Fintech Innovation. Pocos días antes de esta compra, Circle obtuvo una licencia para servicios fiduciarios del Departamento de Servicios Financieros del Estado de Nueva York para su entidad Circle New York Trust, un objetivo a largo plazo de la empresa según su CEO. Sin embargo, a pesar de esta aprobación regulatoria, las acciones de Circle (CRCL) cayeron un 2.54% el 31 de julio, lo que sugiere que los inversores no consideraron la licencia como un catalizador positivo inmediato. En el mismo contexto de ventas en el sector tecnológico, ARK Invest también realizó compras significativas de acciones de Tesla, SpaceX y Nvidia por un valor de unos 40,2 millones de dólares, mientras reducía sus posiciones en otras empresas como Shopify, Cloudflare y CrowdStrike.

cryptonews.ruHace 3 hora(s)

ARK Invest de Cathie Wood compra 109,129 acciones de Circle por $6.83 millones

cryptonews.ruHace 3 hora(s)

Trading

Spot

El equipo de NVIDIA permite a un agente de programación hacerse cargo de experimentos con robots reales, logrando una tasa de éxito del 99%

Resumen

Arquitectura del sistema ENPIRE: Cuatro módulos forman un ciclo cerrado

Descubrimiento clave: Restablecer el entorno es a menudo más fácil que completar la tarea

Nuevas métricas: MRU y MTU

Enlaces de referencia:

Preguntas relacionadas

Lecturas Relacionadas

¡Se observa un crecimiento explosivo en los volúmenes de trading de 15 altcoins en Corea del Sur!

¡La compañía de Donald Trump vendió otro lote importante de bitcoins!

Por qué el Bitcoin se mantiene en $64,000 tras la dura pausa de la Fed

Parker Lewis responde por qué bitcoin sigue siendo el mejor dinero

ARK Invest de Cathie Wood compra 109,129 acciones de Circle por $6.83 millones

Trading

Categorías populares

Etiquetas Populares