El equipo de NVIDIA permite a un agente de programación hacerse cargo de experimentos con robots reales, logrando una tasa de éxito del 99%

marsbitPublicado a 2026-06-18Actualizado a 2026-06-18

Resumen

La investigación en automatización ha dado un paso significativo al salir del entorno simulado y adentrarse en el mundo físico real. El equipo de NVIDIA GEAR, dirigido por Jim Fan, presentó el proyecto ENPIRE, un marco que permite por primera vez que agentes de programación autónomos realicen investigación en hardware robótico real. El sistema coloca ocho agentes Codex en una flota de robots con recursos de GPU y un presupuesto de tokens, asignándoles el objetivo de resolver tareas de forma eficiente y segura. Estos agentes operan con mínima intervención humana, manejando de forma autónoma un ciclo cerrado que incluye el reinicio automático de escenarios, la búsqueda en literatura, la implementación y entrenamiento de estrategias, la verificación y el análisis de registros para iterar continuamente. Han logrado una tasa de éxito del 99% en tareas de manipulación diestra como atar bridas, organizar clavos en una caja o instalar GPUs. Un hallazgo clave es que para muchas tareas robóticas, restablecer el entorno es más fácil que completar la tarea principal. Por ello, ENPIRE se centra primero en que los agentes creen procedimientos automáticos de reinicio. El sistema consta de cuatro módulos principales que forman el bucle de retroalimentación física: Entorno (EN), Mejora de Políticas (PI), Evaluación (Rollout, R) y Evolución (E). El proyecto también observó una "ley de escala física": aumentar el número de robots en paralelo (por ejemplo, a 8) acelera significativamente la r...

La investigación automatizada ha salido esta vez de la "caja de arena" del código para entrar en el mundo físico real.

Recientemente, Jim Fan, director del laboratorio NVIDIA GEAR, presentó un nuevo proyecto llamado ENPIRE. Es la primera vez que han logrado una investigación automatizada en hardware robótico.

Colocaron 8 agentes Codex en una flota de robots, asignaron potencia de cálculo GPU y un amplio presupuesto de tokens, y solo les dieron un objetivo simple: resolver las tareas lo más rápido posible, mantener los robots ocupados pero seguros, y no desperdiciar potencia de cálculo.

A partir de ahí, la intervención humana fue mínima. Los agentes impulsaron de forma autónoma todo el ciclo cerrado, incluyendo el reinicio automático de escenarios, la búsqueda de literatura, la implementación de ideas y la construcción de infraestructura, el entrenamiento y despliegue de estrategias, la autoverificación, el análisis de registros y la mejora del código, iterando continuamente hasta completar de forma confiable en hardware real tareas delicadas de alta precisión, como atar bridas, organizar alfileres en una caja o instalar GPUs.

También observaron una "ley de escala física": aumentar el número de robots en paralelo (por ejemplo, de unos pocos a 8) aceleraba significativamente la velocidad de resolución de tareas.

Actualmente, algunos sistemas de este laboratorio ya pueden realizar iteraciones autónomas durante toda la noche sin intervención humana, y los investigadores solo necesitan revisar los informes por la mañana.

Jim Fan afirmó que el objetivo futuro es que los miembros del equipo puedan tomarse vacaciones tranquilamente, e incluso que el CEO de NVIDIA, Jensen Huang, no se dé cuenta de que el laboratorio sigue funcionando de forma autónoma.

El proyecto ENPIRE tiene planes de ser totalmente de código abierto, lo que permitiría que desarrolladores comunes también pudieran construir sistemas similares de investigación robótica autónoma en casa.

Dirección del proyecto: https://research.nvidia.com/labs/gear/enpire/

Arquitectura del sistema ENPIRE: Cuatro módulos forman un ciclo cerrado

ENPIRE es un sistema de framework diseñado para agentes de programación, que construye un ciclo de retroalimentación física reproducible mediante cuatro módulos principales: el módulo de entorno (EN) se encarga del reinicio y verificación automática, el módulo de mejora de estrategias (PI) inicia la optimización de políticas, el módulo Rollout (R) permite la evaluación de políticas en paralelo con uno o varios robots, y el módulo evolutivo (E) permite a los agentes de programación analizar registros, consultar literatura, y mejorar la infraestructura de entrenamiento y el código de algoritmos para resolver modos de fallo.

Este sistema de ciclo cerrado convierte el aprendizaje robótico en el mundo real en un proceso de optimización controlado y gestionado por agentes, minimizando así la intervención manual y permitiendo realizar experimentos de abalación justos entre diferentes recetas de entrenamiento y variantes de agentes.

Con el apoyo de ENPIRE, los agentes de programación de vanguardia pueden desarrollar estrategias de forma autónoma y lograr una tasa de éxito del 99% en tareas desafiantes de manipulación diestra en el mundo real, como PushT, organizar alfileres en una caja, o cortar bridas con un cortador.

Descubrimiento clave: Restablecer el entorno es a menudo más fácil que completar la tarea

Una observación clave fue: Para muchas tareas robóticas, restablecer el entorno suele ser más fácil que completar la tarea en sí.

Por lo tanto, el enfoque de ENPIRE es hacer que el agente construya primero un entorno de reinicio automático mediante Code-as-Policy. En muchos casos, el reinicio es esencialmente una tarea de "pick-and-place" que puede resolver Cap-X.

Posteriormente, el agente escribe una función de recompensa basada en reglas heurísticas. El equipo de investigación coloca entonces ese entorno en un sandbox e inicia una investigación automatizada guiada por los puntos obtenidos.

Esto también refleja la definición de investigación automatizada de Karpathy: la automatización aquí no es simplemente ajustar un hiperparámetro o cambiar un pequeño fragmento de código. El agente explora diferentes paradigmas desde Internet y reescribe cualquier parte que pueda impulsar el rendimiento, incluyendo algoritmos, objetivos de entrenamiento, e incluso el cargador de datos.

En la tarea de los alfileres, un agente incluso escribió por sí solo un controlador de seguridad de fuerza de contacto, cuyo efecto superó al de simplemente ajustar algunos parámetros de aprendizaje por refuerzo.

Nuevas métricas: MRU y MTU

La capacidad de escalado de ENPIRE depende del tamaño del equipo de agentes y los recursos computacionales, aunque aquí el recurso realmente escaso no es la GPU, sino el tiempo de los robots.

Cuando el equipo de investigación proporcionó 8 robots a los agentes, en lugar de 1, el tiempo necesario para que la tarea de los alfileres alcanzara un rendimiento casi perfecto se redujo de más de 1,5 horas a unos 40 minutos. Estos agentes se coordinaban mediante Git: compartiendo código, descartando ideas no ideales y seleccionando de forma autónoma los mejores resultados de ejecución entre ellos.

Esto apunta a un cambio mayor: la investigación robótica se está convirtiendo en un trabajo de diseño de entornos, es decir, construir entornos en los que los agentes de programación puedan realizar investigación automatizada; el trabajo algorítmico se desplaza a un nivel superior, hacia la construcción de un ciclo de retroalimentación que los agentes puedan cerrar por sí mismos.

Y este ciclo se acumula de forma compuesta: una habilidad que un agente domina hoy, mañana se convierte en un módulo base para construir y restablecer entornos de tareas más difíciles. La capacidad genera nueva capacidad.

En este paradigma, la verdadera limitación dura es el presupuesto de interacción con el mundo real.

Por lo tanto, el equipo de investigación propuso dos métricas:

Utilización Media del Robot (Mean Robot Utilization, MRU): la proporción de tiempo que los robots ejecutan realmente experimentos respecto al tiempo total real transcurrido.
Utilización Media de Tokens (Mean Token Utilization, MTU): mide la eficiencia con la que los agentes convierten tokens en progreso de investigación.

En sus experimentos, la MRU estuvo constantemente por debajo del 50%. Es decir, los robots permanecían inactivos la mitad del tiempo, esperando a que los agentes pensaran. Por lo tanto, un mejor "harness" y modelos más rápidos se traducirían directamente en beneficios reales.

PushT es un punto de referencia de operación robótica de larga data. Normalmente, para completar esta tarea, se necesita una gran cantidad de datos de demostración humana, además de horas de entrenamiento por clonación de comportamiento.

Pero ellos vieron que Codex, Claude Code y Kimi Code "resolvieron" esta tarea en menos de 2 horas usando un método heurístico basado en reglas: sin usar redes neuronales, sin entrenamiento y sin depender de ningún dato humano.

Para permitir que más personas prueben la investigación automatizada en el mundo físico desde casa, han desarrollado un sistema completo de pila completa basado en el kit SO-101 de @LeRobotHF + NVIDIA Jetson Thor. Este sistema puede completar la tarea PushT.

Enlaces de referencia:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Este artículo procede del WeChat oficial "机器之心" (ID: almosthuman2014), autor: Yang Wen.

Preguntas relacionadas

Q¿Qué es el proyecto ENPIRE desarrollado por NVIDIA GEAR y cuál es su objetivo principal?

AENPIRE es un proyecto del laboratorio NVIDIA GEAR que implementa por primera vez la investigación automatizada en hardware robótico real. Su objetivo principal es que un equipo de agentes de programación (coding Agents) controle autónomamente el ciclo completo de investigación, desde el restablecimiento del entorno hasta el desarrollo, entrenamiento y mejora de estrategias en robots físicos, con la meta de lograr una operación completamente autónoma sin intervención humana.

Q¿Qué porcentaje de éxito logró el sistema ENPIRE en las tareas de destreza y cuáles fueron algunas de esas tareas?

AEl sistema ENPIRE logró una tasa de éxito del 99% en tareas desafiantes de manipulación diestra en el mundo real. Algunos ejemplos de estas tareas incluyen atar y cortar bridas (cable ties), ordenar clavijas en una caja de clavijas e instalar unidades GPU.

Q¿Qué descubrimiento clave se menciona sobre la dificultad de las tareas en robótica y cómo lo aprovechó ENPIRE?

AUn descubrimiento clave fue que, para muchas tareas robóticas, restablecer el entorno es más fácil que completar la tarea principal. ENPIRE aprovechó esto haciendo que el agente primero construyera un sistema automatizado de restablecimiento del entorno (por ejemplo, con una política de 'Code-as-Policy' para tareas de pick-and-place), para luego enfocarse en la investigación automatizada de la tarea objetivo dentro de ese entorno preparado.

Q¿Qué significan las siglas ENPIRE y qué función cumple cada uno de sus cuatro módulos principales?

AENPIRE es un acrónimo de sus cuatro módulos principales que forman un bucle de retroalimentación física: Entorno (EN) para el restablecimiento y verificación automáticos, Mejora de Políticas (PI) para iniciar la optimización de estrategias, Rollout (R) para evaluar estrategias en uno o múltiples robots en paralelo, y Evolución (E) donde el agente analiza registros, consulta literatura y mejora el código para resolver modos de fallo. Juntos convierten el aprendizaje robótico en el mundo real en un proceso de optimización gestionado por el agente.

Q¿Qué métricas nuevas propone el equipo de ENPIRE para medir la eficiencia y qué limitación principal revela la métrica MRU en sus experimentos?

AEl equipo propone dos nuevas métricas: la Utilización Media del Robot (MRU), que mide el tiempo que el robot está activamente ejecutando experimentos, y la Utilización Media de Tokens (MTU), que mide la eficiencia con la que los agentes convierten tokens en progreso de investigación. En sus experimentos, la MRU fue consistentemente inferior al 50%, revelando que el recurso más limitante era el tiempo de interacción del robot en el mundo real, ya que pasaba la mitad del tiempo inactivo esperando a que los agentes 'pensaran'.

Lecturas Relacionadas

Gate Research Institute: Análisis de Formaciones Gráficas y Estrategia de Trading por Ruptura

"Gate Research: Análisis de Patrones Gráficos y Estrategias de Trading por Ruptura Los patrones gráficos son herramientas esenciales del análisis técnico para observar cambios en la oferta y la demanda, y posibles continuaciones o reversiones de tendencia. Su análisis requiere una evaluación integral de la tendencia, volumen, soportes/resistencias, ciclos temporales y la validez de las rupturas, no solo la memorización de formas. Los patrones se dividen principalmente en dos categorías: de reversión (como doble techo/doble suelo, cabeza y hombros) y de continuación (como banderas, triángulos, rectángulos). Una ruptura efectiva suele basarse en niveles claros de soporte/resistencia, una consolidación prolongada, el contexto de la tendencia y la confirmación del volumen. Sin embargo, una ruptura no garantiza una tendencia nueva, ya que las falsas rupturas son frecuentes. Los traders deben gestionar el riesgo mediante el control de la posición, stop-loss, confirmación por retroceso y toma parcial de ganancias. La estrategia de trading por ruptura se centra en la salida del precio de un rango o patrón consolidado. La entrada puede realizarse en el momento de la ruptura o tras una confirmación por retroceso. Es crucial definir niveles claros de entrada, stop-loss (colocándolo fuera de la estructura del patrón) y objetivos de beneficio (a menudo basados en la altura del patrón). La gestión de posiciones puede incluir tomar ganancias parciales en objetivos medibles y seguir el resto con un stop-loss móvil. Existen tres tipos principales de comportamiento tras una ruptura: ruptura efectiva (avance sostenido), ruptura con retroceso (que ofrece una segunda oportunidad de entrada) y falsa ruptura (que revierte rápidamente). Indicadores como el volumen, la conversión de soporte/resistencia, ATR, medias móviles, Bandas de Bollinger y RSI pueden ayudar a validar la solidez de una ruptura. En conclusión, los patrones y las rupturas proporcionan un marco útil, pero su eficacia depende de múltiples factores que converjan. Deben integrarse en un sistema de trading más amplio que incluya gestión de riesgo y gestión monetaria disciplinada."

marsbitHace 4 min(s)

Gate Research Institute: Análisis de Formaciones Gráficas y Estrategia de Trading por Ruptura

marsbitHace 4 min(s)

Joseph Chalom: Ethereum se está convirtiendo en la "capa de liquidación de confianza" de las finanzas globales

Joseph Chalom, exdirector de activos digitales en BlackRock y actual CEO de Sharplink, describe el futuro de los mercados financieros como la "industrialización de la confianza". Señala que el sistema financiero tradicional gasta más de 9.3 billones de dólares anuales en costos de confianza y tiene una infraestructura lenta y fragmentada. Ethereum está emergiendo como la capa de liquidación de confianza global, o "mercancía de confianza", con más de un millón de nodos, cero tiempo de inactividad en más de una década y más de 300 mil millones de dólares en activos asegurados. La transformación se acelerará mediante cuatro pilares: las stablecoins como vía de pago transfronteriza; la tokenización de activos, que permitirá operar 24/7; el DeFi para servicios financieros automatizados; y las "Finanzas Agénticas", donde agentes de IA gestionarán automáticamente las finanzas personales como un CFO personal. Chalom predice que, para 2027, estos avances digitalizarán masivamente las finanzas, haciendo que las transacciones entre agentes de IA en la cadena aumenten exponencialmente y cambien fundamentalmente la industria.

marsbitHace 6 min(s)

Joseph Chalom: Ethereum se está convirtiendo en la "capa de liquidación de confianza" de las finanzas globales

marsbitHace 6 min(s)

STRC sufre una grave desvinculación de su valor nominal, ¿qué riesgos está valorando el mercado?

**Resumen: La Desvinculación de STRC y los Riesgos que Valora el Mercado** La acción preferente perpetua STRC de Strategy ha caído a unos 89 dólares, desviándose significativamente de su valor nominal de 100 USD, lo que eleva su rendimiento simple actual a aproximadamente el 12.9%. Esto es inusual, ya que STRC fue diseñada como un instrumento de alto rendimiento que debería operar cerca de la paridad. Strategy mantiene un dividendo anual del 11.5% y aumentará la frecuencia de pago a quincenal a partir de julio, lo que, en teoría, debería apoyar el precio. El mercado, sin embargo, está valorando otros riesgos. Una explicación clave es la posible liquidación mecánica de operaciones de *carry trade* con apalancamiento: la caída del precio puede forzar ventas para cubrir márgenes, creando un círculo vicioso de desapalancamiento. Además, la tokenización de STRC y su integración en protocolos DeFi (como Apyx, Saturn, Pendle) han amplificado la volatilidad al conectar el activo con mecanismos más rápidos de préstamo, apalancamiento y liquidación. La aparición de un producto competidor, SATA de Strive, que ofrece un rendimiento nominal del 13% y pagos diarios, ha cambiado el punto de referencia para los inversores que buscan rendimiento, desafiando la narrativa de escasez de STRC. Aunque Strategy enfatiza su cobertura con reservas de BTC (capacidad para cubrir dividendos durante ~31.6 años), el mercado cuestiona si esto se traduce en un flujo de caja estable para los dividendos. El mecanismo de dividendo ajustable de Strategy, destinado a mantener el precio cerca de los 100 USD, está ahora bajo prueba. La cuestión clave es si Strategy actuará para restaurar la paridad (por ejemplo, ajustando el dividendo) o si el mercado ha establecido un nuevo punto de partida para la prima de riesgo de STRC. La evolución del precio, las próximas decisiones sobre dividendos y la estabilización de las posiciones apalancadas serán cruciales para determinar si el descuento actual es una sobreventa temporal o un reflejo de un riesgo estructural mayor.

marsbitHace 16 min(s)

STRC sufre una grave desvinculación de su valor nominal, ¿qué riesgos está valorando el mercado?

marsbitHace 16 min(s)

El precio de LIT alcanza un máximo de seis meses: ¿cuánto durará aún el combustible de la rueda de recompras?

El token LIT de Lighter, un exchange descentralizado de contratos perpetuos, alcanzó un máximo de 1.9 USD el 18 de junio, su precio más alto en seis meses, antes de corregir a alrededor de 1.6 USD. Su capitalización de mercado es de 425 millones de USD. El mecanismo central de captura de valor de Lighter es un programa de recompra automática que utiliza el 100% de los ingresos por comisiones para comprar LIT en el mercado abierto. Desde su lanzamiento, se han recomprado aproximadamente 15 millones de LIT (6% de la oferta circulante), por valor de unos 21 millones de USD. Otro pilar es el LLP (Lighter Liquidity Pool), un fondo que actúa como contraparte central para los traders. Los proveedores de liquidez deben apostar LIT equivalente al 10% de su depósito en USDC, lo que crea una demanda significativa y bloquea tokens. Actualmente, circulan 250 millones de LIT (25% del total), y el 75% restante (equipo e inversores) está bloqueado hasta diciembre de 2026, lo que elimina la presión de venta inmediata. Al compararse con su principal competidor, Hyperliquid (HYPE), Lighter muestra un volumen negociado y un interés abierto menores. Hyperliquid, con un ecosistema más amplio que incluye mercados de predicción y un ETF spot en EE.UU., cuenta con un respaldo institucional más fuerte (p.ej., a16z). En conclusión, el precio de LIT se ve impulsado por su programa de recompra transparente, el mecanismo de bloqueo del LLP y la ausencia actual de desbloqueos. Sin embargo, enfrenta desafíos en la expansión de su volumen y adopción frente a Hyperliquid, que disfruta de una ventaja de primer moviente y un mayor apoyo del mercado.

Foresight NewsHace 38 min(s)

El precio de LIT alcanza un máximo de seis meses: ¿cuánto durará aún el combustible de la rueda de recompras?

Foresight NewsHace 38 min(s)

Anthony Scaramucci Señala un Posible Fondo del Bitcoin, Citando un RSI Bajo y la Apatía Minorista

Anthony Scaramucci sugiere que el actual sentimiento de apatía en el mercado de Bitcoin podría ser una señal de fondo de ciclo, en lugar de una razón para alejarse del activo. El inversor afirma seguir teniendo una cantidad sustancial de Bitcoin y mantiene una visión alcista, anticipando un repunte más fuerte a finales del cuarto trimestre de 2026 o principios de 2027. Su argumento se basa en el bajo interés minorista, la escasa demanda, la debilidad del sentimiento y las condiciones de RSI (Índice de Fuerza Relativa) deprimidas. Scaramucci plantea que, en mercados con poca participación como el actual, incluso un modesto impulso de demanda puede mover el precio de manera más agresiva. No obstante, se debe matizar la afirmación sobre el RSI: aunque el RSI semanal de Bitcoin es bajo, no necesariamente se encuentra en mínimos históricos extremos, como los vistos en ciclos bajistas anteriores. Por tanto, este indicador por sí solo no es suficiente para confirmar un suelo duradero; los analistas suelen combinarlo con estructura de precios, volumen y datos on-chain. En resumen, Scaramucci presenta un argumento alcista contrario: la actual falta de emoción podría indicar que los vendedores están exhaustos y las expectativas son mínimas, preparando el terreno para la siguiente fase de acumulación si surge un nuevo impulso de demanda institucional o macroeconómico.

bitcoinistHace 47 min(s)

Anthony Scaramucci Señala un Posible Fondo del Bitcoin, Citando un RSI Bajo y la Apatía Minorista