El equipo de NVIDIA permite a un agente de programación hacerse cargo de experimentos con robots reales, logrando una tasa de éxito del 99%

marsbitPublicado a 2026-06-18Actualizado a 2026-06-18

Resumen

La investigación en automatización ha dado un paso significativo al salir del entorno simulado y adentrarse en el mundo físico real. El equipo de NVIDIA GEAR, dirigido por Jim Fan, presentó el proyecto ENPIRE, un marco que permite por primera vez que agentes de programación autónomos realicen investigación en hardware robótico real. El sistema coloca ocho agentes Codex en una flota de robots con recursos de GPU y un presupuesto de tokens, asignándoles el objetivo de resolver tareas de forma eficiente y segura. Estos agentes operan con mínima intervención humana, manejando de forma autónoma un ciclo cerrado que incluye el reinicio automático de escenarios, la búsqueda en literatura, la implementación y entrenamiento de estrategias, la verificación y el análisis de registros para iterar continuamente. Han logrado una tasa de éxito del 99% en tareas de manipulación diestra como atar bridas, organizar clavos en una caja o instalar GPUs. Un hallazgo clave es que para muchas tareas robóticas, restablecer el entorno es más fácil que completar la tarea principal. Por ello, ENPIRE se centra primero en que los agentes creen procedimientos automáticos de reinicio. El sistema consta de cuatro módulos principales que forman el bucle de retroalimentación física: Entorno (EN), Mejora de Políticas (PI), Evaluación (Rollout, R) y Evolución (E). El proyecto también observó una "ley de escala física": aumentar el número de robots en paralelo (por ejemplo, a 8) acelera significativamente la r...

La investigación automatizada ha salido esta vez de la "caja de arena" del código para entrar en el mundo físico real.

Recientemente, Jim Fan, director del laboratorio NVIDIA GEAR, presentó un nuevo proyecto llamado ENPIRE. Es la primera vez que han logrado una investigación automatizada en hardware robótico.

Colocaron 8 agentes Codex en una flota de robots, asignaron potencia de cálculo GPU y un amplio presupuesto de tokens, y solo les dieron un objetivo simple: resolver las tareas lo más rápido posible, mantener los robots ocupados pero seguros, y no desperdiciar potencia de cálculo.

A partir de ahí, la intervención humana fue mínima. Los agentes impulsaron de forma autónoma todo el ciclo cerrado, incluyendo el reinicio automático de escenarios, la búsqueda de literatura, la implementación de ideas y la construcción de infraestructura, el entrenamiento y despliegue de estrategias, la autoverificación, el análisis de registros y la mejora del código, iterando continuamente hasta completar de forma confiable en hardware real tareas delicadas de alta precisión, como atar bridas, organizar alfileres en una caja o instalar GPUs.

También observaron una "ley de escala física": aumentar el número de robots en paralelo (por ejemplo, de unos pocos a 8) aceleraba significativamente la velocidad de resolución de tareas.

Actualmente, algunos sistemas de este laboratorio ya pueden realizar iteraciones autónomas durante toda la noche sin intervención humana, y los investigadores solo necesitan revisar los informes por la mañana.

Jim Fan afirmó que el objetivo futuro es que los miembros del equipo puedan tomarse vacaciones tranquilamente, e incluso que el CEO de NVIDIA, Jensen Huang, no se dé cuenta de que el laboratorio sigue funcionando de forma autónoma.

El proyecto ENPIRE tiene planes de ser totalmente de código abierto, lo que permitiría que desarrolladores comunes también pudieran construir sistemas similares de investigación robótica autónoma en casa.

Dirección del proyecto: https://research.nvidia.com/labs/gear/enpire/

Arquitectura del sistema ENPIRE: Cuatro módulos forman un ciclo cerrado

ENPIRE es un sistema de framework diseñado para agentes de programación, que construye un ciclo de retroalimentación física reproducible mediante cuatro módulos principales: el módulo de entorno (EN) se encarga del reinicio y verificación automática, el módulo de mejora de estrategias (PI) inicia la optimización de políticas, el módulo Rollout (R) permite la evaluación de políticas en paralelo con uno o varios robots, y el módulo evolutivo (E) permite a los agentes de programación analizar registros, consultar literatura, y mejorar la infraestructura de entrenamiento y el código de algoritmos para resolver modos de fallo.

Este sistema de ciclo cerrado convierte el aprendizaje robótico en el mundo real en un proceso de optimización controlado y gestionado por agentes, minimizando así la intervención manual y permitiendo realizar experimentos de abalación justos entre diferentes recetas de entrenamiento y variantes de agentes.

Con el apoyo de ENPIRE, los agentes de programación de vanguardia pueden desarrollar estrategias de forma autónoma y lograr una tasa de éxito del 99% en tareas desafiantes de manipulación diestra en el mundo real, como PushT, organizar alfileres en una caja, o cortar bridas con un cortador.

Descubrimiento clave: Restablecer el entorno es a menudo más fácil que completar la tarea

Una observación clave fue: Para muchas tareas robóticas, restablecer el entorno suele ser más fácil que completar la tarea en sí.

Por lo tanto, el enfoque de ENPIRE es hacer que el agente construya primero un entorno de reinicio automático mediante Code-as-Policy. En muchos casos, el reinicio es esencialmente una tarea de "pick-and-place" que puede resolver Cap-X.

Posteriormente, el agente escribe una función de recompensa basada en reglas heurísticas. El equipo de investigación coloca entonces ese entorno en un sandbox e inicia una investigación automatizada guiada por los puntos obtenidos.

Esto también refleja la definición de investigación automatizada de Karpathy: la automatización aquí no es simplemente ajustar un hiperparámetro o cambiar un pequeño fragmento de código. El agente explora diferentes paradigmas desde Internet y reescribe cualquier parte que pueda impulsar el rendimiento, incluyendo algoritmos, objetivos de entrenamiento, e incluso el cargador de datos.

En la tarea de los alfileres, un agente incluso escribió por sí solo un controlador de seguridad de fuerza de contacto, cuyo efecto superó al de simplemente ajustar algunos parámetros de aprendizaje por refuerzo.

Nuevas métricas: MRU y MTU

La capacidad de escalado de ENPIRE depende del tamaño del equipo de agentes y los recursos computacionales, aunque aquí el recurso realmente escaso no es la GPU, sino el tiempo de los robots.

Cuando el equipo de investigación proporcionó 8 robots a los agentes, en lugar de 1, el tiempo necesario para que la tarea de los alfileres alcanzara un rendimiento casi perfecto se redujo de más de 1,5 horas a unos 40 minutos. Estos agentes se coordinaban mediante Git: compartiendo código, descartando ideas no ideales y seleccionando de forma autónoma los mejores resultados de ejecución entre ellos.

Esto apunta a un cambio mayor: la investigación robótica se está convirtiendo en un trabajo de diseño de entornos, es decir, construir entornos en los que los agentes de programación puedan realizar investigación automatizada; el trabajo algorítmico se desplaza a un nivel superior, hacia la construcción de un ciclo de retroalimentación que los agentes puedan cerrar por sí mismos.

Y este ciclo se acumula de forma compuesta: una habilidad que un agente domina hoy, mañana se convierte en un módulo base para construir y restablecer entornos de tareas más difíciles. La capacidad genera nueva capacidad.

En este paradigma, la verdadera limitación dura es el presupuesto de interacción con el mundo real.

Por lo tanto, el equipo de investigación propuso dos métricas:

  • Utilización Media del Robot (Mean Robot Utilization, MRU): la proporción de tiempo que los robots ejecutan realmente experimentos respecto al tiempo total real transcurrido.
  • Utilización Media de Tokens (Mean Token Utilization, MTU): mide la eficiencia con la que los agentes convierten tokens en progreso de investigación.

En sus experimentos, la MRU estuvo constantemente por debajo del 50%. Es decir, los robots permanecían inactivos la mitad del tiempo, esperando a que los agentes pensaran. Por lo tanto, un mejor "harness" y modelos más rápidos se traducirían directamente en beneficios reales.

PushT es un punto de referencia de operación robótica de larga data. Normalmente, para completar esta tarea, se necesita una gran cantidad de datos de demostración humana, además de horas de entrenamiento por clonación de comportamiento.

Pero ellos vieron que Codex, Claude Code y Kimi Code "resolvieron" esta tarea en menos de 2 horas usando un método heurístico basado en reglas: sin usar redes neuronales, sin entrenamiento y sin depender de ningún dato humano.

Para permitir que más personas prueben la investigación automatizada en el mundo físico desde casa, han desarrollado un sistema completo de pila completa basado en el kit SO-101 de @LeRobotHF + NVIDIA Jetson Thor. Este sistema puede completar la tarea PushT.

Enlaces de referencia:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Este artículo procede del WeChat oficial "机器之心" (ID: almosthuman2014), autor: Yang Wen.

Preguntas relacionadas

Q¿Qué es el proyecto ENPIRE desarrollado por NVIDIA GEAR y cuál es su objetivo principal?

AENPIRE es un proyecto del laboratorio NVIDIA GEAR que implementa por primera vez la investigación automatizada en hardware robótico real. Su objetivo principal es que un equipo de agentes de programación (coding Agents) controle autónomamente el ciclo completo de investigación, desde el restablecimiento del entorno hasta el desarrollo, entrenamiento y mejora de estrategias en robots físicos, con la meta de lograr una operación completamente autónoma sin intervención humana.

Q¿Qué porcentaje de éxito logró el sistema ENPIRE en las tareas de destreza y cuáles fueron algunas de esas tareas?

AEl sistema ENPIRE logró una tasa de éxito del 99% en tareas desafiantes de manipulación diestra en el mundo real. Algunos ejemplos de estas tareas incluyen atar y cortar bridas (cable ties), ordenar clavijas en una caja de clavijas e instalar unidades GPU.

Q¿Qué descubrimiento clave se menciona sobre la dificultad de las tareas en robótica y cómo lo aprovechó ENPIRE?

AUn descubrimiento clave fue que, para muchas tareas robóticas, restablecer el entorno es más fácil que completar la tarea principal. ENPIRE aprovechó esto haciendo que el agente primero construyera un sistema automatizado de restablecimiento del entorno (por ejemplo, con una política de 'Code-as-Policy' para tareas de pick-and-place), para luego enfocarse en la investigación automatizada de la tarea objetivo dentro de ese entorno preparado.

Q¿Qué significan las siglas ENPIRE y qué función cumple cada uno de sus cuatro módulos principales?

AENPIRE es un acrónimo de sus cuatro módulos principales que forman un bucle de retroalimentación física: Entorno (EN) para el restablecimiento y verificación automáticos, Mejora de Políticas (PI) para iniciar la optimización de estrategias, Rollout (R) para evaluar estrategias en uno o múltiples robots en paralelo, y Evolución (E) donde el agente analiza registros, consulta literatura y mejora el código para resolver modos de fallo. Juntos convierten el aprendizaje robótico en el mundo real en un proceso de optimización gestionado por el agente.

Q¿Qué métricas nuevas propone el equipo de ENPIRE para medir la eficiencia y qué limitación principal revela la métrica MRU en sus experimentos?

AEl equipo propone dos nuevas métricas: la Utilización Media del Robot (MRU), que mide el tiempo que el robot está activamente ejecutando experimentos, y la Utilización Media de Tokens (MTU), que mide la eficiencia con la que los agentes convierten tokens en progreso de investigación. En sus experimentos, la MRU fue consistentemente inferior al 50%, revelando que el recurso más limitante era el tiempo de interacción del robot en el mundo real, ya que pasaba la mitad del tiempo inactivo esperando a que los agentes 'pensaran'.

Lecturas Relacionadas

Análisis del Crecimiento de Notion: De una Herramienta de Notas a 100 Millones de Usuarios, Cómo Notion Construyó su Triple Volante de Crecimiento Basado en Producto, Plantillas y Comunidad

Notion ha evolucionado de una simple herramienta de notas a una plataforma global con más de 100 millones de usuarios mediante un sistema de crecimiento integrado en tres etapas. Primero, el crecimiento impulsado por el producto (PLG) permitió que los usuarios experimentaran valor rápidamente. La estrategia gratuita atrajo a estudiantes, creadores y equipos emergentes, mientras que la capacidad de compartir páginas y colaborar generó una expansión orgánica. Segundo, la economía de las plantillas resolvió la complejidad inicial del producto. Ofreciendo soluciones específicas para diversos escenarios, redujo la barrera de entrada y creó un ecosistema rico generado por los usuarios, que también impulsó el crecimiento orgánico a través de búsquedas. Tercero, una comunidad activa de usuarios y creadores asumió roles de educación, creación de contenido y organización local. Esto no solo amplió los casos de uso, sino que también facilitó la expansión global de manera autosostenible. La empresa complementó esto con un marketing de contenidos educativo que enfatiza metodologías de trabajo, no solo funciones. Su entrada en el mercado empresarial se logró de abajo hacia arriba, con equipos que adoptaron la herramienta de manera orgánica antes de que las empresas la adoptaran formalmente. La integración de la IA presenta una nueva curva de crecimiento, incrustando capacidades inteligentes directamente en los flujos de trabajo existentes de los usuarios y potenciando las plantillas. La ventaja duradera de Notion radica en su difícilmente replicable ecosistema: una red compleja de activos de conocimiento del usuario, un ecosistema de plantillas, una comunidad dedicada y una identidad de marca que trasciende la mera funcionalidad del software.

marsbitHace 21 min(s)

Análisis del Crecimiento de Notion: De una Herramienta de Notas a 100 Millones de Usuarios, Cómo Notion Construyó su Triple Volante de Crecimiento Basado en Producto, Plantillas y Comunidad

marsbitHace 21 min(s)

Guía práctica de la tarjeta AI de WeChat: ¿Ha llegado la era de las compras con IA?

**Resumen: ¿Ha llegado la era de las compras con IA? Guía práctica de la Tarjeta AI de WeChat** El 17 de junio, WeChat Pay presentó oficialmente la "Tarjeta AI", una función que permite a los usuarios realizar pagos a través de su asistente de IA WorkBuddy. Sin embargo, las pruebas revelan que aún no permite el "consumo totalmente automático". **¿Qué es realmente?** No es una tarjeta que la IA use libremente. Es más bien una "subcartera" aislada de la principal de WeChat Pay. Los usuarios deben vincularla y transferir fondos específicamente a esta tarjeta. Cada pago iniciado por la IA requiere la confirmación manual del usuario en el móvil, y los gastos se gestionan por separado. **¿Cómo activarla?** El acceso está dentro de WorkBuddy. Preguntando "¿Cómo uso la tarjeta de pago AI de WeChat?", el agente proporciona un enlace para vincular la tarjeta escaneando un código QR con WeChat (válido por 5 minutos). Tras aceptar los términos, se puede recargar desde la cartera principal. **Escenarios objetivo actuales:** Según WeChat, es para comprar contenido pago (informes, datos), usar API/tools de pago, y suscribirse o renovar servicios. Sin embargo, en pruebas no se pudo activar fácilmente para estos casos específicos. **Prueba práctica: Pedir un té de burbujas (fallida):** Al pedir a WorkBuddy que compre un "Heytea", no puede hacerlo directamente. Requiere una "Skill" (habilidad) externa, como el "Asistente de Meituan". Solo generar el código QR para autorizar la cuenta de Meituan consumió 185.37 puntos (más que los 150 puntos diarios gratuitos). Tras la autorización, la IA generó un enlace de pago con la Tarjeta AI, pero el resultado fue la compra de un cupón de Meituan no deseado, no el té específico solicitado. **Conclusión: El problema no es el pago, sino la ejecución del agente.** La Tarjeta AI solo resuelve la capacidad de pago, no la compleja cadena de ejecución: comprender la necesidad precisa, elegir la plataforma correcta, autorizar la cuenta, seleccionar el producto exacto y gestionar el cumplimiento. Los agentes de IA actuales aún no ejecutan tareas del mundo real de manera fiable. **Mecanismo de seguridad actual:** El usuario mantiene el control final. La IA solo puede usar el saldo de la Tarjeta AI, cada pago necesita confirmación en el móvil, y la cuenta principal de WeChat Pay no se toca. **Recomendaciones:** Si quieres probarla, hazlo con cantidades pequeñas y en servicios digitales de bajo riesgo. Antes de pagar, verifica siempre el nombre del producto, el precio y los términos. No asumas que el Agente de IA ha entendido tu necesidad real, especialmente para pedidos físicos, entregas o cupones.

marsbitHace 23 min(s)

Guía práctica de la tarjeta AI de WeChat: ¿Ha llegado la era de las compras con IA?

marsbitHace 23 min(s)

La cruda realidad del FDV de 535 millones de dólares de CARDS: ingresos netos de solo 43 millones y márgenes de beneficio reducidos a la mitad

**Resumen del Artículo: La dura realidad de CARDS con un FDV de 535 millones de dólares** El análisis desglosa los datos de Collector Crypt (CC), una plataforma de cromos coleccionables tokenizados. A pesar de un volumen bruto histórico de 635 millones de dólares, el 90.6% se devuelve instantáneamente a los usuarios a través de recompras automáticas, dejando unos ingresos netos de solo 43 millones (tasa de retención del 6.7%). La actividad es altamente concentrada: unas pocas docenas de carteras generan la mayor parte del volumen, con solo unos 420 jugadores activos diarios. El mercado secundario para cromos es casi inexistente, representando menos del 1% del volumen total. La participación en eBay ha caído 12 veces en seis trimestres consecutivos. La rentabilidad neta de la plataforma se ha reducido a la mitad (del 11.2% al 5.8%) a medida que el volumen se concentra en paquetes de mayor precio con márgenes más bajos. La captura de valor para el token CARDS (a través de quema y recompras) es mínima: solo 1.4 millones de dólares (3.4% de los ingresos netos). Mientras tanto, se han retirado 45.7 millones de USDC de las carteras operativas identificadas. Con un FDV de ~535M, la valoración equivale a 7.3 veces los ingresos netos anualizados, para un negocio con márgenes en compresión, una base de usuarios estrecha y un 72% de la oferta de tokens bloqueada hasta noviembre de 2027.

marsbitHace 1 hora(s)

La cruda realidad del FDV de 535 millones de dólares de CARDS: ingresos netos de solo 43 millones y márgenes de beneficio reducidos a la mitad

marsbitHace 1 hora(s)

Trading

Spot
Futuros
活动图片