El equipo de NVIDIA permite a un agente de programación hacerse cargo de experimentos con robots reales, logrando una tasa de éxito del 99%

marsbitPublicado a 2026-06-18Actualizado a 2026-06-18

Resumen

La investigación en automatización ha dado un paso significativo al salir del entorno simulado y adentrarse en el mundo físico real. El equipo de NVIDIA GEAR, dirigido por Jim Fan, presentó el proyecto ENPIRE, un marco que permite por primera vez que agentes de programación autónomos realicen investigación en hardware robótico real. El sistema coloca ocho agentes Codex en una flota de robots con recursos de GPU y un presupuesto de tokens, asignándoles el objetivo de resolver tareas de forma eficiente y segura. Estos agentes operan con mínima intervención humana, manejando de forma autónoma un ciclo cerrado que incluye el reinicio automático de escenarios, la búsqueda en literatura, la implementación y entrenamiento de estrategias, la verificación y el análisis de registros para iterar continuamente. Han logrado una tasa de éxito del 99% en tareas de manipulación diestra como atar bridas, organizar clavos en una caja o instalar GPUs. Un hallazgo clave es que para muchas tareas robóticas, restablecer el entorno es más fácil que completar la tarea principal. Por ello, ENPIRE se centra primero en que los agentes creen procedimientos automáticos de reinicio. El sistema consta de cuatro módulos principales que forman el bucle de retroalimentación física: Entorno (EN), Mejora de Políticas (PI), Evaluación (Rollout, R) y Evolución (E). El proyecto también observó una "ley de escala física": aumentar el número de robots en paralelo (por ejemplo, a 8) acelera significativamente la r...

La investigación automatizada ha salido esta vez de la "caja de arena" del código para entrar en el mundo físico real.

Recientemente, Jim Fan, director del laboratorio NVIDIA GEAR, presentó un nuevo proyecto llamado ENPIRE. Es la primera vez que han logrado una investigación automatizada en hardware robótico.

Colocaron 8 agentes Codex en una flota de robots, asignaron potencia de cálculo GPU y un amplio presupuesto de tokens, y solo les dieron un objetivo simple: resolver las tareas lo más rápido posible, mantener los robots ocupados pero seguros, y no desperdiciar potencia de cálculo.

A partir de ahí, la intervención humana fue mínima. Los agentes impulsaron de forma autónoma todo el ciclo cerrado, incluyendo el reinicio automático de escenarios, la búsqueda de literatura, la implementación de ideas y la construcción de infraestructura, el entrenamiento y despliegue de estrategias, la autoverificación, el análisis de registros y la mejora del código, iterando continuamente hasta completar de forma confiable en hardware real tareas delicadas de alta precisión, como atar bridas, organizar alfileres en una caja o instalar GPUs.

También observaron una "ley de escala física": aumentar el número de robots en paralelo (por ejemplo, de unos pocos a 8) aceleraba significativamente la velocidad de resolución de tareas.

Actualmente, algunos sistemas de este laboratorio ya pueden realizar iteraciones autónomas durante toda la noche sin intervención humana, y los investigadores solo necesitan revisar los informes por la mañana.

Jim Fan afirmó que el objetivo futuro es que los miembros del equipo puedan tomarse vacaciones tranquilamente, e incluso que el CEO de NVIDIA, Jensen Huang, no se dé cuenta de que el laboratorio sigue funcionando de forma autónoma.

El proyecto ENPIRE tiene planes de ser totalmente de código abierto, lo que permitiría que desarrolladores comunes también pudieran construir sistemas similares de investigación robótica autónoma en casa.

Dirección del proyecto: https://research.nvidia.com/labs/gear/enpire/

Arquitectura del sistema ENPIRE: Cuatro módulos forman un ciclo cerrado

ENPIRE es un sistema de framework diseñado para agentes de programación, que construye un ciclo de retroalimentación física reproducible mediante cuatro módulos principales: el módulo de entorno (EN) se encarga del reinicio y verificación automática, el módulo de mejora de estrategias (PI) inicia la optimización de políticas, el módulo Rollout (R) permite la evaluación de políticas en paralelo con uno o varios robots, y el módulo evolutivo (E) permite a los agentes de programación analizar registros, consultar literatura, y mejorar la infraestructura de entrenamiento y el código de algoritmos para resolver modos de fallo.

Este sistema de ciclo cerrado convierte el aprendizaje robótico en el mundo real en un proceso de optimización controlado y gestionado por agentes, minimizando así la intervención manual y permitiendo realizar experimentos de abalación justos entre diferentes recetas de entrenamiento y variantes de agentes.

Con el apoyo de ENPIRE, los agentes de programación de vanguardia pueden desarrollar estrategias de forma autónoma y lograr una tasa de éxito del 99% en tareas desafiantes de manipulación diestra en el mundo real, como PushT, organizar alfileres en una caja, o cortar bridas con un cortador.

Descubrimiento clave: Restablecer el entorno es a menudo más fácil que completar la tarea

Una observación clave fue: Para muchas tareas robóticas, restablecer el entorno suele ser más fácil que completar la tarea en sí.

Por lo tanto, el enfoque de ENPIRE es hacer que el agente construya primero un entorno de reinicio automático mediante Code-as-Policy. En muchos casos, el reinicio es esencialmente una tarea de "pick-and-place" que puede resolver Cap-X.

Posteriormente, el agente escribe una función de recompensa basada en reglas heurísticas. El equipo de investigación coloca entonces ese entorno en un sandbox e inicia una investigación automatizada guiada por los puntos obtenidos.

Esto también refleja la definición de investigación automatizada de Karpathy: la automatización aquí no es simplemente ajustar un hiperparámetro o cambiar un pequeño fragmento de código. El agente explora diferentes paradigmas desde Internet y reescribe cualquier parte que pueda impulsar el rendimiento, incluyendo algoritmos, objetivos de entrenamiento, e incluso el cargador de datos.

En la tarea de los alfileres, un agente incluso escribió por sí solo un controlador de seguridad de fuerza de contacto, cuyo efecto superó al de simplemente ajustar algunos parámetros de aprendizaje por refuerzo.

Nuevas métricas: MRU y MTU

La capacidad de escalado de ENPIRE depende del tamaño del equipo de agentes y los recursos computacionales, aunque aquí el recurso realmente escaso no es la GPU, sino el tiempo de los robots.

Cuando el equipo de investigación proporcionó 8 robots a los agentes, en lugar de 1, el tiempo necesario para que la tarea de los alfileres alcanzara un rendimiento casi perfecto se redujo de más de 1,5 horas a unos 40 minutos. Estos agentes se coordinaban mediante Git: compartiendo código, descartando ideas no ideales y seleccionando de forma autónoma los mejores resultados de ejecución entre ellos.

Esto apunta a un cambio mayor: la investigación robótica se está convirtiendo en un trabajo de diseño de entornos, es decir, construir entornos en los que los agentes de programación puedan realizar investigación automatizada; el trabajo algorítmico se desplaza a un nivel superior, hacia la construcción de un ciclo de retroalimentación que los agentes puedan cerrar por sí mismos.

Y este ciclo se acumula de forma compuesta: una habilidad que un agente domina hoy, mañana se convierte en un módulo base para construir y restablecer entornos de tareas más difíciles. La capacidad genera nueva capacidad.

En este paradigma, la verdadera limitación dura es el presupuesto de interacción con el mundo real.

Por lo tanto, el equipo de investigación propuso dos métricas:

  • Utilización Media del Robot (Mean Robot Utilization, MRU): la proporción de tiempo que los robots ejecutan realmente experimentos respecto al tiempo total real transcurrido.
  • Utilización Media de Tokens (Mean Token Utilization, MTU): mide la eficiencia con la que los agentes convierten tokens en progreso de investigación.

En sus experimentos, la MRU estuvo constantemente por debajo del 50%. Es decir, los robots permanecían inactivos la mitad del tiempo, esperando a que los agentes pensaran. Por lo tanto, un mejor "harness" y modelos más rápidos se traducirían directamente en beneficios reales.

PushT es un punto de referencia de operación robótica de larga data. Normalmente, para completar esta tarea, se necesita una gran cantidad de datos de demostración humana, además de horas de entrenamiento por clonación de comportamiento.

Pero ellos vieron que Codex, Claude Code y Kimi Code "resolvieron" esta tarea en menos de 2 horas usando un método heurístico basado en reglas: sin usar redes neuronales, sin entrenamiento y sin depender de ningún dato humano.

Para permitir que más personas prueben la investigación automatizada en el mundo físico desde casa, han desarrollado un sistema completo de pila completa basado en el kit SO-101 de @LeRobotHF + NVIDIA Jetson Thor. Este sistema puede completar la tarea PushT.

Enlaces de referencia:

https://x.com/_wenlixiao/status/2066913334994358342

https://x.com/DrJimFan/status/2066921736369766762

Este artículo procede del WeChat oficial "机器之心" (ID: almosthuman2014), autor: Yang Wen.

Preguntas relacionadas

Q¿Qué es el proyecto ENPIRE desarrollado por NVIDIA GEAR y cuál es su objetivo principal?

AENPIRE es un proyecto del laboratorio NVIDIA GEAR que implementa por primera vez la investigación automatizada en hardware robótico real. Su objetivo principal es que un equipo de agentes de programación (coding Agents) controle autónomamente el ciclo completo de investigación, desde el restablecimiento del entorno hasta el desarrollo, entrenamiento y mejora de estrategias en robots físicos, con la meta de lograr una operación completamente autónoma sin intervención humana.

Q¿Qué porcentaje de éxito logró el sistema ENPIRE en las tareas de destreza y cuáles fueron algunas de esas tareas?

AEl sistema ENPIRE logró una tasa de éxito del 99% en tareas desafiantes de manipulación diestra en el mundo real. Algunos ejemplos de estas tareas incluyen atar y cortar bridas (cable ties), ordenar clavijas en una caja de clavijas e instalar unidades GPU.

Q¿Qué descubrimiento clave se menciona sobre la dificultad de las tareas en robótica y cómo lo aprovechó ENPIRE?

AUn descubrimiento clave fue que, para muchas tareas robóticas, restablecer el entorno es más fácil que completar la tarea principal. ENPIRE aprovechó esto haciendo que el agente primero construyera un sistema automatizado de restablecimiento del entorno (por ejemplo, con una política de 'Code-as-Policy' para tareas de pick-and-place), para luego enfocarse en la investigación automatizada de la tarea objetivo dentro de ese entorno preparado.

Q¿Qué significan las siglas ENPIRE y qué función cumple cada uno de sus cuatro módulos principales?

AENPIRE es un acrónimo de sus cuatro módulos principales que forman un bucle de retroalimentación física: Entorno (EN) para el restablecimiento y verificación automáticos, Mejora de Políticas (PI) para iniciar la optimización de estrategias, Rollout (R) para evaluar estrategias en uno o múltiples robots en paralelo, y Evolución (E) donde el agente analiza registros, consulta literatura y mejora el código para resolver modos de fallo. Juntos convierten el aprendizaje robótico en el mundo real en un proceso de optimización gestionado por el agente.

Q¿Qué métricas nuevas propone el equipo de ENPIRE para medir la eficiencia y qué limitación principal revela la métrica MRU en sus experimentos?

AEl equipo propone dos nuevas métricas: la Utilización Media del Robot (MRU), que mide el tiempo que el robot está activamente ejecutando experimentos, y la Utilización Media de Tokens (MTU), que mide la eficiencia con la que los agentes convierten tokens en progreso de investigación. En sus experimentos, la MRU fue consistentemente inferior al 50%, revelando que el recurso más limitante era el tiempo de interacción del robot en el mundo real, ya que pasaba la mitad del tiempo inactivo esperando a que los agentes 'pensaran'.

Lecturas Relacionadas

La Fundación da un paso atrás, Ethlabs da un paso adelante: Ethereum experimenta su mayor reestructuración de la historia

El 23 de junio, la red Ethereum experimentó dos cambios importantes en su gobernanza. Primero, exinvestigadores de la Ethereum Foundation fundaron Ethlabs, una nueva organización sin fines de lucro. Su objetivo es abordar necesidades clave para la adopción institucional a gran escala, como velocidad de transacciones, emisión de activos nativos y escalabilidad, recibiendo el respaldo financiero de grandes tenedores de ETH como Bitmine y SharpLink. Casi al mismo tiempo, la Ethereum Foundation anunció una importante reestructuración, despidiendo al 20% de su personal (54 personas). Esto forma parte de su nueva estrategia para convertirse en una entidad más ligera, centrada en la gobernanza y el mantenimiento del protocolo, y cediendo su papel central como principal impulsora del desarrollo del ecosistema. Este movimiento de "Ethlabs hacia adelante, la Fundación hacia atrás" se interpreta como una respuesta a las críticas sobre lentitud en la toma de decisiones y excesiva dependencia de la Fundación. Ethlabs, que no cuenta con el respaldo explícito del cofundador Vitalik Buterin, busca ser una capa de ejecución más orientada al mercado, centrada en la adopción real y en mejorar la utilidad financiera de Ethereum. El análisis sugiere que la Fundación mantendrá el enfoque en la "corrección" técnica y la neutralidad, mientras que organizaciones como Ethlabs podrán perseguir de manera más directa la "eficacia" y el crecimiento del ecosistema, incluyendo la valorización de ETH. Este cambio busca equilibrar los principios de descentralización con la necesidad de una ejecución más ágil y orientada al mercado para competir en el panorama blockchain actual.

链捕手Hace 5 hora(s)

La Fundación da un paso atrás, Ethlabs da un paso adelante: Ethereum experimenta su mayor reestructuración de la historia

链捕手Hace 5 hora(s)

Segunda mitad de la política cripto en EE.UU.: El proyecto de ley CLARITY busca 60 votos, el "Comité de una sola persona" de la CFTC se convierte en la mayor incertidumbre

A medio camino de la política cripto en EE.UU.: el avance del proyecto de ley CLARITY en el Senado y las incertidumbres regulatorias El sector cripto espera un momento decisivo con el proyecto de ley CLARITY en el Senado estadounidense, que necesita 60 votos para su aprobación. Quedan solo unos 40 días legislativos este año, lo que hace crucial la negociación bipartidista. Además de CLARITY, están en juego varias propuestas fiscales derivadas del proyecto PARITY y la ley Blockchain Regulatory Certainty Act. Una gran preocupación es la composición de la Comisión de Comercio de Futuros de Materias Primas (CFTC), que actualmente opera con un solo comisionado, lo que genera incertidumbre sobre su capacidad para actuar, especialmente en la lucha por la jurisdicción sobre los mercados de predicción. La industria también lamenta la próxima salida de dos figuras clave: la comisionada de la SEC, Hester M. Peirce, y la senadora Cynthia Lummis, ambas defensoras influyentes de políticas claras para los activos digitales. Expertos del sector opinan que es improbable que CLARITY se apruebe este año debido al calendario ajustado, por lo que la SEC y la CFTC podrían tener que proporcionar más orientación. Las reformas fiscales podrían avanzar si se incluyen en proyectos de ley más amplios. Sobre los mercados de predicción, se debate si deben ser regulados como infraestructura financiera o como juegos de azar, con la CFTC trabajando en un marco más claro. En resumen, la ventana de oportunidad legislativa para 2024 es estrecha, pero el diálogo y los esfuerzos pragmáticos serán esenciales para lograr avances sustanciales.

marsbitHace 8 hora(s)

Segunda mitad de la política cripto en EE.UU.: El proyecto de ley CLARITY busca 60 votos, el "Comité de una sola persona" de la CFTC se convierte en la mayor incertidumbre

marsbitHace 8 hora(s)

Nuevo artículo de Dan Koe: Escapando del destino del asalariado, ¿Cómo sobrevivir a la ola de sustitución por IA?

Autora: DAN KOE En un mundo donde la IA parece amenazar muchos empleos, Dan Koe argumenta que el mayor peligro no es la tecnología, sino depender completamente de otros para la subsistencia y felicidad. El artículo explora cómo escapar de la mentalidad de "esclavo asalariado" y construir una carrera significativa que resista la automatización. **1. Escapar de la trampa del empleado** Koe define la "esclavitud salarial" como verse obligado a realizar trabajos sin sentido por necesidad. Aunque un trabajo puede ser un trampolín útil, rara vez ofrece el flujo constante de desafíos óptimos que genera crecimiento y satisfacción. El sistema educativo y laboral nos entrena para ser especialistas dentro de un sistema, no para entenderlo o crear el nuestro. La única manera de sobrevivir a la sustitución por IA es construir tu propio proyecto. **2. Los cinco ingredientes del éxito** Para ser resiliente y crear tu propio camino, necesitas dominar cinco elementos fundamentales: 1. **Iniciativa**: Actuar sin pedir permiso. 2. **Criterio (gusto)**: El instinto para juzgar qué tiene valor. 3. **Persuasión**: La habilidad de hacer que otros crean en lo que haces. 4. **Perseverancia**: Entender que fallar es parte del proceso. 5. **Iteración**: Ajustar el rumbo basándote en la retroalimentación. Estos elementos se resumen en dos habilidades clave: **resolver problemas** y la **experiencia** para saber qué hacer. La IA facilita la creación de activos, pero el verdadero éxito requiere estas habilidades humanas, que solo se desarrollan haciendo tus propias cosas. **3. La cura: volverse "inempleable"** La solución es transformar tu identidad para convertirte en alguien que no puede ser empleado. Esto se logra mediante tres pasos: * **Cambia tu entorno radicalmente**: Tu identidad está moldeada por tus entornos (familia, escuela, redes sociales). Para cambiar, debes alterar conscientemente todos los estímulos que recibes, sumergiéndote en un nuevo entorno que te obligue a crecer. * **Elige un medio que ofrezca retroalimentación real**: El mayor riesgo es una vida sin posibilidad de error. El crecimiento viene de perseguir metas desconocidas, fallar, aprender y ajustar el rumbo. Esto es la esencia del emprendimiento. * **Domina la creación de medios (contenido) o código**: Según Naval, estas son las palancas de apalancamiento infinito. Koe argumenta que **crear contenido (medios) es más valioso que programar (código)** en el futuro. El valor del contenido es subjetivo y requiere un criterio que la IA no puede replicar por sí sola, mientras que el código es objetivo y su distribución (marketing) depende de entender los medios. **4. Cómo empezar: 15 minutos al día** El proceso para construir tu proyecto de vida (no solo una "marca personal") comienza con una introspección guiada de 15 minutos: 1. **Excava tu materia prima**: Identifica los conocimientos profundos, habilidades naturales e intereses de la infancia que el sistema pudo haber enterrado. 2. **Encuentra tu "disenso"**: Determina en qué crees firmemente, contrario a la opinión popular o a los "expertos" de tu campo. La intersección entre esto y tu materia prima es tu dirección. 3. **Publica tu primera idea mañana**: Combina una respuesta del paso 1 y otra del paso 2 en una pieza de contenido (un post, un video) y publícala. La retroalimentación real del mundo es el único punto de partida para iterar y mejorar. En resumen, el antídoto contra la obsolescencia laboral es tomar la iniciativa, desarrollar un criterio profundo y construir en público un proyecto basado en tu experiencia única, utilizando la creación de contenido como palanca principal en la era de la IA.

marsbitHace 8 hora(s)

Nuevo artículo de Dan Koe: Escapando del destino del asalariado, ¿Cómo sobrevivir a la ola de sustitución por IA?

marsbitHace 8 hora(s)

Informe de Investigación: Morgan Stanley analiza a SanDisk SNDK, la verdad sobre el poder de fijación de precios en centros de datos en la nube y el dividendo del razonamiento de IA

**Resumen: Análisis de Morgan Stanley sobre SNDK - Poder de fijación de precios en centros de datos en la nube y oportunidades en inferencia de IA** Morgan Stanley actualizó su informe sobre SanDisk (SNDK) el 22 de junio, elevando el precio objetivo de 1100 a 1750 dólares y manteniendo la recomendación de "sobreponderar". La lógica central se basa en que la demanda de **inferencia de IA** está reescribiendo las reglas del mercado NAND. Los clientes de centros de datos en la nube, que buscan almacenamiento de alto rendimiento para cargas de trabajo como KV Cache, muestran poca sensibilidad al precio, otorgando a SNDK un sólido poder de fijación. Un pilar clave es el nuevo modelo de negocio (NBM) de SNDK, que ya ha asegurado más de un tercio de sus envíos en bits para el año fiscal 2027. Estos contratos a largo plazo (3-5 años) con precios fijos o con límites garantizan márgenes brutos de alrededor del **80% incluso en escenarios de precios bajos**, proporcionando una resiliencia significativa frente a los ciclos del sector. Se prevé que la escasez de oferta de NAND persista, impulsada por la expansión acelerada de centros de datos para IA. Morgan Stanley espera que los precios promedio (ASP) continúen subiendo hasta mediados de 2027. Los ingresos de SNDK se proyectan que crezcan de 7.355 mil millones de dólares en FY25 a 48.826 mil millones en FY27, impulsados por el negocio en la nube de alto margen, con un EPS que pasaría de 2.74 a 14.73 dólares. Los riesgos incluyen un crecimiento del sector menor al esperado, una mayor competencia y posibles pérdidas de cuota de mercado. Sin embargo, el marco de inversión se sostiene en el cambio estructural de demanda por la IA, la protección de márgenes vía contratos NBM y un entorno de oferta ajustada.

marsbitHace 9 hora(s)

Informe de Investigación: Morgan Stanley analiza a SanDisk SNDK, la verdad sobre el poder de fijación de precios en centros de datos en la nube y el dividendo del razonamiento de IA

marsbitHace 9 hora(s)

Trading

Spot
Futuros
活动图片