Por primera vez, un VLA puramente preentrenado con videos humanos logra una manipulación hábil, y un fino ajuste con pocos datos permite el despliegue exitoso

marsbitPublicado a 2026-06-08Actualizado a 2026-06-08

Resumen

La investigación "Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos", presentada por Microsoft Asia Research (MSRA) y la Universidad de Tsinghua, introduce el marco **VITRA**. Este sistema convierte automáticamente grandes volúmenes de videos de actividades humanas sin etiquetar en datos estructurados para entrenar modelos **Visión-Lenguaje-Acción (VLA)** aplicables a robots. El proceso clave implica: 1) extraer trayectorias precisas de movimiento 3D de las manos desde video monocular, 2) segmentar los videos en acciones atómicas basándose en mínimos de velocidad, y 3) generar instrucciones lingüísticas precisas utilizando modelos de lenguaje como GPT-4, a las que se superponen las trayectorias 3D. Tras el preentrenamiento en un extenso conjunto de datos (1 millón de clips, 26 millones de fotogramas), el modelo VLA (que combina un modelo visual-lingüístico con un experto en acción basado en difusión) muestra una fuerte capacidad de **predicción de acciones en entornos nuevos y no vistos** (zero-shot). Para el despliegue en robots reales, el modelo se ajusta con una pequeña cantidad de datos de demostración robótica (~1.2K). Este enfoque logra una **alta tasa de éxito** en tareas de manipulación diestra (como agarrar, colocar, verter o barrer) y demuestra una **excelente capacidad de generalización** a objetos y fondos no vistos, superando significativamente a modelos entrenados únicamente con datos robóticos de ...

Lograr capacidades de manipulación hábil a nivel humano es uno de los desafíos centrales de larga data en el campo de la robótica.

Aunque las manos hábiles multifuncionales tienen el potencial de hardware similar al humano, la obtención de datos de movimientos robóticos de alta calidad es extremadamente costosa. Los modelos visual-lenguaje-acción (VLA) existentes están muy por detrás de los modelos de lenguaje grandes (LLM) y los modelos de lenguaje visual (VLM) en términos de escala y diversidad de datos, lo que dificulta satisfacer las necesidades de tareas complejas del mundo real.

La última investigación de Microsoft Research Asia (MSRA) y la Universidad de Tsinghua, titulada «Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos», propone un marco de preentrenamiento innovador llamado VITRA para abordar este problema clave.

La contribución central de esta investigación radica en proponer una solución completamente automatizada que transforma vastas cantidades de videos de actividades humanas reales sin anotaciones en datos completamente alineados con el formato de datos de entrenamiento V-L-A robótico existente.

Extrayendo trayectorias de movimiento 3D de las manos en los videos, realizando segmentación de acciones a nivel atómico y generando automáticamente instrucciones lingüísticas, el equipo de investigación construyó un conjunto de datos V-L-A de manos a gran escala que contiene 1 millón de clips y 26 millones de fotogramas.

Tras el preentrenamiento únicamente con datos de videos humanos, el modelo demostró una poderosa capacidad de predicción de acciones manuales en entorno real desconocido, con cero ejemplos (Zero-Shot).

Con solo un fino ajuste (fine-tuning) utilizando una pequeña cantidad de datos de robots reales, se logró implementar una manipulación hábil con alta tasa de éxito en robots reales, mostrando una fuerte capacidad de generalización ante nuevos objetos y entornos.

A continuación, se presentan más detalles.

Estableciendo la conexión entre videos humanos y datos robóticos

El problema central del documento radica en cómo superar la gran diferencia entre los videos humanos no estructurados y los datos robóticos estructurados, para extraer etiquetas de acción de alta calidad e instrucciones lingüísticas utilizables para el preentrenamiento de modelos VLA.

Esta investigación construyó un sistema completo compuesto por tres tecnologías clave, logrando una transformación fluida desde videos en bruto hasta datos V-L-A.

Anotación de movimiento 3D: Recuperación precisa de trayectorias de manos y cámara

Recuperar el movimiento 3D preciso de las manos a partir de videos monoculares, sin calibración y posiblemente con cámara en movimiento es una tarea extremadamente desafiante.

Esta investigación propone un método de seguimiento de postura de mano y cámara monocular basado en las últimas tecnologías de visión 3D:

Primero, se determina el estado de la cámara a través del flujo óptico de fondo y se estiman los parámetros intrínsecos de la cámara.

Posteriormente, se utiliza SLAM visual de profundidad y modelos de estimación de profundidad para rastrear la postura de la cámara, y se emplea un modelo de reconstrucción de manos para extraer la postura 3D de la mano en el espacio de la cámara por fotograma (incluyendo la postura 6D de la muñeca y los ángulos de todas las articulaciones).

Finalmente, al combinar esta información, se obtiene la trayectoria de movimiento 3D de las manos en el espacio mundial.

Este método no solo proporciona etiquetas de acción de alta precisión, sino que también sienta las bases para la posterior segmentación de acciones y anotación de instrucciones.

Segmentación de acciones a nivel atómico: División natural basada en mínimos de velocidad

Los datos V-L-A robóticos existentes suelen consistir en tareas atómicas simples y de corto alcance. Cómo segmentar con precisión estas acciones atómicas a partir de videos largos es un problema.

El equipo de investigación se inspiró en el ritmo natural de las acciones humanas, proponiendo un algoritmo de segmentación simple y eficiente: dividir basándose en los mínimos de la velocidad de movimiento de la mano en el espacio 3D.

Durante las transiciones de acción, la mano humana suele experimentar cambios de velocidad, y los mínimos de velocidad a menudo marcan el cambio de acción.

Al detectar los mínimos de velocidad en la trayectoria 3D de la muñeca en el espacio mundial, este método puede dividir eficientemente videos largos en clips cortos que contienen una sola acción atómica, sin necesidad de ninguna anotación manual adicional o inferencia de modelos.

Anotación de instrucciones: Descripción precisa de acciones combinando trayectorias 3D

Para generar instrucciones lingüísticas precisas para los segmentos de video divididos, el equipo de investigación combinó hábilmente los modelos de lenguaje visual (VLM) con las trayectorias 3D de las manos.

Para cada clip de video, el sistema muestrea uniformemente 8 imágenes y proyecta y superpone la trayectoria 3D de la palma sobre ellas.

Luego, estas imágenes con el resaltado de la trayectoria se introducen en GPT-4, indicándole que, combinando el contenido de la imagen y la información de la trayectoria, describa la acción de la mano especificada en forma de oración imperativa.

Los experimentos demuestran que proporcionar clips de video a nivel atómico y superponer las trayectorias 3D de las manos mejora significativamente la precisión de GPT al generar descripciones de acciones.

Logrando una poderosa predicción con cero ejemplos y generalización en el mundo real

Basándose en el conjunto de datos V-L-A de manos humanas a gran escala construido automáticamente, el equipo de investigación diseñó y entrenó un modelo VLA especializado para operaciones hábiles.

1. Arquitectura del modelo que combina VLM con un experto en acciones por difusión

Este modelo VLA consta de una red troncal VLM (PaliGemma-2) y un experto en acciones por difusión (Diffusion Transformer, DiT).

El VLM recibe la observación visual, la instrucción lingüística y la información del campo de visión (FoV) de la cámara, y genera una «característica cognitiva» (Cognition Feature).

El experto en acciones por difusión recibe esta característica cognitiva, el estado actual de la mano y un bloque de ruido de acción enmascarado, y predice la secuencia futura de acciones manuales a través de un proceso iterativo de eliminación de ruido.

Para manejar las rápidas acciones manuales humanas y adaptarse a los datos de clips cortos, el modelo utiliza un mecanismo de atención causal (Causal Attention) para la eliminación de ruido en las acciones, asegurando que la predicción de cada paso de acción dependa únicamente de acciones anteriores, evitando efectivamente el impacto negativo del relleno de ceros.

2. Predicción de acciones manuales con cero ejemplos: Mostrando capacidades sorprendentes en entornos no vistos

En entornos de vida real completamente nuevos, el modelo preentrenado demostró una potente capacidad de predicción de acciones manuales con cero ejemplos.

En las evaluaciones de tareas de agarre y predicción de acciones generales, este modelo superó significativamente a los modelos entrenados en datos recopilados en entornos de laboratorio (como EgoDex), y también a los modelos entrenados con datos humanos originales anotados.

Esto demuestra plenamente que el uso de videos de vida real masivos y diversos para el preentrenamiento puede mejorar enormemente la capacidad de generalización del modelo hacia entornos complejos y objetos desconocidos.

3. Manipulación hábil en robots reales: Implementación eficiente con un fino ajuste de pocos datos

Para el despliegue en robots reales, el equipo de investigación alineó el espacio de acción de la mano humana con el espacio de acción de la mano hábil robótica (como la mano XHAND1 de StarDynamics equipada en el robot Realman).

Basta con un fino ajuste del modelo preentrenado utilizando una pequeña cantidad de datos de teleoperación de robots reales (aproximadamente 1.2K muestras) para ejecutar en el mundo real diversas tasks de manipulación hábil que incluyen agarrar, colocar, verter y barrer.

Los resultados experimentales muestran que, en comparación con modelos sin preentrenamiento en datos VLA humanos o preentrenados en otros conjuntos de datos (como OXE, EgoDex), este método logró una mejora significativa en la tasa de éxito de las tareas, mostrando una robustez excepcional especialmente frente a objetos y fondos no vistos.

Soporte central de hardware para el despliegue de VITRA en el mundo real

La razón por la cual el marco VITRA puede lograr una capacidad de generalización impresionante en robots reales, además de las innovaciones algorítmicas, se debe en gran medida al soporte del hardware subyacente: la mano hábil de cinco dedos totalmente de accionamiento directo de StarDynamics, la XHAND1.

Este marco forma una perfecta «sinergia software-hardware» con las características de hardware de la XHAND1, mostrando ventajas de implementación irreemplazables en escenarios de aplicación real.

Conexión fluida entre URDF de alta precisión y el espacio de acción de la mano humana

El avance central del marco VITRA radica en alinear el espacio de acción de la mano humana con el de la mano hábil robótica.

StarDynamics proporciona oficialmente un modelo URDF de extremadamente alta precisión para la XHAND1, que no solo describe con precisión los parámetros de movimiento y dinámica, sino que también mapea perfectamente la distribución espacial de las articulaciones de la mano humana.

Este soporte de modelo a nivel de «gemelo digital» permite que VITRA, durante la fase de ajuste fino, mapee con precisión los ángulos articulares humanos a las articulaciones correspondientes de la XHAND1, reduciendo así significativamente la brecha entre los videos humanos y el hardware real, y asegurando una implementación eficiente de las estrategias preentrenadas en el hardware real.

Arquitectura de accionamiento directo total y respuesta de alta frecuencia: Ejecución perfecta de operaciones hábiles complejas

Al realizar tareas complejas de manipulación hábil como verter o barrer, el robot necesita una capacidad de respuesta dinámica extremadamente alta.

La arquitectura de accionamiento directo total (Direct-Drive) adoptada por la XHAND1 proporciona la base de hardware ideal para este algoritmo.

El diseño de accionamiento directo total elimina fundamentalmente la gran fricción, histéresis e interferencias no lineales causadas por los reductores tradicionales, otorgando a la mano hábil una capacidad de respuesta dinámica ultrasensible. Esto permite que la XHAND1 ejecute de manera instantánea y precisa las instrucciones de acción generadas por el modelo VITRA, manipulando de forma segura varios objetos desconocidos.

Array de sensores rico: Reservando espacio para la percepción multimodal futura

Aunque el modelo VITRA actual depende principalmente de la entrada visual, el rico array de sensores con que cuenta la XHAND1 (como arrays táctiles de alta resolución) reserva un amplio espacio para la percepción multimodal futura.

Combinado con la poderosa capacidad de percepción del hardware de la XHAND1, los futuros modelos VLA podrían integrar aún más la retroalimentación táctil para manejar tareas de «marcha de dedos (Finger Gaits)» más finas y complejas.

La ley de escala de la cantidad de datos

Esta investigación también exploró en profundidad el impacto de la escala de datos de preentrenamiento en el rendimiento del modelo.

Los experimentos encontraron que a medida que aumenta la cantidad de datos de preentrenamiento, el error del modelo en las tareas de predicción de acciones manuales con cero ejemplos disminuye constantemente, y su tasa de éxito en las tareas de operación de robots reales continúa aumentando.

Este comportamiento de escala (Scaling Behavior) evidente indica que al expandir aún más la escala de datos de videos humanos, se podría mejorar continuamente el rendimiento del modelo VLA.

Este logro marca un avance clave en el uso de videos humanos no estructurados para el preentrenamiento de modelos VLA para robótica.

Al proporcionar un esquema completamente automatizado de transformación de datos, esta investigación reduce significativamente el umbral para obtener datos de entrenamiento robótico de alta calidad, allana el camino para la aplicación de manos hábiles multifuncionales en una gama más amplia de escenarios reales complejos, y sienta una base sólida para avanzar hacia una inteligencia encarnada (embodied) verdaderamente generalizada.

Enlace al documento: https://arxiv.org/abs/2510.21571

Este artículo proviene del WeChat public account «量子位», autor: Equipo VITRA

Preguntas relacionadas

Q¿Cuál es el principal desafío abordado por el marco VITRA en el campo de la robótica?

AEl principal desafío abordado por VITRA es la capacidad de manipulación diestra a nivel humano, un objetivo central en robótica. El marco supera la limitación de la escasez y el alto costo de los datos de acciones robóticas de alta calidad, utilizando en su lugar videos de actividades humanas reales para el preentrenamiento de modelos VLA (Visión-Lenguaje-Acción).

Q¿Cómo convierte VITRA los videos humanos no estructurados en datos VLA utilizables para robots?

AVITRA convierte los videos mediante un sistema automático de tres pasos: 1) Anotación de movimiento 3D para recuperar con precisión la trayectoria de la mano y la cámara. 2) Segmentación de acciones a nivel atómico basada en mínimos de velocidad en la trayectoria 3D de la muñeca. 3) Anotación de instrucciones usando un VLM (como GPT-4) alimentado con fotogramas de video que resaltan la trayectoria proyectada de la mano, para generar descripciones de acciones en lenguaje natural.

Q¿Qué ventaja demuestra el modelo preentrenado con datos humanos en las pruebas de predicción de acciones (Zero-Shot)?

AEn entornos reales nunca vistos, el modelo preentrenado con videos humanos demuestra una capacidad de predicción de acciones de la mano (Zero-Shot) significativamente superior. Supera a los modelos entrenados solo con datos de laboratorio (como EgoDex) o con datos humanos anotados manualmente, mostrando una gran capacidad de generalización para entornos y objetos complejos y desconocidos.

Q¿Cómo se logra desplegar el modelo preentrenado en un robot real para tareas de manipulación diestra?

APara el despliegue en un robot real, se realiza un ajuste fino (fine-tuning) del modelo preentrenado utilizando una pequeña cantidad de datos de operación remota del robot real (aproximadamente 1.2K episodios). Este proceso alinea el espacio de acción de la mano humana con el del robot (por ejemplo, la mano diestra XHAND1 de StarMove), permitiendo que el robot ejecute con éxito tareas como agarrar, colocar, verter y barrer con alta robustez ante objetos y fondos nuevos.

Q¿Qué papel desempeña la mano robótica StarMove XHAND1 en el despliegue exitoso del marco VITRA?

ALa mano robótica StarMove XHAND1 proporciona un soporte de hardware fundamental. Su modelo URDF de alta precisión permite un mapeo perfecto del espacio articular de la mano humana. Su arquitectura de accionamiento directo (Direct-Drive) ofrece una respuesta dinámica ultrarrápida y precisa para ejecutar acciones complejas. Además, su rica matriz de sensores (como táctiles) sienta las bases para futuras extensiones multimodales del modelo VLA.

Lecturas Relacionadas

Apaga la IA antes de la entrevista: ¿Qué tipo de personas busca Anthropic?

La empresa de IA Anthropic, recientemente valorada en 965.000 millones de dólares, ha implementado un riguroso proceso de selección de cinco rondas que prohíbe el uso de IA. La ronda más crítica es la "entrevista cultural", que evalúa los valores, la visión del mundo y la postura ante los riesgos de la IA del candidato, pudiendo ser rechazado si no la supera, independientemente de su habilidad técnica. A diferencia de empresas como Google, que fomentan el uso de IA en las entrevistas, Anthropic considera esencial evaluar al candidato sin ayuda artificial. La entrevista cultural, descrita a veces como invasiva o similar a una terapia, indaga en creencias personales, dilemas éticos y la capacidad de defender posturas bajo presión. El objetivo es identificar a personas cuyas convicciones y pensamiento crítico sean auténticos y no estén externalizados. El enfoque de Anthropic, dirigido por líderes que dedican gran parte de su tiempo a la cultura corporativa, busca personas cuyos valores estén alineados con su misión de seguridad a largo plazo en IA. Esto contrasta con la narrativa predominante de que el mayor valor reside en dominar las herramientas de IA. La pregunta central de Anthropic es: en una era donde la ejecución se abarata, ¿qué se vuelve realmente valioso? Su respuesta es: el pensamiento independiente, la autenticidad y la capacidad de mantener un criterio propio cuando la IA está apagada.

marsbitHace 25 min(s)

Apaga la IA antes de la entrevista: ¿Qué tipo de personas busca Anthropic?

marsbitHace 25 min(s)

Adiós al toro y al oso tradicionales: el mercado entra en la era de la rotación de burbujas

El mercado ha evolucionado de un patrón cíclico tradicional de "toros y osos" hacia una era de "burbujas rotativas" sucesivas, similares a una cadena de tormentas convectivas en meteorología. Factores estructurales clave impulsan este cambio: la especulación masificada de minoristas, flujos de compra pasivos perpetuos, el dominio de la inversión indexada y el trading de alta frecuencia, la supresión artificial de la volatilidad, índices ahora dominados por empresas tecnológicas de larga duración impulsadas por narrativas, la desaparición de la demora informativa y un entorno fiscal y monetario expansivo. Estos cambios, en su mayoría permanentes, crean un entorno propicio para que surjan ciclos especulativos rápidos en sectores como IA, biotecnología (GLP-1), criptomonedas o robótica. Cada burbuja sigue una secuencia: latencia, catalizador, formación de una narrativa, divergencia de expectativas y finalmente ruptura. El capital liberado alimenta entonces la siguiente burbuja en un sector adyacente. Para navegar este nuevo panorama, los inversores deben elevar su perspectiva, reconociendo el patrón cíclico general en lugar de quedar atrapados en la emoción de una única tendencia. Los más beneficiados serán los investigadores profundos de sectores y aquellos capaces de identificar y seguir tendencias tempranas, manteniendo siempre una gestión prudente del riesgo.

marsbitHace 34 min(s)

Adiós al toro y al oso tradicionales: el mercado entra en la era de la rotación de burbujas

marsbitHace 34 min(s)

En los últimos 2 minutos antes de la apertura de SK Hynix, TradeXYZ fijó el precio con una precisión de solo el 0.13% de diferencia

En el mercado tradicional, los activos como las acciones dejan de operar fuera del horario bursátil, pausando el descubrimiento de precios. Sin embargo, los mercados de derivados on-chain, como los impulsados por Hyperliquid, están cambiando esto al permitir el trading 24/7 de activos del mundo real (RWA). Un ejemplo claro fue el fin de semana del 5 al 8 de junio con las acciones de SK Hynix. Mientras la bolsa de Corea (KRX) estaba cerrada, el contrato perpetuo xyz:SKHX en Hyperliquid siguió operando. El lunes 8 de junio, justo antes de la apertura de la KRX, el precio on-chain cayó a un mínimo que reflejaba una caída del -10.21%. Tres minutos después, la acción real abrió en la KRX con una caída del -10.34%, una diferencia de solo 0.13 puntos porcentuales, demostrando una precisión notable en el descubrimiento de precios. En los dos minutos finales antes de la apertura, el mercado on-chain experimentó un volumen excepcional y un rebote del precio del +2.31%, anticipando con precisión la recuperación inicial que la acción real mostró minutos después de abrir en la KRX (alrededor de +2.64%). Este caso muestra cómo los mercados on-chain pueden actuar como una cámara de compensación avanzada, descubriendo precios y expresando riesgos de forma continua, incluso cuando los mercados tradicionales están cerrados.

marsbitHace 37 min(s)

En los últimos 2 minutos antes de la apertura de SK Hynix, TradeXYZ fijó el precio con una precisión de solo el 0.13% de diferencia

marsbitHace 37 min(s)

La forma correcta de usar las Skills: 5 reflexiones tras la publicación del método interno de Anthropic

Tras leer el blog de Anthropic "Lessons from building Claude Code: How we use skills", se reflexiona sobre cinco puntos clave para utilizar las habilidades (Skills) de manera efectiva en IA: 1. **Evitar contenido innecesario**: Las Skills deben capturar conocimiento tácito y "Gotchas" (errores comunes), no repetir información obvia que el modelo ya conoce. Su valor está en la experiencia interna del equipo. 2. **La Skill como Ingeniería de Contexto**: Una Skill no es solo un archivo, sino una carpeta estructurada (SKILL.md, referencias, scripts, ejemplos, activos). Esta organización permite exponer información de forma progresiva, evitando saturar el contexto en cada interacción y optimizando el rendimiento. 3. **Priorizar el uso de scripts**: Para tareas repetitivas o de ejecución precisa (como consultar datos o verificar estados), es más eficiente y confiable proporcionar scripts que instrucciones detalladas. Los scripts encapsulan la capacidad de ejecución, mientras que las instrucciones guían el razonamiento y la experiencia. 4. **Descripción como regla de enrutamiento**: La descripción de una Skill debe centrarse en *cuándo* debe activarse, describiendo la intención del usuario (ej: "cuando CI falle"), no solo en listar sus funciones. Esto ayuda al modelo a enrutar correctamente la solicitud del usuario a la Skill adecuada. 5. **Gestión y distribución escalable**: Para equipos, gestionar muchas Skills requiere un enfoque ligero. Se recomienda comenzar con Skills compartidas en un repositorio y adoptar un modelo similar a un "Marketplace" donde las Skills ganen adopción orgánicamente entre colegas antes de integrarse formalmente, asegurando su utilidad real. En esencia, las Skills efectivas resuelven problemas de contexto, reutilización de experiencia y capacidad, yendo más allá de simples instrucciones de prompt.

marsbitHace 54 min(s)

La forma correcta de usar las Skills: 5 reflexiones tras la publicación del método interno de Anthropic

marsbitHace 54 min(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar CORE

¡Bienvenido a HTX.com! Hemos hecho que comprar CORE (CORE) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar CORE (CORE) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu CORE (CORE)Después de comprar tu CORE (CORE), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear CORE (CORE)Tradear fácilmente con CORE (CORE) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

351 Vistas totalesPublicado en 2024.12.13Actualizado en 2026.06.02

Cómo comprar CORE

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de CORE (CORE).

活动图片