Por primera vez, un VLA puramente preentrenado con videos humanos logra una manipulación hábil, y un fino ajuste con pocos datos permite el despliegue exitoso

marsbitPublicado a 2026-06-08Actualizado a 2026-06-08

Resumen

La investigación "Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos", presentada por Microsoft Asia Research (MSRA) y la Universidad de Tsinghua, introduce el marco **VITRA**. Este sistema convierte automáticamente grandes volúmenes de videos de actividades humanas sin etiquetar en datos estructurados para entrenar modelos **Visión-Lenguaje-Acción (VLA)** aplicables a robots. El proceso clave implica: 1) extraer trayectorias precisas de movimiento 3D de las manos desde video monocular, 2) segmentar los videos en acciones atómicas basándose en mínimos de velocidad, y 3) generar instrucciones lingüísticas precisas utilizando modelos de lenguaje como GPT-4, a las que se superponen las trayectorias 3D. Tras el preentrenamiento en un extenso conjunto de datos (1 millón de clips, 26 millones de fotogramas), el modelo VLA (que combina un modelo visual-lingüístico con un experto en acción basado en difusión) muestra una fuerte capacidad de **predicción de acciones en entornos nuevos y no vistos** (zero-shot). Para el despliegue en robots reales, el modelo se ajusta con una pequeña cantidad de datos de demostración robótica (~1.2K). Este enfoque logra una **alta tasa de éxito** en tareas de manipulación diestra (como agarrar, colocar, verter o barrer) y demuestra una **excelente capacidad de generalización** a objetos y fondos no vistos, superando significativamente a modelos entrenados únicamente con datos robóticos de ...

Lograr capacidades de manipulación hábil a nivel humano es uno de los desafíos centrales de larga data en el campo de la robótica.

Aunque las manos hábiles multifuncionales tienen el potencial de hardware similar al humano, la obtención de datos de movimientos robóticos de alta calidad es extremadamente costosa. Los modelos visual-lenguaje-acción (VLA) existentes están muy por detrás de los modelos de lenguaje grandes (LLM) y los modelos de lenguaje visual (VLM) en términos de escala y diversidad de datos, lo que dificulta satisfacer las necesidades de tareas complejas del mundo real.

La última investigación de Microsoft Research Asia (MSRA) y la Universidad de Tsinghua, titulada «Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos», propone un marco de preentrenamiento innovador llamado VITRA para abordar este problema clave.

La contribución central de esta investigación radica en proponer una solución completamente automatizada que transforma vastas cantidades de videos de actividades humanas reales sin anotaciones en datos completamente alineados con el formato de datos de entrenamiento V-L-A robótico existente.

Extrayendo trayectorias de movimiento 3D de las manos en los videos, realizando segmentación de acciones a nivel atómico y generando automáticamente instrucciones lingüísticas, el equipo de investigación construyó un conjunto de datos V-L-A de manos a gran escala que contiene 1 millón de clips y 26 millones de fotogramas.

Tras el preentrenamiento únicamente con datos de videos humanos, el modelo demostró una poderosa capacidad de predicción de acciones manuales en entorno real desconocido, con cero ejemplos (Zero-Shot).

Con solo un fino ajuste (fine-tuning) utilizando una pequeña cantidad de datos de robots reales, se logró implementar una manipulación hábil con alta tasa de éxito en robots reales, mostrando una fuerte capacidad de generalización ante nuevos objetos y entornos.

A continuación, se presentan más detalles.

Estableciendo la conexión entre videos humanos y datos robóticos

El problema central del documento radica en cómo superar la gran diferencia entre los videos humanos no estructurados y los datos robóticos estructurados, para extraer etiquetas de acción de alta calidad e instrucciones lingüísticas utilizables para el preentrenamiento de modelos VLA.

Esta investigación construyó un sistema completo compuesto por tres tecnologías clave, logrando una transformación fluida desde videos en bruto hasta datos V-L-A.

△

Anotación de movimiento 3D: Recuperación precisa de trayectorias de manos y cámara

Recuperar el movimiento 3D preciso de las manos a partir de videos monoculares, sin calibración y posiblemente con cámara en movimiento es una tarea extremadamente desafiante.

Esta investigación propone un método de seguimiento de postura de mano y cámara monocular basado en las últimas tecnologías de visión 3D:

Primero, se determina el estado de la cámara a través del flujo óptico de fondo y se estiman los parámetros intrínsecos de la cámara.

Posteriormente, se utiliza SLAM visual de profundidad y modelos de estimación de profundidad para rastrear la postura de la cámara, y se emplea un modelo de reconstrucción de manos para extraer la postura 3D de la mano en el espacio de la cámara por fotograma (incluyendo la postura 6D de la muñeca y los ángulos de todas las articulaciones).

Finalmente, al combinar esta información, se obtiene la trayectoria de movimiento 3D de las manos en el espacio mundial.

Este método no solo proporciona etiquetas de acción de alta precisión, sino que también sienta las bases para la posterior segmentación de acciones y anotación de instrucciones.

Segmentación de acciones a nivel atómico: División natural basada en mínimos de velocidad

Los datos V-L-A robóticos existentes suelen consistir en tareas atómicas simples y de corto alcance. Cómo segmentar con precisión estas acciones atómicas a partir de videos largos es un problema.

El equipo de investigación se inspiró en el ritmo natural de las acciones humanas, proponiendo un algoritmo de segmentación simple y eficiente: dividir basándose en los mínimos de la velocidad de movimiento de la mano en el espacio 3D.

Durante las transiciones de acción, la mano humana suele experimentar cambios de velocidad, y los mínimos de velocidad a menudo marcan el cambio de acción.

Al detectar los mínimos de velocidad en la trayectoria 3D de la muñeca en el espacio mundial, este método puede dividir eficientemente videos largos en clips cortos que contienen una sola acción atómica, sin necesidad de ninguna anotación manual adicional o inferencia de modelos.

Anotación de instrucciones: Descripción precisa de acciones combinando trayectorias 3D

Para generar instrucciones lingüísticas precisas para los segmentos de video divididos, el equipo de investigación combinó hábilmente los modelos de lenguaje visual (VLM) con las trayectorias 3D de las manos.

Para cada clip de video, el sistema muestrea uniformemente 8 imágenes y proyecta y superpone la trayectoria 3D de la palma sobre ellas.

Luego, estas imágenes con el resaltado de la trayectoria se introducen en GPT-4, indicándole que, combinando el contenido de la imagen y la información de la trayectoria, describa la acción de la mano especificada en forma de oración imperativa.

Los experimentos demuestran que proporcionar clips de video a nivel atómico y superponer las trayectorias 3D de las manos mejora significativamente la precisión de GPT al generar descripciones de acciones.

Logrando una poderosa predicción con cero ejemplos y generalización en el mundo real

Basándose en el conjunto de datos V-L-A de manos humanas a gran escala construido automáticamente, el equipo de investigación diseñó y entrenó un modelo VLA especializado para operaciones hábiles.

△

1. Arquitectura del modelo que combina VLM con un experto en acciones por difusión

Este modelo VLA consta de una red troncal VLM (PaliGemma-2) y un experto en acciones por difusión (Diffusion Transformer, DiT).

El VLM recibe la observación visual, la instrucción lingüística y la información del campo de visión (FoV) de la cámara, y genera una «característica cognitiva» (Cognition Feature).

El experto en acciones por difusión recibe esta característica cognitiva, el estado actual de la mano y un bloque de ruido de acción enmascarado, y predice la secuencia futura de acciones manuales a través de un proceso iterativo de eliminación de ruido.

Para manejar las rápidas acciones manuales humanas y adaptarse a los datos de clips cortos, el modelo utiliza un mecanismo de atención causal (Causal Attention) para la eliminación de ruido en las acciones, asegurando que la predicción de cada paso de acción dependa únicamente de acciones anteriores, evitando efectivamente el impacto negativo del relleno de ceros.

2. Predicción de acciones manuales con cero ejemplos: Mostrando capacidades sorprendentes en entornos no vistos

En entornos de vida real completamente nuevos, el modelo preentrenado demostró una potente capacidad de predicción de acciones manuales con cero ejemplos.

△

En las evaluaciones de tareas de agarre y predicción de acciones generales, este modelo superó significativamente a los modelos entrenados en datos recopilados en entornos de laboratorio (como EgoDex), y también a los modelos entrenados con datos humanos originales anotados.

Esto demuestra plenamente que el uso de videos de vida real masivos y diversos para el preentrenamiento puede mejorar enormemente la capacidad de generalización del modelo hacia entornos complejos y objetos desconocidos.

3. Manipulación hábil en robots reales: Implementación eficiente con un fino ajuste de pocos datos

Para el despliegue en robots reales, el equipo de investigación alineó el espacio de acción de la mano humana con el espacio de acción de la mano hábil robótica (como la mano XHAND1 de StarDynamics equipada en el robot Realman).

△

Basta con un fino ajuste del modelo preentrenado utilizando una pequeña cantidad de datos de teleoperación de robots reales (aproximadamente 1.2K muestras) para ejecutar en el mundo real diversas tasks de manipulación hábil que incluyen agarrar, colocar, verter y barrer.

Los resultados experimentales muestran que, en comparación con modelos sin preentrenamiento en datos VLA humanos o preentrenados en otros conjuntos de datos (como OXE, EgoDex), este método logró una mejora significativa en la tasa de éxito de las tareas, mostrando una robustez excepcional especialmente frente a objetos y fondos no vistos.

Soporte central de hardware para el despliegue de VITRA en el mundo real

La razón por la cual el marco VITRA puede lograr una capacidad de generalización impresionante en robots reales, además de las innovaciones algorítmicas, se debe en gran medida al soporte del hardware subyacente: la mano hábil de cinco dedos totalmente de accionamiento directo de StarDynamics, la XHAND1.

Este marco forma una perfecta «sinergia software-hardware» con las características de hardware de la XHAND1, mostrando ventajas de implementación irreemplazables en escenarios de aplicación real.

△

Conexión fluida entre URDF de alta precisión y el espacio de acción de la mano humana

El avance central del marco VITRA radica en alinear el espacio de acción de la mano humana con el de la mano hábil robótica.

StarDynamics proporciona oficialmente un modelo URDF de extremadamente alta precisión para la XHAND1, que no solo describe con precisión los parámetros de movimiento y dinámica, sino que también mapea perfectamente la distribución espacial de las articulaciones de la mano humana.

Este soporte de modelo a nivel de «gemelo digital» permite que VITRA, durante la fase de ajuste fino, mapee con precisión los ángulos articulares humanos a las articulaciones correspondientes de la XHAND1, reduciendo así significativamente la brecha entre los videos humanos y el hardware real, y asegurando una implementación eficiente de las estrategias preentrenadas en el hardware real.

Arquitectura de accionamiento directo total y respuesta de alta frecuencia: Ejecución perfecta de operaciones hábiles complejas

Al realizar tareas complejas de manipulación hábil como verter o barrer, el robot necesita una capacidad de respuesta dinámica extremadamente alta.

La arquitectura de accionamiento directo total (Direct-Drive) adoptada por la XHAND1 proporciona la base de hardware ideal para este algoritmo.

El diseño de accionamiento directo total elimina fundamentalmente la gran fricción, histéresis e interferencias no lineales causadas por los reductores tradicionales, otorgando a la mano hábil una capacidad de respuesta dinámica ultrasensible. Esto permite que la XHAND1 ejecute de manera instantánea y precisa las instrucciones de acción generadas por el modelo VITRA, manipulando de forma segura varios objetos desconocidos.

Array de sensores rico: Reservando espacio para la percepción multimodal futura

Aunque el modelo VITRA actual depende principalmente de la entrada visual, el rico array de sensores con que cuenta la XHAND1 (como arrays táctiles de alta resolución) reserva un amplio espacio para la percepción multimodal futura.

Combinado con la poderosa capacidad de percepción del hardware de la XHAND1, los futuros modelos VLA podrían integrar aún más la retroalimentación táctil para manejar tareas de «marcha de dedos (Finger Gaits)» más finas y complejas.

La ley de escala de la cantidad de datos

Esta investigación también exploró en profundidad el impacto de la escala de datos de preentrenamiento en el rendimiento del modelo.

△

Los experimentos encontraron que a medida que aumenta la cantidad de datos de preentrenamiento, el error del modelo en las tareas de predicción de acciones manuales con cero ejemplos disminuye constantemente, y su tasa de éxito en las tareas de operación de robots reales continúa aumentando.

Este comportamiento de escala (Scaling Behavior) evidente indica que al expandir aún más la escala de datos de videos humanos, se podría mejorar continuamente el rendimiento del modelo VLA.

Este logro marca un avance clave en el uso de videos humanos no estructurados para el preentrenamiento de modelos VLA para robótica.

Al proporcionar un esquema completamente automatizado de transformación de datos, esta investigación reduce significativamente el umbral para obtener datos de entrenamiento robótico de alta calidad, allana el camino para la aplicación de manos hábiles multifuncionales en una gama más amplia de escenarios reales complejos, y sienta una base sólida para avanzar hacia una inteligencia encarnada (embodied) verdaderamente generalizada.

Enlace al documento: https://arxiv.org/abs/2510.21571

Este artículo proviene del WeChat public account «量子位», autor: Equipo VITRA

Criptos en tendencia

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

PancakeSwapCAKE

JUSTJST

Preguntas relacionadas

Q¿Cuál es el principal desafío abordado por el marco VITRA en el campo de la robótica?

AEl principal desafío abordado por VITRA es la capacidad de manipulación diestra a nivel humano, un objetivo central en robótica. El marco supera la limitación de la escasez y el alto costo de los datos de acciones robóticas de alta calidad, utilizando en su lugar videos de actividades humanas reales para el preentrenamiento de modelos VLA (Visión-Lenguaje-Acción).

Q¿Cómo convierte VITRA los videos humanos no estructurados en datos VLA utilizables para robots?

AVITRA convierte los videos mediante un sistema automático de tres pasos: 1) Anotación de movimiento 3D para recuperar con precisión la trayectoria de la mano y la cámara. 2) Segmentación de acciones a nivel atómico basada en mínimos de velocidad en la trayectoria 3D de la muñeca. 3) Anotación de instrucciones usando un VLM (como GPT-4) alimentado con fotogramas de video que resaltan la trayectoria proyectada de la mano, para generar descripciones de acciones en lenguaje natural.

Q¿Qué ventaja demuestra el modelo preentrenado con datos humanos en las pruebas de predicción de acciones (Zero-Shot)?

AEn entornos reales nunca vistos, el modelo preentrenado con videos humanos demuestra una capacidad de predicción de acciones de la mano (Zero-Shot) significativamente superior. Supera a los modelos entrenados solo con datos de laboratorio (como EgoDex) o con datos humanos anotados manualmente, mostrando una gran capacidad de generalización para entornos y objetos complejos y desconocidos.

Q¿Cómo se logra desplegar el modelo preentrenado en un robot real para tareas de manipulación diestra?

APara el despliegue en un robot real, se realiza un ajuste fino (fine-tuning) del modelo preentrenado utilizando una pequeña cantidad de datos de operación remota del robot real (aproximadamente 1.2K episodios). Este proceso alinea el espacio de acción de la mano humana con el del robot (por ejemplo, la mano diestra XHAND1 de StarMove), permitiendo que el robot ejecute con éxito tareas como agarrar, colocar, verter y barrer con alta robustez ante objetos y fondos nuevos.

Q¿Qué papel desempeña la mano robótica StarMove XHAND1 en el despliegue exitoso del marco VITRA?

ALa mano robótica StarMove XHAND1 proporciona un soporte de hardware fundamental. Su modelo URDF de alta precisión permite un mapeo perfecto del espacio articular de la mano humana. Su arquitectura de accionamiento directo (Direct-Drive) ofrece una respuesta dinámica ultrarrápida y precisa para ejecutar acciones complejas. Además, su rica matriz de sensores (como táctiles) sienta las bases para futuras extensiones multimodales del modelo VLA.

Lecturas Relacionadas

Entrevista con un ejecutivo de Robinhood: Meme + Tokenización de acciones de EE.UU. como estrategia de adquisición de clientes "en forma de pesa", todas las líneas de negocio generan ingresos por valor de cientos de millones

**Resumen: Robinhood Chain, el enfoque "Bimodal" para la captación de usuarios** Robinhood Chain, la L2 de Ethereum de Robinhood, lanzó su red principal hace tres semanas, logrando un volumen de intercambio semanal en DEX de $30 mil millones, más de 100 millones de transacciones y un TVL superior a $3 mil millones. Johann Kerbrat, Vicepresidente Sénior y Director General de Crypto e Internacional de Robinhood, explica la estrategia "bimodal": atraer a los usuarios con memecoins y al mismo tiempo ofrecer activos del mundo real tokenizados (RWA), como acciones estadounidenses disponibles en más de 120 países. El objetivo central es llevar gradualmente los 27 millones de cuentas de Robinhood a la cadena, simplificando la complejidad de DeFi con una interfaz de usuario familiar. Esto representa la fusión entre CeFi y DeFi. La cadena usa la tecnología de Arbitrum, priorizando velocidad, bajo coste en gas y la seguridad de Ethereum, en lugar de construir una L1 propia. Robinhood ve el futuro como una oportunidad para "agrandar el pastel" de las finanzas descentralizadas para todos, no solo competir por la cuota de mercado con plataformas como Base. Las colaboraciones con socios DeFi se basan en el cumplimiento normativo y la creación de experiencias únicas. El plan a largo plazo es convertir a Robinhood en una "súper app" financiera integral.

marsbitHace 1 hora(s)

Entrevista con un ejecutivo de Robinhood: Meme + Tokenización de acciones de EE.UU. como estrategia de adquisición de clientes "en forma de pesa", todas las líneas de negocio generan ingresos por valor de cientos de millones

marsbitHace 1 hora(s)

Informe de Fidelity Q3: BTC, ETH y SOL continúan formando su base, ¿cuánto durará este mercado bajista de cripto?

El informe de señales del Q3 de Fidelity analiza el estado actual del mercado bajista de criptoactivos, centrándose en BTC, ETH y SOL. El indicador NUPL ponderado cayó a -0.01, mostrando que el mercado en su conjunto está ligeramente por debajo del punto de equilibrio, con BTC como principal soporte. La dominancia de BTC aumentó al 68%, reflejando una preferencia continua por los activos de mayor liquidez en un entorno de aversión al riesgo. Los precios de los tres activos cayeron significativamente en el último año, con múltiples indicadores acercándose a niveles históricos de capitulación. Basándose en ciclos anteriores, el ajuste actual de 203 días podría haber completado alrededor de dos tercios de su recorrido, señalando octubre de 2026 como un período potencialmente relevante, aunque no predictivo, para la posible formación de un fondo. El informe también destaca la resiliencia en métricas de uso fundamental de las redes, particularmente en las transferencias de stablecoins.

marsbitHace 1 hora(s)

Informe de Fidelity Q3: BTC, ETH y SOL continúan formando su base, ¿cuánto durará este mercado bajista de cripto?

marsbitHace 1 hora(s)

¿Cómo se comportaron Bitcoin y Ethereum en agosto? Aquí están los hechos clave que necesitas saber

Bitcoin y Ethereum, que cerraron julio con ganancias, comenzaron agosto con un rendimiento históricamente débil. Los datos históricos mensuales sugieren que no se puede descartar un cierre negativo de agosto para ambas criptomonedas. Ethereum superó a Bitcoin en julio, con un aumento del 18,5% frente al 7% de Bitcoin. Sin embargo, su historial en agosto desde 2016 es mixto, con solo 4 meses de ganancias frente a 6 de pérdidas. Tuvo su mayor alza en agosto de 2017 (+92,86%) y su mayor caída en 2018 (-34,79%). Su rendimiento promedio en agosto es del 6,74%, pero la mediana es del -1,74%, lo que indica que el promedio positivo está sesgado por unos pocos meses de fuertes ganancias. El historial de Bitcoin en agosto tampoco es claramente alcista. Su rendimiento promedio es del 1,06%, pero su mediana es negativa, del -6,99%, lo que muestra que los cierres con pérdidas son más frecuentes. Recientemente, ha mostrado volatilidad: subió un 8,13% en agosto de 2025, un 2,95% en 2024 y cayó un 4,02% en 2023. En resumen, aunque los promedios históricos de rendimiento en agosto son positivos para ambos, las medianas negativas sugieren que estos promedios son impulsados por unos pocos repuntes fuertes, y un mes de agosto típico presenta una mayor probabilidad de rendimiento negativo.

cryptonews.ruHace 1 hora(s)

¿Cómo se comportaron Bitcoin y Ethereum en agosto? Aquí están los hechos clave que necesitas saber

cryptonews.ruHace 1 hora(s)

Senador propone crear una oficina para combatir el negocio de criptomonedas de Trump

El senador Chuck Schumer ha propuesto la creación de una agencia federal independiente para investigar casos de corrupción, especialmente relacionados con el negocio de criptomonedas de Donald Trump. Esta oficina, liderada por un consejo de siete miembros confirmados por el Senado, tendría amplias facultades de investigación. La iniciativa también permitiría a individuos y fiscales generales estatales demandar a funcionarios y grandes corporaciones para recuperar fondos obtenidos ilegalmente. Schumer vinculó la propuesta a las ganancias de Trump, que superan los 1.400 millones de dólares en proyectos cripto desde su regreso a la presidencia en 2025, y a las de su familia, que exceden los 4.000 millones. La Casa Blanca niega cualquier conflicto de interés. Esta polémica ha estancado el proyecto de ley CLARITY, ya que los demócratas buscan incluir en él prohibiciones para que el presidente, miembros del Congreso y sus familias obtengan beneficios de las criptomonedas. Schumer ya había intentado introducir enmiendas similares en la ley GENIUS sobre stablecoins, pero no fueron incluidas en la versión final aprobada en 2025.

cryptonews.ruHace 3 hora(s)

Senador propone crear una oficina para combatir el negocio de criptomonedas de Trump

cryptonews.ruHace 3 hora(s)

Director ejecutivo de HIVE: Los GPU para IA generan 10 veces más ingresos por hora que las granjas de minería

El CEO de HIVE Digital Technologies, Frank Holmes, ha presentado datos que demuestran que su clúster de 504 GPUs Nvidia B200, utilizado para infraestructura de IA, genera aproximadamente 2.90 dólares por hora por GPU. En contraste, sus operaciones de minería de Bitcoin producen solo unos 0.12 dólares por hora, una diferencia de más de 20 veces en este indicador clave. Esta brecha de rentabilidad fundamenta la estrategia de HIVE: priorizar inversiones en el negocio de IA, de mayores ingresos, mientras mantiene sus significativas operaciones mineras. En el año fiscal 2026, HIVE alcanzó una tasa de hash promedio de 22.2 EH/s y minó 2,885 BTC. Los ingresos totales fueron de 297.8 millones de dólares, con un crecimiento del 158%. Su división de IA/HPC, BUZZ, contribuyó con 19.5 millones. La compañía está construyendo un ambicioso centro de datos de IA de 320 MW en Toronto, que albergará más de 100,000 GPUs y se espera que genere unos 360 millones de dólares en ingresos recurrentes anuales una vez operativo a finales de 2027. HIVE no está sola en esta transición; otras mineras como MARA, Hut 8 y Terawulf también están redirigiendo recursos energéticos hacia contratos de IA/HPC debido a la mayor rentabilidad y a la presión en los márgenes de la minería de Bitcoin. El objetivo inmediato de HIVE es multiplicar por diez sus ingresos anuales por IA/HPC.

cryptonews.ruHace 3 hora(s)

Director ejecutivo de HIVE: Los GPU para IA generan 10 veces más ingresos por hora que las granjas de minería

cryptonews.ruHace 3 hora(s)

Trading

Spot

Artículos destacados

Cómo comprar CORE

¡Bienvenido a HTX.com! Hemos hecho que comprar CORE (CORE) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar CORE (CORE) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu CORE (CORE)Después de comprar tu CORE (CORE), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear CORE (CORE)Tradear fácilmente con CORE (CORE) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

440 Vistas totalesPublicado en 2024.12.13Actualizado en 2026.06.02

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de CORE (CORE).

Por primera vez, un VLA puramente preentrenado con videos humanos logra una manipulación hábil, y un fino ajuste con pocos datos permite el despliegue exitoso

Resumen

Estableciendo la conexión entre videos humanos y datos robóticos

Anotación de movimiento 3D: Recuperación precisa de trayectorias de manos y cámara

Segmentación de acciones a nivel atómico: División natural basada en mínimos de velocidad

Anotación de instrucciones: Descripción precisa de acciones combinando trayectorias 3D

Logrando una poderosa predicción con cero ejemplos y generalización en el mundo real

1. Arquitectura del modelo que combina VLM con un experto en acciones por difusión

2. Predicción de acciones manuales con cero ejemplos: Mostrando capacidades sorprendentes en entornos no vistos

3. Manipulación hábil en robots reales: Implementación eficiente con un fino ajuste de pocos datos

Soporte central de hardware para el despliegue de VITRA en el mundo real

Conexión fluida entre URDF de alta precisión y el espacio de acción de la mano humana

Arquitectura de accionamiento directo total y respuesta de alta frecuencia: Ejecución perfecta de operaciones hábiles complejas

Array de sensores rico: Reservando espacio para la percepción multimodal futura

La ley de escala de la cantidad de datos

Criptos en tendencia

Preguntas relacionadas

Lecturas Relacionadas

Entrevista con un ejecutivo de Robinhood: Meme + Tokenización de acciones de EE.UU. como estrategia de adquisición de clientes "en forma de pesa", todas las líneas de negocio generan ingresos por valor de cientos de millones

Informe de Fidelity Q3: BTC, ETH y SOL continúan formando su base, ¿cuánto durará este mercado bajista de cripto?

¿Cómo se comportaron Bitcoin y Ethereum en agosto? Aquí están los hechos clave que necesitas saber

Senador propone crear una oficina para combatir el negocio de criptomonedas de Trump

Director ejecutivo de HIVE: Los GPU para IA generan 10 veces más ingresos por hora que las granjas de minería

Trading

Artículos destacados

Cómo comprar CORE

Discusiones

Categorías populares

Etiquetas Populares