Première mondiale : un VLA pré-entraîné sur des vidéos humaines pures pour une manipulation habile, déployable après un finetuning avec peu de données

marsbitPublié le 2026-06-08Dernière mise à jour le 2026-06-08

Résumé

Pour la première fois, une étude démontre l'utilisation exclusive de vidéos humaines pour le pré-entraînement d'un modèle Vision-Langage-Action (VLA) destiné à la manipulation robotique dextre. Le cadre VITRA, développé par Microsoft Research Asie et l'Université Tsinghua, convertit automatiquement de vastes quantités de vidéos d'activités humaines non étiquetées en un ensemble de données V-L-A aligné, comprenant 1 million de clips. Le processus automatique repose sur trois piliers : l'annotation 3D des mouvements de la main, la segmentation des actions atomiques basée sur la vitesse, et la génération d'instructions linguistiques par un VLM (comme GPT-4) guidé par la trajectoire. Pré-entraîné sur ces données humaines diversifiées, le modèle VLA (combinant un VLM et un expert d'actions par diffusion) montre une forte capacité de prédiction d'actions en situation de zéro-shot dans des environnements inédits. Après un micro-ajout nécessitant seulement ~1.2k démonstrations robotiques réelles, il réussit à déployer sur un véritable robot (équipé de la main dextre StarMove XHAND1) des tâches complexes comme saisir, placer, verser ou balayer, avec un taux de réussite élevé et une robustesse remarquable face à de nouveaux objets et arrière-plans. Cette approche réduit considérablement le coût d'acquisition des données robotiques et ouvre la voie à des systèmes d'intelligence incarnée plus généralisables.

Réaliser des capacités de manipulation habile au niveau humain est l'un des défis fondamentaux de longue date en robotique.

Bien que les mains robotiques multi-doigts aient un potentiel similaire aux mains humaines sur le plan matériel, en raison du coût élevé d'acquisition de données d'action robotique de haute qualité, les modèles vision-langage-action (VLA) existants sont largement inférieurs aux grands modèles de langage (LLM) et aux modèles vision-langage (VLM) en termes d'échelle et de diversité des données, et peinent à répondre aux exigences des tâches complexes du monde réel.

Une nouvelle étude du Microsoft Research Asia (MSRA) en collaboration avec l'Université Tsinghua, intitulée "Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos", propose un cadre de pré-entraînement innovant, VITRA, pour résoudre ce problème clé.

La contribution principale de cette recherche réside dans la proposition d'une solution entièrement automatisée pour transformer des volumes massifs de vidéos non annotées d'activités humaines réelles en données parfaitement alignées avec le format des données d'entraînement V-L-A robotiques existantes.

En extrayant les trajectoires de mouvement 3D des mains des vidéos, en effectuant une segmentation d'actions atomiques et en générant automatiquement des instructions langagières, l'équipe de recherche a construit un jeu de données V-L-A pour les mains à très grande échelle, contenant 1 million de clips et 26 millions d'images.

Après un pré-entraînement exclusivement sur des données vidéo humaines, le modèle a démontré de puissantes capacités de prédiction d'actions manuelles en zéro-shot (Zero-Shot) dans des environnements réels totalement inédits.

Avec seulement un léger finetuning utilisant peu de données robotiques réelles, le modèle a pu réaliser des manipulations habiles avec un taux de réussite élevé sur un vrai robot, montrant une capacité de généralisation extrêmement forte face à de nouveaux objets et environnements.

Voici plus de détails.

Établir le lien de transformation des vidéos humaines aux données robotiques

Le problème central de l'article est de savoir comment surmonter l'énorme écart entre les vidéos humaines non structurées et les données robotiques structurées, afin d'en extraire des étiquettes d'action et des instructions langagières de haute qualité utilisables pour le pré-entraînement de modèles VLA.

Cette étude a construit un système complet composé de trois technologies clés, réalisant une transformation transparente des vidéos brutes aux données V-L-A.

Annotation de mouvement 3D : Restauration précise des trajectoires de la main et de la caméra

Restaurer un mouvement précis de la main en 3D à partir de vidéos monoculaires, non calibrées et potentiellement mobiles est une tâche extrêmement difficile.

L'étude propose une méthode de suivi de pose de la caméra et de la main monoculaire basée sur les dernières technologies de vision 3D :

Tout d'abord, l'état de la caméra est déterminé par le flux optique de fond, et ses paramètres intrinsèques sont estimés.

Ensuite, la pose de la caméra est suivie à l'aide d'un SLAM visuel profond et d'un modèle d'estimation de la profondeur, et un modèle de reconstruction de la main est utilisé pour extraire la pose 3D de la main dans l'espace de la caméra pour chaque image (incluant la pose 6D du poignet et les angles de toutes les articulations).

Enfin, ces informations sont combinées pour obtenir la trajectoire de mouvement 3D de la main dans l'espace mondial.

Cette méthode fournit non seulement des étiquettes d'action de haute précision, mais jette également les bases de la segmentation d'actions et de l'annotation d'instructions ultérieures.

Segmentation d'actions atomiques : Découpage naturel basé sur les minima de vitesse

Les données V-L-A robotiques existantes sont généralement composées de tâches atomiques simples et à courte portée. Comment segmenter précisément ces actions atomiques à partir de longues vidéos est un défi.

L'équipe de recherche s'est inspirée du rythme naturel des actions humaines, proposant un algorithme de segmentation simple et efficace : découpage basé sur les minima de vitesse de déplacement de la main dans l'espace 3D.

Lors des transitions d'action, la main humaine présente généralement des changements de vitesse, les minima de vitesse marquant souvent le changement d'action.

En détectant les minima de vitesse de la trajectoire 3D du poignet dans l'espace mondial, cette méthode peut découper efficacement de longues vidéos en courts clips contenant une seule action atomique, sans nécessiter aucune annotation manuelle ou inférence de modèle supplémentaire.

Annotation d'instructions : Description d'action précise combinant la trajectoire 3D

Pour générer des instructions langagières précises pour les clips vidéo segmentés, l'équipe de recherche a habilement combiné un modèle vision-langage (VLM) et la trajectoire 3D de la main.

Pour chaque clip vidéo, le système échantillonne uniformément 8 images et projette/superpose la trajectoire 3D de la paume sur ces images.

Ensuite, ces images avec la trajectoire mise en évidence sont fournies à GPT-4, avec l'invite de décrire l'action de la main spécifiée sous forme de phrase impérative, en combinant le contenu de l'image et les informations de trajectoire.

L'expérience prouve que fournir des clips vidéo atomiques avec la trajectoire 3D de la main superposée améliore significativement la précision des descriptions d'action générées par GPT.

Réaliser une puissante prédiction en zéro-shot et une généralisation au monde réel

Basé sur l'ensemble de données V-L-A pour les mains humaines à très grande échelle construit automatiquement ci-dessus, l'équipe de recherche a conçu et entraîné un modèle VLA spécialement conçu pour la manipulation habile.

1. Architecture du modèle combinant VLM et expert en actions par diffusion

Ce modèle VLA est composé d'un réseau de base VLM (PaliGemma-2) et d'un expert en actions par diffusion (Diffusion Transformer, DiT).

Le VLM reçoit l'observation visuelle, l'instruction langagière et l'information sur l'angle de champ de vision (FoV) de la caméra, et émet une "fonction cognitive" (Cognition Feature).

L'expert en actions par diffusion reçoit cette fonction cognitive, l'état actuel de la main et un bloc de bruit d'actions avec masque, et prédit la séquence future d'actions de la main via un débruitage itératif.

Pour traiter les actions rapides de la main humaine et s'adapter aux données de clips courts, le modèle utilise un mécanisme d'attention causale (Causal Attention) pour le débruitage des actions, garantissant que la prédiction de chaque étape d'action ne dépend que des actions précédentes, évitant ainsi efficacement l'impact négatif du remplissage par des zéros.

2. Prédiction d'actions manuelles en zéro-shot : Capacités impressionnantes dans des environnements inédits

Dans des environnements de vie réelle totalement inédits, le modèle pré-entraîné a démontré une puissante capacité de prédiction d'actions manuelles en zéro-shot.

Dans les évaluations des tâches de préhension et des tâches générales de prédiction d'actions, ce modèle surpasse significativement les modèles entraînés sur des données collectées en environnement de laboratoire (comme EgoDex), ainsi que les modèles entraînés avec des données humaines annotées brutes.

Cela prouve amplement que le pré-entraînement sur des vidéos de vie réelle massives et diversifiées peut considérablement améliorer la capacité de généralisation du modèle face à des environnements complexes et des objets inconnus.

3. Manipulation habile sur robot réel : Déploiement efficace avec peu de données de finetuning

Pour le déploiement sur un robot réel, l'équipe de recherche a aligné l'espace d'actions de la main humaine avec celui de la main robotique habile (comme le Realman équipé de la XHAND1 de XingDong).

Seul un léger finetuning du modèle pré-entraîné avec peu de données de téléopération robotique réelle (environ 1,2K échantillons) est nécessaire pour exécuter dans le monde réel diverses tâches de manipulation habile, incluant la saisie, le placement, le versement et le balayage.

Les résultats expérimentaux montrent que, comparée aux modèles non pré-entraînés sur des données VLA humaines ou pré-entraînés sur d'autres jeux de données (comme OXE, EgoDex), cette méthode obtient une amélioration significative du taux de réussite des tâches, démontrant notamment une robustesse exceptionnelle face à des objets et arrière-plans jamais vus.

Le support matériel clé du déploiement de VITRA dans le monde réel

Si le cadre VITRA peut réaliser une capacité de généralisation impressionnante sur un robot réel, cela est dû non seulement à l'innovation algorithmique, mais aussi au soutien puissant du matériel sous-jacent —

La XHAND1 de XingDong, première main habile à cinq doigts à entraînement direct (full direct-drive) développée en interne en Chine.

Ce cadre et les caractéristiques matérielles de la XHAND1 de XingDong forment une parfaite "synergie logiciel-matériel", présentant des avantages de déploiement irremplaçables dans les scénarios d'application réels.

URDF haute précision et connexion transparente avec l'espace d'actions de la main humaine

La percée principale du cadre VITRA réside dans l'alignement de l'espace d'actions de la main humaine avec celui de la main robotique habile.

La XHAND1 de XingDong fournit officiellement un modèle URDF de très haute précision, décrivant non seulement avec précision les paramètres de mouvement et de dynamique, mais mappant également parfaitement la distribution spatiale des articulations de la main humaine.

Ce support de modèle de niveau "jumeau numérique" permet à VITRA, lors de la phase de finetuning, de mapper avec précision les angles des articulations humaines vers les articulations correspondantes de la XHAND1, réduisant ainsi considérablement le fossé entre la vidéo humaine et le matériel réel, et garantissant un déploiement efficace de la stratégie pré-entraînée sur le matériel réel.

Architecture à entraînement direct et réponse haute fréquence : Exécution parfaite d'opérations habiles complexes

Pour exécuter des tâches de manipulation habile complexes comme le versement ou le balayage, le robot doit posséder une capacité de réponse dynamique extrêmement élevée.

L'architecture à moteurs à entraînement direct (Direct-Drive) adoptée par la XHAND1 de XingDong fournit la base matérielle idéale pour cet algorithme.

La conception à entraînement direct élimine fondamentalement les frottements importants, la latence et les interférences non linéaires induits par les réducteurs traditionnels, conférant à la main habile une capacité de réponse dynamique ultra-sensible. Cela permet à la XHAND1 d'exécuter instantanément et avec précision les instructions d'action émises par le modèle VITRA, et de manipuler en toute sécurité divers objets inconnus.

Réseau de capteurs riche : Réserver de l'espace pour la perception multimodale future

Bien que le modèle VITRA actuel s'appuie principalement sur l'entrée visuelle, le riche réseau de capteurs de la XHAND1 de XingDong (comme les réseaux tactiles haute résolution) réserve un espace important pour la perception multimodale future.

Combinée aux puissantes capacités de perception matérielle de la XHAND1, les futurs modèles VLA pourront potentiellement intégrer davantage de retours tactiles pour traiter des tâches plus fines et complexes de "déplacement des doigts (Finger Gaits)".

La loi d'échelle de la taille des données

Cette étude explore également en profondeur l'impact de l'échelle des données de pré-entraînement sur les performances du modèle.

L'expérience a révélé qu'avec l'augmentation du volume de données de pré-entraînement, l'erreur du modèle dans les tâches de prédiction d'actions manuelles en zéro-shot diminue régulièrement, et son taux de réussite dans les tâches de manipulation robotique réelle augmente continuellement.

Ce comportement d'échelle évident (Scaling Behavior) indique qu'en augmentant davantage l'échelle des données vidéo humaines, il est possible d'améliorer continuellement les performances des modèles VLA.

Ce résultat marque une percée clé dans l'utilisation de vidéos humaines non structurées pour le pré-entraînement de modèles VLA robotiques.

En fournissant une solution de transformation de données entièrement automatisée, cette étude réduit considérablement le seuil d'obtention de données d'entraînement robotique de haute qualité, ouvrant la voie à l'application des mains habiles multi-doigts dans un éventail plus large de scénarios complexes réels, et établissant une base solide pour progresser vers une intelligence incarnée véritablement généralisée.

Lien vers l'article : https://arxiv.org/abs/2510.21571

Cet article provient du compte WeChat "量子位" (Quantum Bit), auteur : L'équipe VITRA

Questions liées

QQuel est le principal défi auquel répond le modèle VITRA dans le domaine de la robotique ?

AVITRA répond au défi de développer une capacité de manipulation habile de niveau humain pour les robots, en surmontant le manque de données robotiques structurées et de grande qualité grâce à un pré-entraînement sur des vidéos d'activités humaines réelles.

QComment le cadre VITRA transforme-t-il des vidéos humaines non structurées en données utilisables pour l'entraînement des modèles VLA ?

AVITRA utilise un pipeline automatisé en trois étapes : 1) Annotation 3D des mouvements de la main et de la caméra. 2) Segmentation des actions atomiques basée sur les minima de vitesse de la main. 3) Génération d'instructions linguistiques via un modèle comme GPT-4, enrichi par la trajectoire 3D superposée aux images.

QQuels résultats le modèle pré-entraîné sur des vidéos humaines a-t-il montré dans des environnements non vus ?

ALe modèle pré-entraîné a démontré de puissantes capacités de prédiction de mouvements de la main en 'zéro-shot' dans des environnements réels non vus, surpassant significativement les modèles entraînés uniquement sur des données de laboratoire ou avec des annotations humaines brutes.

QQuelle est l'importance de la main robotique 星动XHAND1 (Xingdong XHAND1) pour le déploiement de VITRA ?

ALa main robotique 星动XHAND1, avec son architecture à entraînement direct et son modèle URDF de haute précision, permet un alignement parfait de l'espace d'action avec la main humaine. Cela facilite le transfert et le réglage fin des politiques apprises, et sa réponse dynamique élevée est cruciale pour exécuter des manipulations complexes.

QQue révèle l'étude sur la relation entre l'échelle des données de pré-entraînement et les performances du modèle ?

AL'étude a observé une 'loi d'échelle' claire : à mesure que le volume des données de pré-entraînement sur vidéos humaines augmente, l'erreur de prédiction des mouvements en zéro-shot diminue et le taux de réussite des tâches robotiques réelles augmente continuellement, suggérant un potentiel d'amélioration continue avec davantage de données.

Lectures associées

L'IA rend la fraude indétectable : comment les utilisateurs de crypto peuvent-ils se protéger face aux nouvelles arnaques ?

L'essor de l'IA a considérablement amélioré la sophistication des escroqueries dans l'espace crypto, rendant obsolètes les anciennes méthodes de détection basées sur les fautes d'orthographe ou un langage maladroit. Les fraudeurs utilisent désormais des outils d'IA pour générer des textes fluides, des sites web et des supports de communication très convaincants, et personnalisent leurs attaques en utilisant des données fuites. Pour les utilisateurs de crypto-actifs, où les transactions sont irréversibles, cette évolution représente un risque accru. Les escroqueries courantes incluent de faux sites d'airdrop, des pages de connexion imitant des exchanges, et des autorisations de portefeuille malveillantes. La défense clé ne réside plus dans l'apparence, mais dans une vérification systématique : 1. **Vérifiez scrupuleusement les URL des sites web** et utilisez toujours vos signets officiels. 2. **Privilégiez les liens provenant de canaux officiels** et méfiez-vous des messages privés non sollicités. 3. **Examinez chaque autorisation de portefeuille** avant de signer, en particulier les autorisations infinies. 4. **Vérifiez tous les détails d'une transaction** (adresse, montant, contrat) avant confirmation. 5. **Confirmez les adresses de contrat des jetons** via des sources officielles, et ne vous fiez pas uniquement à leur nom ou icône. 6. **Ignorez les messages urgents de "support"** vous incitant à agir rapidement ; les équipes officielles ne demandent jamais vos clés privées. 7. **Méfiez-vous de tout sentiment d'urgence** créé par les fraudeurs pour brouiller votre jugement. En résumé, la sécurité dans l'ère de l'IA est une bataille de vérification. Un contenu bien rédigé ou une interface professionnelle ne sont plus des gages de légitimité. La règle d'or est de toujours vérifier de manière indépendante avant toute interaction.

marsbitIl y a 21 mins

L'IA rend la fraude indétectable : comment les utilisateurs de crypto peuvent-ils se protéger face aux nouvelles arnaques ?

marsbitIl y a 21 mins

Éteignez l'IA avant l'entretien : Quel genre de personne Anthropic cherche-t-elle à recruter ?

"Éteignez l'IA pour passer l'entretien : Que recherche Anthropic ?" Alors qu'Anthropic, valorisée à 965 milliards de dollars, est devenue la start-up d'IA la plus chère au monde, ses méthodes de recrutement sont singulières. L'entretien, en cinq tours, interdit strictement l'usage de l'IA. Le tour décisif est l'entretien "culturel", évaluant les valeurs, la vision du monde et la perception des risques liés à l'IA par le candidat. Il peut être conduit par n'importe quel employé et dispose d'un droit de veto. Les questions, personnelles et poussées, testent la capacité à défendre ses convictions face au défi. Présidente Daniela Amodei demande par exemple : "Quelles croyances inhabituelles avez-vous ?" L'objectif est de vérifier si les jugements et convictions du candidat sont authentiques, et non externalisés. Cette approche contraste avec celle de Google, qui teste désormais la "maîtrise de l'IA" de ses candidats lors des entretiens techniques. Anthropic estime qu'au contraire, le moment de l'entretien est justement celui où il faut retirer l'IA. Dans un monde où l'exécution devient gratuite grâce à l'IA, la société cherche ce qui devient rare : des individus capables de pensée critique autonome, d'engagement profond sur des questions éthiques et possédant des convictions qu'ils "portent" véritablement, au-delà de simplement les "avoir". Ainsi, Anthropic ne recherche pas seulement des personnes sachant utiliser l'IA, mais surtout celles qui, une fois l'IA éteinte, ont encore quelque chose à apporter. Cette philosophie contribue à un taux de rétention des employés de 80% sur deux ans, le plus élevé du secteur.

marsbitIl y a 26 mins

Éteignez l'IA avant l'entretien : Quel genre de personne Anthropic cherche-t-elle à recruter ?

marsbitIl y a 26 mins

Adieu aux hausses et baisses traditionnelles, le marché entre dans l'ère de la rotation des bulles

L'auteur compare les marchés financiers modernes à des systèmes de tempêtes convectives, où des bulles spéculatives se succèdent rapidement, contrairement aux cycles traditionnels longs de haussiers et de baissiers. Il identifie huit transformations structurelles permanentes à l'origine de cette nouvelle dynamique : la spéculation démocratisée (participation accrue des particuliers via des applications de trading), l'achat perpétuel passif (épargne-retraite automatisée), la domination des fonds indiciels et du trading haute fréquence, la répression artificielle de la volatilité, la modification de la composition des indices (vers des entreprises à forte narrativa), la disparition des délais d'information et l'environnement monétaire et fiscal accommodant. Dans ce paysage, des thèmes comme l'IA, la robotique ou la cryptomonnaie connaissent des cycles rapides : accumulation d'énergie latente, déclenchement par un catalyseur, formation d'un récit de marché, divergence des opinions, puis éclatement. Les capitaux libérés alimentent alors la bulle suivante. Pour prospérer, deux profils sont avantagés : les experts capables d'évaluer la viabilité fondamentale d'une technologie, et les observateurs de tendances qui suivent les flux. L'auteur souligne que ce nouvel environnement est une norme durable et invite les investisseurs à adopter une vue d'ensemble pour ne pas être submergés par l'émotion d'une bulle isolée.

marsbitIl y a 34 mins

Adieu aux hausses et baisses traditionnelles, le marché entre dans l'ère de la rotation des bulles

marsbitIl y a 34 mins

La bonne façon d'utiliser les Skill : 5 réflexions après la publication de la méthodologie interne d'Anthropic

L'article, inspiré par les leçons d'Anthropic sur le développement de Claude Code, propose cinq réflexions clés sur la conception et l'utilisation efficaces des "Skills" (compétences) pour les assistants IA. **#01 Évitez les banalités :** Un Skill doit capturer des connaissances implicites et spécifiques, comme les "Gotchas" (pièges courants), et non des informations déjà connues du modèle. C'est l'expérience des experts qu'il faut documenter. **#02 Le Skill comme "Context Engineering" :** Un Skill n'est pas un simple fichier, mais une structure de dossiers (SKILL.md, références, scripts, exemples, assets). Cette organisation permet d'exposer progressivement le contexte au modèle, évitant de surcharger son contexte avec des informations inutiles à chaque appel. **#03 Privilégiez les scripts :** Pour les tâches répétitives et éprouvées, il est plus efficace et précis de fournir des scripts exécutables plutôt que de longues instructions. Les scripts cristallisent les meilleures pratiques, laissant au modèle sa capacité de raisonnement pour l'analyse et le jugement. **#04 La Description comme règle de routage :** La description d'un Skill doit décrire l'intention de l'utilisateur ou la situation déclenchante ("le CI est cassé"), et non énumérer ses fonctionnalités. Elle guide le modèle pour charger le Skill approprié au bon moment. **#05 Gestion et distribution des Skills :** Pour les petites équipes, partager les Skills dans un dépôt de code suffit. À plus grande échelle, une approche organique comme un "Marketplace" interne est recommandée : les Skills se diffusent d'abord par l'usage, et ceux adoptés par beaucoup intègrent naturellement le catalogue officiel, assurant leur pertinence.

marsbitIl y a 54 mins

La bonne façon d'utiliser les Skill : 5 réflexions après la publication de la méthodologie interne d'Anthropic

marsbitIl y a 54 mins

Trading

Spot
Futures

Articles tendance

Comment acheter CORE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter CORE (CORE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément CORE (CORE).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos CORE (CORE)Après avoir acheté vos CORE (CORE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des CORE (CORE)Tradez facilement CORE (CORE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

372 vues totalesPublié le 2024.12.13Mis à jour le 2026.06.02

Comment acheter CORE

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de CORE (CORE) sont présentées ci-dessous.

活动图片