Première mondiale : un VLA pré-entraîné sur des vidéos humaines pures pour une manipulation habile, déployable après un finetuning avec peu de données

marsbitPublié le 2026-06-08Dernière mise à jour le 2026-06-08

Résumé

Pour la première fois, une étude démontre l'utilisation exclusive de vidéos humaines pour le pré-entraînement d'un modèle Vision-Langage-Action (VLA) destiné à la manipulation robotique dextre. Le cadre VITRA, développé par Microsoft Research Asie et l'Université Tsinghua, convertit automatiquement de vastes quantités de vidéos d'activités humaines non étiquetées en un ensemble de données V-L-A aligné, comprenant 1 million de clips. Le processus automatique repose sur trois piliers : l'annotation 3D des mouvements de la main, la segmentation des actions atomiques basée sur la vitesse, et la génération d'instructions linguistiques par un VLM (comme GPT-4) guidé par la trajectoire. Pré-entraîné sur ces données humaines diversifiées, le modèle VLA (combinant un VLM et un expert d'actions par diffusion) montre une forte capacité de prédiction d'actions en situation de zéro-shot dans des environnements inédits. Après un micro-ajout nécessitant seulement ~1.2k démonstrations robotiques réelles, il réussit à déployer sur un véritable robot (équipé de la main dextre StarMove XHAND1) des tâches complexes comme saisir, placer, verser ou balayer, avec un taux de réussite élevé et une robustesse remarquable face à de nouveaux objets et arrière-plans. Cette approche réduit considérablement le coût d'acquisition des données robotiques et ouvre la voie à des systèmes d'intelligence incarnée plus généralisables.

Réaliser des capacités de manipulation habile au niveau humain est l'un des défis fondamentaux de longue date en robotique.

Bien que les mains robotiques multi-doigts aient un potentiel similaire aux mains humaines sur le plan matériel, en raison du coût élevé d'acquisition de données d'action robotique de haute qualité, les modèles vision-langage-action (VLA) existants sont largement inférieurs aux grands modèles de langage (LLM) et aux modèles vision-langage (VLM) en termes d'échelle et de diversité des données, et peinent à répondre aux exigences des tâches complexes du monde réel.

Une nouvelle étude du Microsoft Research Asia (MSRA) en collaboration avec l'Université Tsinghua, intitulée "Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos", propose un cadre de pré-entraînement innovant, VITRA, pour résoudre ce problème clé.

La contribution principale de cette recherche réside dans la proposition d'une solution entièrement automatisée pour transformer des volumes massifs de vidéos non annotées d'activités humaines réelles en données parfaitement alignées avec le format des données d'entraînement V-L-A robotiques existantes.

En extrayant les trajectoires de mouvement 3D des mains des vidéos, en effectuant une segmentation d'actions atomiques et en générant automatiquement des instructions langagières, l'équipe de recherche a construit un jeu de données V-L-A pour les mains à très grande échelle, contenant 1 million de clips et 26 millions d'images.

Après un pré-entraînement exclusivement sur des données vidéo humaines, le modèle a démontré de puissantes capacités de prédiction d'actions manuelles en zéro-shot (Zero-Shot) dans des environnements réels totalement inédits.

Avec seulement un léger finetuning utilisant peu de données robotiques réelles, le modèle a pu réaliser des manipulations habiles avec un taux de réussite élevé sur un vrai robot, montrant une capacité de généralisation extrêmement forte face à de nouveaux objets et environnements.

Voici plus de détails.

Établir le lien de transformation des vidéos humaines aux données robotiques

Le problème central de l'article est de savoir comment surmonter l'énorme écart entre les vidéos humaines non structurées et les données robotiques structurées, afin d'en extraire des étiquettes d'action et des instructions langagières de haute qualité utilisables pour le pré-entraînement de modèles VLA.

Cette étude a construit un système complet composé de trois technologies clés, réalisant une transformation transparente des vidéos brutes aux données V-L-A.

△

Annotation de mouvement 3D : Restauration précise des trajectoires de la main et de la caméra

Restaurer un mouvement précis de la main en 3D à partir de vidéos monoculaires, non calibrées et potentiellement mobiles est une tâche extrêmement difficile.

L'étude propose une méthode de suivi de pose de la caméra et de la main monoculaire basée sur les dernières technologies de vision 3D :

Tout d'abord, l'état de la caméra est déterminé par le flux optique de fond, et ses paramètres intrinsèques sont estimés.

Ensuite, la pose de la caméra est suivie à l'aide d'un SLAM visuel profond et d'un modèle d'estimation de la profondeur, et un modèle de reconstruction de la main est utilisé pour extraire la pose 3D de la main dans l'espace de la caméra pour chaque image (incluant la pose 6D du poignet et les angles de toutes les articulations).

Enfin, ces informations sont combinées pour obtenir la trajectoire de mouvement 3D de la main dans l'espace mondial.

Cette méthode fournit non seulement des étiquettes d'action de haute précision, mais jette également les bases de la segmentation d'actions et de l'annotation d'instructions ultérieures.

Segmentation d'actions atomiques : Découpage naturel basé sur les minima de vitesse

Les données V-L-A robotiques existantes sont généralement composées de tâches atomiques simples et à courte portée. Comment segmenter précisément ces actions atomiques à partir de longues vidéos est un défi.

L'équipe de recherche s'est inspirée du rythme naturel des actions humaines, proposant un algorithme de segmentation simple et efficace : découpage basé sur les minima de vitesse de déplacement de la main dans l'espace 3D.

Lors des transitions d'action, la main humaine présente généralement des changements de vitesse, les minima de vitesse marquant souvent le changement d'action.

En détectant les minima de vitesse de la trajectoire 3D du poignet dans l'espace mondial, cette méthode peut découper efficacement de longues vidéos en courts clips contenant une seule action atomique, sans nécessiter aucune annotation manuelle ou inférence de modèle supplémentaire.

Annotation d'instructions : Description d'action précise combinant la trajectoire 3D

Pour générer des instructions langagières précises pour les clips vidéo segmentés, l'équipe de recherche a habilement combiné un modèle vision-langage (VLM) et la trajectoire 3D de la main.

Pour chaque clip vidéo, le système échantillonne uniformément 8 images et projette/superpose la trajectoire 3D de la paume sur ces images.

Ensuite, ces images avec la trajectoire mise en évidence sont fournies à GPT-4, avec l'invite de décrire l'action de la main spécifiée sous forme de phrase impérative, en combinant le contenu de l'image et les informations de trajectoire.

L'expérience prouve que fournir des clips vidéo atomiques avec la trajectoire 3D de la main superposée améliore significativement la précision des descriptions d'action générées par GPT.

Réaliser une puissante prédiction en zéro-shot et une généralisation au monde réel

Basé sur l'ensemble de données V-L-A pour les mains humaines à très grande échelle construit automatiquement ci-dessus, l'équipe de recherche a conçu et entraîné un modèle VLA spécialement conçu pour la manipulation habile.

△

1. Architecture du modèle combinant VLM et expert en actions par diffusion

Ce modèle VLA est composé d'un réseau de base VLM (PaliGemma-2) et d'un expert en actions par diffusion (Diffusion Transformer, DiT).

Le VLM reçoit l'observation visuelle, l'instruction langagière et l'information sur l'angle de champ de vision (FoV) de la caméra, et émet une "fonction cognitive" (Cognition Feature).

L'expert en actions par diffusion reçoit cette fonction cognitive, l'état actuel de la main et un bloc de bruit d'actions avec masque, et prédit la séquence future d'actions de la main via un débruitage itératif.

Pour traiter les actions rapides de la main humaine et s'adapter aux données de clips courts, le modèle utilise un mécanisme d'attention causale (Causal Attention) pour le débruitage des actions, garantissant que la prédiction de chaque étape d'action ne dépend que des actions précédentes, évitant ainsi efficacement l'impact négatif du remplissage par des zéros.

2. Prédiction d'actions manuelles en zéro-shot : Capacités impressionnantes dans des environnements inédits

Dans des environnements de vie réelle totalement inédits, le modèle pré-entraîné a démontré une puissante capacité de prédiction d'actions manuelles en zéro-shot.

△

Dans les évaluations des tâches de préhension et des tâches générales de prédiction d'actions, ce modèle surpasse significativement les modèles entraînés sur des données collectées en environnement de laboratoire (comme EgoDex), ainsi que les modèles entraînés avec des données humaines annotées brutes.

Cela prouve amplement que le pré-entraînement sur des vidéos de vie réelle massives et diversifiées peut considérablement améliorer la capacité de généralisation du modèle face à des environnements complexes et des objets inconnus.

3. Manipulation habile sur robot réel : Déploiement efficace avec peu de données de finetuning

Pour le déploiement sur un robot réel, l'équipe de recherche a aligné l'espace d'actions de la main humaine avec celui de la main robotique habile (comme le Realman équipé de la XHAND1 de XingDong).

△

Seul un léger finetuning du modèle pré-entraîné avec peu de données de téléopération robotique réelle (environ 1,2K échantillons) est nécessaire pour exécuter dans le monde réel diverses tâches de manipulation habile, incluant la saisie, le placement, le versement et le balayage.

Les résultats expérimentaux montrent que, comparée aux modèles non pré-entraînés sur des données VLA humaines ou pré-entraînés sur d'autres jeux de données (comme OXE, EgoDex), cette méthode obtient une amélioration significative du taux de réussite des tâches, démontrant notamment une robustesse exceptionnelle face à des objets et arrière-plans jamais vus.

Le support matériel clé du déploiement de VITRA dans le monde réel

Si le cadre VITRA peut réaliser une capacité de généralisation impressionnante sur un robot réel, cela est dû non seulement à l'innovation algorithmique, mais aussi au soutien puissant du matériel sous-jacent —

La XHAND1 de XingDong, première main habile à cinq doigts à entraînement direct (full direct-drive) développée en interne en Chine.

Ce cadre et les caractéristiques matérielles de la XHAND1 de XingDong forment une parfaite "synergie logiciel-matériel", présentant des avantages de déploiement irremplaçables dans les scénarios d'application réels.

△

URDF haute précision et connexion transparente avec l'espace d'actions de la main humaine

La percée principale du cadre VITRA réside dans l'alignement de l'espace d'actions de la main humaine avec celui de la main robotique habile.

La XHAND1 de XingDong fournit officiellement un modèle URDF de très haute précision, décrivant non seulement avec précision les paramètres de mouvement et de dynamique, mais mappant également parfaitement la distribution spatiale des articulations de la main humaine.

Ce support de modèle de niveau "jumeau numérique" permet à VITRA, lors de la phase de finetuning, de mapper avec précision les angles des articulations humaines vers les articulations correspondantes de la XHAND1, réduisant ainsi considérablement le fossé entre la vidéo humaine et le matériel réel, et garantissant un déploiement efficace de la stratégie pré-entraînée sur le matériel réel.

Architecture à entraînement direct et réponse haute fréquence : Exécution parfaite d'opérations habiles complexes

Pour exécuter des tâches de manipulation habile complexes comme le versement ou le balayage, le robot doit posséder une capacité de réponse dynamique extrêmement élevée.

L'architecture à moteurs à entraînement direct (Direct-Drive) adoptée par la XHAND1 de XingDong fournit la base matérielle idéale pour cet algorithme.

La conception à entraînement direct élimine fondamentalement les frottements importants, la latence et les interférences non linéaires induits par les réducteurs traditionnels, conférant à la main habile une capacité de réponse dynamique ultra-sensible. Cela permet à la XHAND1 d'exécuter instantanément et avec précision les instructions d'action émises par le modèle VITRA, et de manipuler en toute sécurité divers objets inconnus.

Réseau de capteurs riche : Réserver de l'espace pour la perception multimodale future

Bien que le modèle VITRA actuel s'appuie principalement sur l'entrée visuelle, le riche réseau de capteurs de la XHAND1 de XingDong (comme les réseaux tactiles haute résolution) réserve un espace important pour la perception multimodale future.

Combinée aux puissantes capacités de perception matérielle de la XHAND1, les futurs modèles VLA pourront potentiellement intégrer davantage de retours tactiles pour traiter des tâches plus fines et complexes de "déplacement des doigts (Finger Gaits)".

La loi d'échelle de la taille des données

Cette étude explore également en profondeur l'impact de l'échelle des données de pré-entraînement sur les performances du modèle.

△

L'expérience a révélé qu'avec l'augmentation du volume de données de pré-entraînement, l'erreur du modèle dans les tâches de prédiction d'actions manuelles en zéro-shot diminue régulièrement, et son taux de réussite dans les tâches de manipulation robotique réelle augmente continuellement.

Ce comportement d'échelle évident (Scaling Behavior) indique qu'en augmentant davantage l'échelle des données vidéo humaines, il est possible d'améliorer continuellement les performances des modèles VLA.

Ce résultat marque une percée clé dans l'utilisation de vidéos humaines non structurées pour le pré-entraînement de modèles VLA robotiques.

En fournissant une solution de transformation de données entièrement automatisée, cette étude réduit considérablement le seuil d'obtention de données d'entraînement robotique de haute qualité, ouvrant la voie à l'application des mains habiles multi-doigts dans un éventail plus large de scénarios complexes réels, et établissant une base solide pour progresser vers une intelligence incarnée véritablement généralisée.

Lien vers l'article : https://arxiv.org/abs/2510.21571

Cet article provient du compte WeChat "量子位" (Quantum Bit), auteur : L'équipe VITRA

Cryptos en tendance

CitreaCTR

wrapped stUSDTWSTUSDT

Questions liées

QQuel est le principal défi auquel répond le modèle VITRA dans le domaine de la robotique ?

AVITRA répond au défi de développer une capacité de manipulation habile de niveau humain pour les robots, en surmontant le manque de données robotiques structurées et de grande qualité grâce à un pré-entraînement sur des vidéos d'activités humaines réelles.

QComment le cadre VITRA transforme-t-il des vidéos humaines non structurées en données utilisables pour l'entraînement des modèles VLA ?

AVITRA utilise un pipeline automatisé en trois étapes : 1) Annotation 3D des mouvements de la main et de la caméra. 2) Segmentation des actions atomiques basée sur les minima de vitesse de la main. 3) Génération d'instructions linguistiques via un modèle comme GPT-4, enrichi par la trajectoire 3D superposée aux images.

QQuels résultats le modèle pré-entraîné sur des vidéos humaines a-t-il montré dans des environnements non vus ?

ALe modèle pré-entraîné a démontré de puissantes capacités de prédiction de mouvements de la main en 'zéro-shot' dans des environnements réels non vus, surpassant significativement les modèles entraînés uniquement sur des données de laboratoire ou avec des annotations humaines brutes.

QQuelle est l'importance de la main robotique 星动XHAND1 (Xingdong XHAND1) pour le déploiement de VITRA ?

ALa main robotique 星动XHAND1, avec son architecture à entraînement direct et son modèle URDF de haute précision, permet un alignement parfait de l'espace d'action avec la main humaine. Cela facilite le transfert et le réglage fin des politiques apprises, et sa réponse dynamique élevée est cruciale pour exécuter des manipulations complexes.

QQue révèle l'étude sur la relation entre l'échelle des données de pré-entraînement et les performances du modèle ?

AL'étude a observé une 'loi d'échelle' claire : à mesure que le volume des données de pré-entraînement sur vidéos humaines augmente, l'erreur de prédiction des mouvements en zéro-shot diminue et le taux de réussite des tâches robotiques réelles augmente continuellement, suggérant un potentiel d'amélioration continue avec davantage de données.

Lectures associées

Soudain, Google Earth retire en urgence la fonctionnalité de génération d'images Nano Banana 2 !

**Google Earth retire d'urgence la fonctionnalité de génération d'image Nano Banana 2** Google a brièvement intégré son dernier modèle de génération d'image, Nano Banana 2, à Google Earth, permettant aux utilisateurs de transformer, via de simples invites textuelles, des vues satellites ou aériennes en scènes historiques, visualisations architecturales ou créations futuristes, le tout ancré dans les contraintes géospatiales réelles (topographie, perspectives 3D). Cette technologie, baptisée « ancrage géospatial » (Geospatial Grounding), s'appuie sur les données cartographiques et les capacités de recherche de Google pour générer des images crédibles intégrées au paysage. Cependant, cette fonctionnalité a été rapidement retirée après son lancement. Bien que Google ait présenté des cas d'usage potentiels en éducation, tourisme ou urbanisme, les utilisateurs s'en sont rapidement emparés pour créer des contenus fantaisistes, comme transformer le Independence Hall de Philadelphie en ruine post-apocalyptique peuplée de zombies et de clowns maléfiques. Cette expérience, qualifiée par certains de « bouillie d'IA » (AI Slop) pour son manque de rigueur géométrique, a révélé des problèmes de modération. Google a indiqué retirer temporairement l'outil pour « renforcer les mesures de protection » avant un éventuel nouveau déploiement. Cette initiative place Google sur un terrain unique face à des concurrents comme Midjourney ou DALL-E : plutôt que de simplement « bien dessiner », il s'agit de « remodeler la Terre » de manière crédible en s'appuyant sur son immense base de données géographiques, créant ainsi un nouveau champ : la visualisation IA géo-an crée.

marsbitIl y a 1 h

Soudain, Google Earth retire en urgence la fonctionnalité de génération d'images Nano Banana 2 !

marsbitIl y a 1 h

Altman admet : surestimé la capacité de l'IA à voler des emplois ! Huang Renxun : La théorie du chômage est complètement à l'envers

Sam Altman, PDG d'OpenAI, a révisé sa position sur l'impact de l'IA sur l'emploi, reconnaissant avoir surestimé la vitesse à laquelle l'IA supprimerait les emplois de cols blancs juniors. Il affirme désormais que les gens « ne veulent pas vraiment d'un PDG IA » car ils veulent savoir qui prend les décisions et qui est responsable. Presque simultanément, Jensen Huang, PDG de NVIDIA, a déclaré que le récit selon lequel « l'IA détruit des emplois est complètement faux ». Il explique que l'IA automatise des *tâches* au sein d'un poste, mais pas le poste dans son ensemble, qui comprend des éléments comme la communication, le jugement et la responsabilité. Des données américaines montrent que le nombre d'offres d'emploi pour les nouveaux diplômés a augmenté, contredisant l'idée d'une disparition des postes juniors. Cependant, les tâches standardisées qui servaient de tremplin d'entrée sont automatisées, rendant l'accès initial au marché du travail plus difficile. La conclusion est que la valeur du travail humain se déplace vers les responsabilités, la confiance et la prise de décision finale – des domaines que l'IA ne peut pas assumer.

marsbitIl y a 1 h

Altman admet : surestimé la capacité de l'IA à voler des emplois ! Huang Renxun : La théorie du chômage est complètement à l'envers

marsbitIl y a 1 h

Une transformation majeure de la Fed ? Rapport : Walsh envisage de réduire la fréquence des réunions sur les taux, rompant avec une tradition de 40 ans

Le président de la Fed, Walsh, envisage de réduire la fréquence des réunions du Comité fédéral de l'open market (FOMC), ce qui constituerait un changement majeur dans son fonctionnement, en rupture avec la routine établie depuis 1981 de huit réunions par an. Selon des informations du New York Times, Walsh a évoqué cette idée lors de la réunion cette semaine. Un nouvel horaire pourrait être arrêté avant la prochaine réunion de septembre, bien que les changements concrets interviendraient plus tard. Réduire le nombre de réunions diminuerait les opportunités de voter sur les taux et pourrait affaiblir la capacité de réaction de la Fed face à l'évolution de l'économie, tout en réduisant la transparence de sa politique, inversant une tendance de plusieurs décennies. La loi bancaire de 1935 n'exige qu'un minimum de quatre réunions par an. Walsh avait précédemment déclaré au Congrès que quatre réunions étaient insuffisantes, ce qui contraste avec la direction actuelle des discussions. Le système actuel de huit réunions, instauré sous Paul Volcker, fournit un cadre prévisible. Moins de réunions signifierait moins d'occasions pour le marché de comprendre la trajectoire des taux. Cette initiative s'inscrit dans la volonté plus large de Walsh de réformer l'institution depuis sa prise de fonction en mai, notamment en réduisant la longueur des communiqués et en repensant les conférences de presse. Historiquement, la fréquence des réunions a varié, avec jusqu'à 19 réunions en 1956. Une évaluation interne de 1988 avait conclu que le rythme de huit réunions restait approprié. Le projet de Walsh irait à l'encontre de cette conclusion, et son impact potentiel sur la communication de la Fed et la flexibilité de sa politique sera surveillé de près.

marsbitIl y a 1 h

Une transformation majeure de la Fed ? Rapport : Walsh envisage de réduire la fréquence des réunions sur les taux, rompant avec une tradition de 40 ans

marsbitIl y a 1 h

Sélections hebdomadaires de la rédaction (25-31 juillet)

**Résumé éditorial hebdomadaire (25-31 juillet)** Face au flux incessant d'informations, cette sélection met en avant des analyses de fond pour filtrer le bruit et offrir des insights. **Marchés & Investissement :** La Réserve Fédérale américaine a maintenu ses taux lors d'une réunion jugée très incertaine, tiraillée entre des données inflationnistes en baisse et des positions d'hawks. Dans la cryptosphère, Real Vision réfléchit à la valeur à long terme des crypto-monnaies, soulignant l'importance de la conviction face à la volatilité. Une tendance se dessine : les marchés actions globaux, notamment technologiques, adoptent des dynamiques narratives similaires à celles des cryptos. Par ailleurs, la divergence entre la croissance des revenus des protocoles DeFi et la performance de leurs tokens est analysée. **AI & Stockage :** Les marchés s'interrogent sur les risques de crédit liés à l'expansion de l'infrastructure cloud IA, dont Nvidia est un acteur clé. Le secteur du stockage mémoire a connu une forte volatilité, les investisseurs anticipant dès maintenant un risque de surcapacité pour 2027. Le trimestre record de SK Hynix a été jugé « inférieur aux attentes », reflétant la pression sur les valorisations des leaders du secteur. **Politique & Règlementation :** Le Clarity Act, loi crypto américaine cruciale, est dans la dernière ligne droite mais bute sur des désaccords politiques, notamment sur les clauses d'éthique. Son adoption avant la fin de l'année apparaît incertaine. **CeFi, DeFi & Ethereum :** La plateforme TradeXYZ a démontré une précision remarquable pour le prix d'introduction de la société chinoise Changxin Technology. Du côté d'Ethereum, le protocole Lido a entamé une migration massive de plus de 8 millions d'ETH vers une nouvelle architecture de validateurs, un changement structurel pour le staking. **Points chauds de la semaine :** La Fed maintient ses taux ; le règlement MiCA entre en vigueur en Europe ; Sam Altman promet qu'OpenAI va « étonner le monde » dans l'année ; SpaceX a perdu 1 200 milliards de dollars de valorisation depuis son pic ; Apple rejoint le club des 5 000 milliards de dollars de capitalisation.

marsbitIl y a 1 h

Sélections hebdomadaires de la rédaction (25-31 juillet)

marsbitIl y a 1 h

Ne pas investir n'est pas un laissez-passer pour Apple

Face aux géants technologiques comme Meta et Google qui font face à des critiques pour leurs dépenses d'investissement massives dans l'IA, Apple, bien qu'en retard dans ce domaine, se distingue par sa retenue budgétaire. Cette approche lui a même permis de retrouver brièvement la première place mondiale en termes de valorisation boursière. Le rapport trimestriel (T3 2026) d'Apple affiche des performances solides, avec un chiffre d'affaires en hausse de 16,4% et un bénéfice net en progression de 27,1%. L'iPhone et le Mac sont les principaux moteurs de cette croissance, compensant les résultats plus modestes de l'iPad (en baisse) et des services (ralentissement de la croissance). Cependant, le marché réagit négativement après la publication des résultats, en raison des perspectives prudentes pour le trimestre suivant. Apple anticipe des contraintes d'approvisionnement majeures, notamment pour les puces et la mémoire, entraînant des hausses de prix sur ses produits. Contrairement à ses concurrents qui investissent des milliards dans l'infrastructure IA, Apple maintient des dépenses d'investissement (capex) faibles, privilégiant les dépenses de R&D. Malgré cela, l'entreprise n'échappe pas aux répercussions de la frénésie de l'IA, qui exacerbe les tensions sur sa chaîne d'approvisionnement. Ce rapport marque la dernière conférence téléphonique de Tim Cook en tant que PDG, avant son départ prévu en septembre. Il exprime sa confiance dans l'avenir de l'entreprise.

marsbitIl y a 2 h

Ne pas investir n'est pas un laissez-passer pour Apple

marsbitIl y a 2 h

Trading

Spot

Articles tendance

Comment acheter CORE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter CORE (CORE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément CORE (CORE).Solde ：utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers ：pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P ：tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos CORE (CORE)Après avoir acheté vos CORE (CORE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des CORE (CORE)Tradez facilement CORE (CORE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

443 vues totalesPublié le 2024.12.13Mis à jour le 2026.06.02

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de CORE (CORE) sont présentées ci-dessous.

Première mondiale : un VLA pré-entraîné sur des vidéos humaines pures pour une manipulation habile, déployable après un finetuning avec peu de données

Résumé

Établir le lien de transformation des vidéos humaines aux données robotiques

Annotation de mouvement 3D : Restauration précise des trajectoires de la main et de la caméra

Segmentation d'actions atomiques : Découpage naturel basé sur les minima de vitesse

Annotation d'instructions : Description d'action précise combinant la trajectoire 3D

Réaliser une puissante prédiction en zéro-shot et une généralisation au monde réel

1. Architecture du modèle combinant VLM et expert en actions par diffusion

2. Prédiction d'actions manuelles en zéro-shot : Capacités impressionnantes dans des environnements inédits

3. Manipulation habile sur robot réel : Déploiement efficace avec peu de données de finetuning

Le support matériel clé du déploiement de VITRA dans le monde réel

URDF haute précision et connexion transparente avec l'espace d'actions de la main humaine

Architecture à entraînement direct et réponse haute fréquence : Exécution parfaite d'opérations habiles complexes

Réseau de capteurs riche : Réserver de l'espace pour la perception multimodale future

La loi d'échelle de la taille des données

Cryptos en tendance

Questions liées

Lectures associées

Soudain, Google Earth retire en urgence la fonctionnalité de génération d'images Nano Banana 2 !

Altman admet : surestimé la capacité de l'IA à voler des emplois ! Huang Renxun : La théorie du chômage est complètement à l'envers

Une transformation majeure de la Fed ? Rapport : Walsh envisage de réduire la fréquence des réunions sur les taux, rompant avec une tradition de 40 ans

Sélections hebdomadaires de la rédaction (25-31 juillet)

Ne pas investir n'est pas un laissez-passer pour Apple

Trading

Articles tendance

Comment acheter CORE

Discussions

Catégories populaires

Tags tendances