首次,纯人类视频预训练VLA灵巧操作,少量数据微调就能部署成功

marsbit發佈於 2026-06-08更新於 2026-06-08

文章摘要

微软亚洲研究院与清华大学合作提出创新预训练框架VITRA,首次实现仅使用纯人类视频数据对视觉-语言-动作(VLA)模型进行大规模预训练,并成功应用于机器人灵巧操作。 该研究核心是构建了一套自动化流程,将海量无标注的人类活动视频转化为可用于机器人训练的V-L-A数据。方法包括:从单目视频中精准恢复3D手部与相机运动轨迹;基于手部移动速度极小值进行原子级动作分割;结合视觉与轨迹信息,利用大模型自动生成语言指令。由此构建了包含百万片段、千万帧的超大规模数据集。 基于此数据集预训练的VLA模型,结合了视觉语言模型骨干与扩散动作预测器。模型在完全未见的真实环境中展现出强大的零样本手部动作预测能力。仅需使用约1.2千条真实机器人数据对预训练模型进行微调,即可在配备灵巧手(如星动XHAND1)的真实机器人上成功执行抓取、放置、倾倒等多种复杂操作任务,并对新物体、新环境表现出卓越的泛化能力和鲁棒性。 研究还验证了模型性能随预训练数据规模增加而提升的缩放定律。该工作为利用丰富易得的人类视频数据突破机器人训练数据瓶颈提供了新路径,推动了面向真实复杂场景的具身智能发展。

实现具备人类水平的灵巧操作能力,是机器人学领域长期以来的核心挑战之一。

尽管多指灵巧手在硬件上具备了类似人类的潜力,但由于高质量的机器人动作数据获取成本高昂,现有的视觉-语言-动作(VLA)模型在数据规模和多样性上远远落后于大语言模型(LLM)和视觉语言模型(VLM),难以满足真实世界复杂任务的需求。

微软亚洲研究院(MSRA)与清华大学合作的最新研究论文《Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos》,针对这一关键问题提出了创新的预训练框架VITRA

该研究的核心贡献在于提出了一套完全自动化的解决方案,将海量无标注的真实人类活动视频转化为与现有机器人V-L-A训练数据格式完全对齐的数据。

通过提取视频中的3D手部运动轨迹、进行原子级动作分割并自动生成语言指令,研究团队构建了一个包含100万个片段、2600万帧的超大规模手部V-L-A数据集

在纯人类视频数据上完成预训练后,模型在完全未见的真实环境中展现出强大的零样本(Zero-Shot)手部动作预测能力。

仅需少量真实机器人数据进行微调,即可在真实机器人上实现高成功率的灵巧操作,并对新物体和新环境表现出极强的泛化能力

以下是更多详细内容。

打通从人类视频到机器人数据的转化链路

论文的核心问题在于如何克服非结构化人类视频与结构化机器人数据之间的巨大差异,从而提取出可用于VLA模型预训练的高质量动作标签和语言指令。

该研究构建了一个由三大核心技术组成的完整体系,实现了从原始视频到V-L-A数据的无缝转化

3D运动标注:精准恢复手部与相机轨迹

从单目、未标定且可能移动的相机视频中恢复精确的3D手部运动是一项极具挑战性的任务。

该研究提出了一种基于最新3D视觉技术的单目相机和手部姿态跟踪方法:

首先通过背景光流判断相机状态,并估计相机内参。

随后,利用深度视觉SLAM和深度估计模型跟踪相机姿态,并使用手部重建模型提取每帧的相机空间3D手部姿态(包括手腕6D姿态和全关节角度)。

最终,将这些信息结合,获得世界空间中的3D手部运动轨迹。

这种方法不仅提供了高精度的动作标签,还为后续的动作分割和指令标注奠定了基础。

原子级动作分割:基于速度极小值的自然切分

现有的机器人V-L-A数据通常由简单的、短视距的原子级任务组成。如何从长视频中准确分割出这些原子动作是一个难题。

研究团队从人类动作的自然节奏中汲取灵感,提出了一种简单而高效的分割算法:基于3D空间中手部移动速度的极小值进行切分。

在动作转换期间,人类手部通常会出现速度变化,速度极小值往往标志着动作的切换。

通过检测世界空间中3D手腕轨迹的速度极小值,该方法能够高效地将长视频分割成包含单一原子动作的短片段,且无需任何额外的人工标注或模型推理。

指令标注:结合3D轨迹的精准动作描述

为了给分割出的视频片段生成准确的语言指令,研究团队巧妙地结合了视觉语言模型(VLM)和3D手部轨迹。

对于每个视频片段,系统均匀采样8帧图像,并将手掌的3D轨迹投影叠加到图像上。

然后,将这些带有轨迹高亮的图像输入给GPT-4,提示其结合图像内容和轨迹信息,以祈使句的形式描述指定手部的动作。

实验证明,提供原子级视频片段并叠加3D手部轨迹,能够显著提高GPT生成动作描述的准确性。

实现强大的零样本预测与真实世界泛化

基于上述自动构建的超大规模人类手部V-L-A数据集,研究团队设计并训练了一个专为灵巧操作打造的VLA模型

1、结合VLM与扩散动作专家的模型架构

该VLA模型由一个VLM骨干网络(PaliGemma-2)和一个扩散动作专家(Diffusion Transformer,DiT)组成。

VLM&接收视觉观察、语言指令和相机视场角(FoV)信息,输出一个“认知特征”(Cognition Feature)。

扩散动作专家则接收该认知特征、当前手部状态以及带有掩码的噪声动作块,通过迭代去噪预测未来的手部动作序列。

为了处理快速移动的人类手部动作并适应短片段数据,模型采用了因果注意力(Causal Attention)机制进行动作去噪,确保每个动作步骤的预测仅依赖于之前的动作,有效避免了零填充带来的负面影响。

2、零样本手部动作预测:在未见环境中展现惊人能力

在完全未见的真实生活环境中,预训练模型展现出了强大的零样本手部动作预测能力

在抓取任务和一般动作预测任务的评估中,该模型显著优于在实验室环境下收集的数据(如EgoDex)上训练的模型,也优于使用原始人类标注数据训练的模型。

这充分证明了利用海量、多样化的真实生活视频进行预训练,能够极大地提升模型对复杂环境和未知物体的泛化能力。

3、真实机器人灵巧操作:少量数据微调实现高效部署

为了在真实机器人上部署,研究团队将人类手部的动作空间与机器人灵巧手(如Realman机器人配备星动XHAND1)的动作空间进行了对齐。

仅需使用少量(约1.2K条)真实机器人遥操作数据对预训练模型进行微调,即可在真实世界中执行包括抓取、放置、倾倒和清扫等多种灵巧操作任务。

实验结果表明,与未经过人类VLA数据预训练的模型或在其他数据集(如OXE、EgoDex)上预训练的模型相比,该方法在任务成功率上取得了显著提升,尤其是在面对未见过的物体和背景时,展现出了卓越的鲁棒性

VITRA真实世界部署的硬件核心支撑

VITRA框架之所以能够在真实机器人上实现惊艳的泛化能力,除了算法层面的创新,更离不开底层硬件——

星动纪元自研国内首创全直驱五指灵巧手星动XHAND1的强大支撑。

该框架与星动XHAND1的硬件特性形成了完美的“软硬协同”,在实际应用场景中展现出不可替代的落地优势。

高精度URDF与人类手部动作空间的无缝对接

VITRA框架的核心突破在于将人类手部动作空间与机器人灵巧手的动作空间进行对齐

星动XHAND1官方提供了极高精度的URDF模型,不仅精确描述了运动和动力学参数,还完美映射了人类手关节的空间分布。

这种“数字孪生”级别的模型支持,使得VITRA在微调阶段能够将人类关节角度精准映射到星动XHAND1的对应关节上,从而大幅降低了从人类视频到真实硬件的现实鸿沟,确保了预训练策略在真实硬件上的高效部署。

全直驱架构与高频响应:完美执行复杂灵巧操作

在执行倾倒、清扫等复杂灵巧操作任务时,机器人需要具备极高的动态响应能力。

星动XHAND1采用的全直驱(Direct-Drive)电机架构为这一算法提供了最理想的硬件基础。

全直驱设计从根本上消除了传统减速器带来的巨大摩擦、迟滞和非线性干扰,赋予了灵巧手超灵敏的动态响应能力。这使得星动XHAND1能够瞬间且精准地执行VITRA模型输出的动作指令,安全地操作各种未知物体。

丰富的传感器阵列:为未来多模态感知预留空间

虽然当前的VITRA模型主要依赖视觉输入,但星动XHAND1 配备的丰富传感器阵列(如高分辨率触觉阵列)为未来的多模态感知预留了广阔的空间。

结合星动XHAND1强大的硬件感知能力,未来的VLA模型有望进一步融合触觉反馈,处理更加精细和复杂的“指尖步态(Finger Gaits)”任务。

数据规模的缩放定律

该研究还深入探讨了预训练数据规模对模型性能的影响。

实验发现,随着预训练数据量的增加,模型在零样本手部动作预测任务中的误差稳步下降,并在真实机器人操作任务中的成功率持续上升。

这种明显的缩放行为(Scaling Behavior)表明,通过进一步扩大人类视频数据的规模,有望持续提升VLA模型的性能。

这一成果标志着在利用非结构化人类视频进行机器人VLA模型预训练方面取得了关键突破。

通过提供一套完全自动化的数据转化方案,该研究大幅降低了获取高质量机器人训练数据的门槛,为多指灵巧手在更广泛的真实复杂场景中的应用铺平了道路,也为迈向真正泛化的具身智能奠定了坚实的基础。

论文链接:https://arxiv.org/abs/2510.21571

本文来自微信公众号“量子位”,作者:VITRA团队

相關問答

QVITRA框架是如何将非结构化的人类视频数据转化为可用于机器人VLA模型预训练的结构化数据的?

AVITRA框架通过三大核心技术实现转化:1. 3D运动标注:从单目视频中恢复精确的3D手部和相机运动轨迹。2. 原子级动作分割:基于手部在3D空间中移动速度的极小值,将长视频自动分割成原子动作片段。3. 指令标注:将带有3D轨迹高亮的图像帧输入GPT-4,自动生成准确的语言动作描述。这套自动化流程构建了一个包含100万片段、2600万帧的超大规模手部V-L-A数据集。

Q在纯人类视频数据上预训练的VITRA模型,为何仅需少量真实机器人数据微调就能成功部署?其关键优势是什么?

A关键优势在于其预训练数据的海量性和多样性。VITRA利用真实人类活动视频进行预训练,这些数据覆盖了远超实验室环境的复杂场景和物体,使模型具备了强大的对未知环境和物体的泛化理解能力。因此,模型在预训练阶段已学习到丰富的“常识”和动作模式,后续只需少量真实机器人数据(如约1.2K条)进行动作空间映射和微调,即可高效适应具体机器人硬件,实现高成功率的操作。

Q星动XHAND1灵巧手为VITRA框架的成功落地提供了哪些关键的硬件支撑?

A星动XHAND1提供了三大关键硬件支撑:1. 高精度URDF模型:实现了人类手部动作空间与机器人动作空间的精准对齐,降低了从虚拟策略到真实硬件的部署鸿沟。2. 全直驱电机架构:消除了传统减速器的摩擦和迟滞,提供了超灵敏的动态响应能力,能精准执行复杂灵巧操作。3. 丰富的传感器阵列:如高分辨率触觉传感器,为未来融合多模态感知(如触觉)处理更精细任务预留了空间。

QVITRA研究发现的“数据规模缩放定律”具体指什么?这一发现有何重要意义?

A“数据规模缩放定律”指的是,随着用于预训练的人类视频数据量的增加,VITRA模型在零样本手部动作预测任务中的误差稳步下降,在真实机器人操作任务中的成功率持续上升。这一发现具有重要意义,它表明通过持续扩大人类视频数据的规模,可以系统地、可预测地提升VLA模型的性能,为未来通过收集更多数据来持续提升机器人智能水平指明了方向。

Q与在实验室数据(如EgoDex)上训练的模型相比,基于海量人类视频预训练的VITRA模型在零样本能力上有何突出表现?

A在完全未见的真实生活环境中进行零样本手部动作预测评估时,VITRA模型显著优于在EgoDex等实验室数据上训练的模型。这突出表现在其对复杂环境和未知物体更强的泛化能力上。因为人类视频数据来自真实、开放、多样的场景,使模型学到了更接近现实世界的物理交互和物体特性,而实验室数据相对单一和受限。因此,VITRA能更好地理解和预测在全新、复杂环境下的合理手部动作。

你可能也喜歡

AI 以假乱真,加密用户如何抵御新型骗局?

人工智能的普及彻底改变了网络诈骗的格局,传统的通过识别拼写错误、语法不通等拙劣文字来辨别骗局的方法已逐渐失效。借助先进AI工具,诈骗分子能够生成行文流畅、设计精良的钓鱼邮件、仿冒网站、客服对话和社交内容,甚至利用泄露数据实施高度定制化的定向攻击,迷惑性大大增强。 在加密资产领域,这一转变带来了独特且严峻的风险。由于区块链交易的不可逆性,以及自托管钱包的普及,用户一旦被诱导授权恶意交易或连接虚假网站,资产可能瞬间损失。常见的AI升级骗局包括伪造空投网站、仿冒交易所登录页、高仿客服、恶意授权请求等。 面对日益逼真的骗局,加密用户必须转变防护思路,将“独立核验”作为安全第一准则。核心防护方法包括: 1. 仔细核查域名,手动输入或使用书签访问官网,警惕形似网址。 2. 优先通过官方公示渠道获取链接,警惕来自社交平台私信或评论区的陌生链接。 3. 在授权钱包权限前,务必厘清操作类型,警惕无限授权等高危请求。 4. 签名交易前,仔细核对收款地址、代币数量、合约信息等所有明细。 5. 通过官方渠道核验代币合约地址,勿轻信名称和图标。 6. 警惕所有主动私信的“客服”,官方绝不会索要私钥或助记词。 7. 对制造紧迫感的话术(如“账户即将封禁”)保持高度警惕,放慢操作节奏。 总而言之,在AI时代,光鲜的外表、流畅的文案已不能作为安全的凭证。加密安全的核心已演变为一场“核验之战”,用户必须对每一次交互、每一条信息都保持审慎,先核验,再操作。

marsbit25 分鐘前

AI 以假乱真,加密用户如何抵御新型骗局?

marsbit25 分鐘前

交易

現貨
合約

熱門文章

如何購買CORE

歡迎來到HTX.com!在這裡,購買Core DAO (CORE)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Core DAO (CORE)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Core DAO (CORE)購買Core DAO (CORE)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Core DAO (CORE)在HTX的現貨市場輕鬆交易Core DAO (CORE)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

479 人學過發佈於 2024.12.13更新於 2026.06.02

如何購買CORE

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 CORE (CORE)幣價的意見。

活动图片