首次，纯人类视频预训练VLA灵巧操作，少量数据微调就能部署成功

marsbit發佈於 2026-06-08更新於 2026-06-08

文章摘要

微软亚洲研究院与清华大学合作提出创新预训练框架VITRA，首次实现仅使用纯人类视频数据对视觉-语言-动作（VLA）模型进行大规模预训练，并成功应用于机器人灵巧操作。该研究核心是构建了一套自动化流程，将海量无标注的人类活动视频转化为可用于机器人训练的V-L-A数据。方法包括：从单目视频中精准恢复3D手部与相机运动轨迹；基于手部移动速度极小值进行原子级动作分割；结合视觉与轨迹信息，利用大模型自动生成语言指令。由此构建了包含百万片段、千万帧的超大规模数据集。基于此数据集预训练的VLA模型，结合了视觉语言模型骨干与扩散动作预测器。模型在完全未见的真实环境中展现出强大的零样本手部动作预测能力。仅需使用约1.2千条真实机器人数据对预训练模型进行微调，即可在配备灵巧手（如星动XHAND1）的真实机器人上成功执行抓取、放置、倾倒等多种复杂操作任务，并对新物体、新环境表现出卓越的泛化能力和鲁棒性。研究还验证了模型性能随预训练数据规模增加而提升的缩放定律。该工作为利用丰富易得的人类视频数据突破机器人训练数据瓶颈提供了新路径，推动了面向真实复杂场景的具身智能发展。

实现具备人类水平的灵巧操作能力,是机器人学领域长期以来的核心挑战之一。

尽管多指灵巧手在硬件上具备了类似人类的潜力,但由于高质量的机器人动作数据获取成本高昂,现有的视觉-语言-动作(VLA)模型在数据规模和多样性上远远落后于大语言模型(LLM)和视觉语言模型(VLM),难以满足真实世界复杂任务的需求。

微软亚洲研究院(MSRA)与清华大学合作的最新研究论文《Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos》,针对这一关键问题提出了创新的预训练框架VITRA。

该研究的核心贡献在于提出了一套完全自动化的解决方案,将海量无标注的真实人类活动视频转化为与现有机器人V-L-A训练数据格式完全对齐的数据。

通过提取视频中的3D手部运动轨迹、进行原子级动作分割并自动生成语言指令,研究团队构建了一个包含100万个片段、2600万帧的超大规模手部V-L-A数据集。

在纯人类视频数据上完成预训练后,模型在完全未见的真实环境中展现出强大的零样本(Zero-Shot)手部动作预测能力。

仅需少量真实机器人数据进行微调,即可在真实机器人上实现高成功率的灵巧操作,并对新物体和新环境表现出极强的泛化能力。

以下是更多详细内容。

打通从人类视频到机器人数据的转化链路

论文的核心问题在于如何克服非结构化人类视频与结构化机器人数据之间的巨大差异,从而提取出可用于VLA模型预训练的高质量动作标签和语言指令。

该研究构建了一个由三大核心技术组成的完整体系,实现了从原始视频到V-L-A数据的无缝转化。

△

3D运动标注:精准恢复手部与相机轨迹

从单目、未标定且可能移动的相机视频中恢复精确的3D手部运动是一项极具挑战性的任务。

该研究提出了一种基于最新3D视觉技术的单目相机和手部姿态跟踪方法:

首先通过背景光流判断相机状态,并估计相机内参。

随后,利用深度视觉SLAM和深度估计模型跟踪相机姿态,并使用手部重建模型提取每帧的相机空间3D手部姿态(包括手腕6D姿态和全关节角度)。

最终,将这些信息结合,获得世界空间中的3D手部运动轨迹。

这种方法不仅提供了高精度的动作标签,还为后续的动作分割和指令标注奠定了基础。

原子级动作分割:基于速度极小值的自然切分

现有的机器人V-L-A数据通常由简单的、短视距的原子级任务组成。如何从长视频中准确分割出这些原子动作是一个难题。

研究团队从人类动作的自然节奏中汲取灵感,提出了一种简单而高效的分割算法:基于3D空间中手部移动速度的极小值进行切分。

在动作转换期间,人类手部通常会出现速度变化,速度极小值往往标志着动作的切换。

通过检测世界空间中3D手腕轨迹的速度极小值,该方法能够高效地将长视频分割成包含单一原子动作的短片段,且无需任何额外的人工标注或模型推理。

指令标注:结合3D轨迹的精准动作描述

为了给分割出的视频片段生成准确的语言指令,研究团队巧妙地结合了视觉语言模型(VLM)和3D手部轨迹。

对于每个视频片段,系统均匀采样8帧图像,并将手掌的3D轨迹投影叠加到图像上。

然后,将这些带有轨迹高亮的图像输入给GPT-4,提示其结合图像内容和轨迹信息,以祈使句的形式描述指定手部的动作。

实验证明,提供原子级视频片段并叠加3D手部轨迹,能够显著提高GPT生成动作描述的准确性。

实现强大的零样本预测与真实世界泛化

基于上述自动构建的超大规模人类手部V-L-A数据集,研究团队设计并训练了一个专为灵巧操作打造的VLA模型。

△

1、结合VLM与扩散动作专家的模型架构

该VLA模型由一个VLM骨干网络(PaliGemma-2)和一个扩散动作专家(Diffusion Transformer,DiT)组成。

VLM&接收视觉观察、语言指令和相机视场角(FoV)信息,输出一个“认知特征”(Cognition Feature)。

扩散动作专家则接收该认知特征、当前手部状态以及带有掩码的噪声动作块,通过迭代去噪预测未来的手部动作序列。

为了处理快速移动的人类手部动作并适应短片段数据,模型采用了因果注意力(Causal Attention)机制进行动作去噪,确保每个动作步骤的预测仅依赖于之前的动作,有效避免了零填充带来的负面影响。

2、零样本手部动作预测:在未见环境中展现惊人能力

在完全未见的真实生活环境中,预训练模型展现出了强大的零样本手部动作预测能力。

△

在抓取任务和一般动作预测任务的评估中,该模型显著优于在实验室环境下收集的数据(如EgoDex)上训练的模型,也优于使用原始人类标注数据训练的模型。

这充分证明了利用海量、多样化的真实生活视频进行预训练,能够极大地提升模型对复杂环境和未知物体的泛化能力。

3、真实机器人灵巧操作:少量数据微调实现高效部署

为了在真实机器人上部署,研究团队将人类手部的动作空间与机器人灵巧手(如Realman机器人配备星动XHAND1)的动作空间进行了对齐。

△

仅需使用少量(约1.2K条)真实机器人遥操作数据对预训练模型进行微调,即可在真实世界中执行包括抓取、放置、倾倒和清扫等多种灵巧操作任务。

实验结果表明,与未经过人类VLA数据预训练的模型或在其他数据集(如OXE、EgoDex)上预训练的模型相比,该方法在任务成功率上取得了显著提升,尤其是在面对未见过的物体和背景时,展现出了卓越的鲁棒性。

VITRA真实世界部署的硬件核心支撑

VITRA框架之所以能够在真实机器人上实现惊艳的泛化能力,除了算法层面的创新,更离不开底层硬件——

星动纪元自研国内首创全直驱五指灵巧手星动XHAND1的强大支撑。

该框架与星动XHAND1的硬件特性形成了完美的“软硬协同”,在实际应用场景中展现出不可替代的落地优势。

△

高精度URDF与人类手部动作空间的无缝对接

VITRA框架的核心突破在于将人类手部动作空间与机器人灵巧手的动作空间进行对齐。

星动XHAND1官方提供了极高精度的URDF模型,不仅精确描述了运动和动力学参数,还完美映射了人类手关节的空间分布。

这种“数字孪生”级别的模型支持,使得VITRA在微调阶段能够将人类关节角度精准映射到星动XHAND1的对应关节上,从而大幅降低了从人类视频到真实硬件的现实鸿沟,确保了预训练策略在真实硬件上的高效部署。

全直驱架构与高频响应:完美执行复杂灵巧操作

在执行倾倒、清扫等复杂灵巧操作任务时,机器人需要具备极高的动态响应能力。

星动XHAND1采用的全直驱(Direct-Drive)电机架构为这一算法提供了最理想的硬件基础。

全直驱设计从根本上消除了传统减速器带来的巨大摩擦、迟滞和非线性干扰,赋予了灵巧手超灵敏的动态响应能力。这使得星动XHAND1能够瞬间且精准地执行VITRA模型输出的动作指令,安全地操作各种未知物体。

丰富的传感器阵列:为未来多模态感知预留空间

虽然当前的VITRA模型主要依赖视觉输入,但星动XHAND1 配备的丰富传感器阵列(如高分辨率触觉阵列)为未来的多模态感知预留了广阔的空间。

结合星动XHAND1强大的硬件感知能力,未来的VLA模型有望进一步融合触觉反馈,处理更加精细和复杂的“指尖步态(Finger Gaits)”任务。

数据规模的缩放定律

该研究还深入探讨了预训练数据规模对模型性能的影响。

△

实验发现,随着预训练数据量的增加,模型在零样本手部动作预测任务中的误差稳步下降,并在真实机器人操作任务中的成功率持续上升。

这种明显的缩放行为(Scaling Behavior)表明,通过进一步扩大人类视频数据的规模,有望持续提升VLA模型的性能。

这一成果标志着在利用非结构化人类视频进行机器人VLA模型预训练方面取得了关键突破。

通过提供一套完全自动化的数据转化方案,该研究大幅降低了获取高质量机器人训练数据的门槛,为多指灵巧手在更广泛的真实复杂场景中的应用铺平了道路,也为迈向真正泛化的具身智能奠定了坚实的基础。

论文链接:https://arxiv.org/abs/2510.21571

本文来自微信公众号“量子位”,作者:VITRA团队

你可能也喜歡

角逐 AI 支付赛道，传统卡组织对阵 Coinbase

随着AI智能体越来越多地参与商业交易，支付底层通道的争夺战已打响。目前存在两大技术路线：一是以Visa、Mastercard为代表的传统卡组织，利用其代币化银行卡凭证体系，让AI智能体在用户授权范围内完成支付，该方案依托成熟的银行卡网络，适合个人零售场景，具备风控和纠纷处理优势；二是由Coinbase主导的稳定币方案，其推出的x402协议基于开放互联网和USDC稳定币，专为高频、小额、跨境的机器对机器交易设计，成本低、效率高。传统卡组织虽主推自有通道，但也同时布局稳定币业务，旨在成为各类支付链路的收费关口。从落地场景看，面向个人消费者的AI购物服务（如ChatGPT一键结算、亚马逊代下单）多采用银行卡通道；而在机器间交易市场（如亚马逊Bedrock服务、API调用付费），稳定币方案则占据主导。短期看，两种方案将按场景分化共存。长期胜负取决于未来AI商业交易的主流形态：若更接近传统零售，则卡组织占优；若演变为海量小额机器交易网络，则稳定币通道将崛起。Visa和Mastercard通过双线布局规避了单一押注的风险。

marsbit6 分鐘前

marsbit6 分鐘前

AI 以假乱真，加密用户如何抵御新型骗局？

人工智能的普及彻底改变了网络诈骗的格局，传统的通过识别拼写错误、语法不通等拙劣文字来辨别骗局的方法已逐渐失效。借助先进AI工具，诈骗分子能够生成行文流畅、设计精良的钓鱼邮件、仿冒网站、客服对话和社交内容，甚至利用泄露数据实施高度定制化的定向攻击，迷惑性大大增强。在加密资产领域，这一转变带来了独特且严峻的风险。由于区块链交易的不可逆性，以及自托管钱包的普及，用户一旦被诱导授权恶意交易或连接虚假网站，资产可能瞬间损失。常见的AI升级骗局包括伪造空投网站、仿冒交易所登录页、高仿客服、恶意授权请求等。面对日益逼真的骗局，加密用户必须转变防护思路，将“独立核验”作为安全第一准则。核心防护方法包括： 1. 仔细核查域名，手动输入或使用书签访问官网，警惕形似网址。 2. 优先通过官方公示渠道获取链接，警惕来自社交平台私信或评论区的陌生链接。 3. 在授权钱包权限前，务必厘清操作类型，警惕无限授权等高危请求。 4. 签名交易前，仔细核对收款地址、代币数量、合约信息等所有明细。 5. 通过官方渠道核验代币合约地址，勿轻信名称和图标。 6. 警惕所有主动私信的“客服”，官方绝不会索要私钥或助记词。 7. 对制造紧迫感的话术（如“账户即将封禁”）保持高度警惕，放慢操作节奏。总而言之，在AI时代，光鲜的外表、流畅的文案已不能作为安全的凭证。加密安全的核心已演变为一场“核验之战”，用户必须对每一次交互、每一条信息都保持审慎，先核验，再操作。

marsbit25 分鐘前

marsbit25 分鐘前

关掉AI再来面试：Anthropic在筛选什么样的人

标题：关掉AI再来面试：Anthropic在筛选什么样的人摘要：Anthropic近期成为全球估值最高的AI创业公司，吸引了大量顶尖人才，但其招聘方式独树一帜。其面试分为五轮，关键环节是“文化面试”，禁止使用AI，专注于考察候选人的价值观、世界观及对AI风险的深层思考。面试官可能来自任何部门，并拥有一票否决权。问题高度个人化，旨在评估候选人是否拥有独立、坚定的立场，以及在伦理困境中展现的真实纠结与反思能力。与此形成对比的是，Google等公司鼓励在面试中使用AI以评估协作能力。Anthropic则认为，在AI能近乎免费生成观点的时代，真正稀缺的是“关掉AI之后还剩下的东西”——即个体内生、未经外包的思考与信念。公司创始人投入大量时间维护这种文化，使得员工留存率远高于同行。其招聘逻辑指向一个核心：寻找那些不随工具变化而动摇、拥有自身坚实立场与独立思考能力的人。

marsbit28 分鐘前

海力士开盘前最后2分钟，TradeXYZ让价格精确到只差0.13%

传统金融市场休市时，价格发现通常暂停。而基于 Hyperliquid 的链上衍生品市场允许股票等资产24/7连续交易，在传统市场闭市期间成为风险表达和价格发现的前置场所。以韩国芯片厂商 SK 海力士为例，其链上合约在韩国交易所周末休市期间持续交易。6月5日，正股收盘于2,070,000韩元。随后的周末，链上市场多空双方进行了较大规模筹码交换。至6月8日周一韩国交易所开盘前，链上价格已勾勒出完整的周末价格路径。周一08:56（韩国标准时间），链上价格跌至最低点，对应跌幅为-10.21%。三分钟后，韩国交易所正式开盘，海力士股价低开-10.34%。两者跌幅仅相差0.13个百分点，表明链上市场在开盘前已近乎精确地发现了低开幅度。随后的变化更具启示性。在开盘前最后两分钟（08:58-08:59），链上合约出现异常放量，价格快速反弹约+2.31%。这并非预测失误，而是提前交易了正股开盘后的走势。实际情况是，韩国交易所开盘后，海力士股价迅速从低点反弹约+2.64%，与链上市场的提前反应高度吻合。该案例显示，链上衍生品市场在传统市场休市期间，不仅能进行连续的价格发现，其价格变动还能精准反映甚至提前交易传统市场开盘后的即时走势。

marsbit39 分鐘前

marsbit39 分鐘前

告别传统牛熊，市场进入泡沫轮动时代

本文以气象现象类比金融市场，指出市场已从过去漫长平稳的“层状云系”式牛熊周期，转变为如今热点快速轮替的“对流风暴链”模式。作者认为，这种结构性变化由八大深层变革驱动：投机群体全民化、永续被动买盘形成、被动投资主导、多策略与高频交易崛起、波动率被压制、指数成分转向科技与叙事驱动型公司、信息延迟消失、以及长期宽松的财政货币政策。这些因素共同创造了市场频繁产生“泡沫轮动”的环境：一个热点（如AI、减肥药、加密货币等）在叙事驱动下快速形成、爆发、然后破裂，其资金流出又像风暴的“冷空气楔子”一样，触发相邻领域的新一轮行情。这种模式可能成为新常态。文章最后指出，在新市场中，深度研究者和趋势观察者更具优势，散户因灵活也有获利空间。核心建议是投资者需跳出单一热点的情绪裹挟，拉高视野看清轮动链条的整体逻辑，以更理性地应对这个“泡沫轮动时代”。

marsbit40 分鐘前