# Artikel Terkait Pra-pelatihan

Pusat Berita HTX menyediakan artikel terbaru dan analisis mendalam mengenai "Pra-pelatihan", mencakup tren pasar, pembaruan proyek, perkembangan teknologi, dan kebijakan regulasi di industri kripto.

Pertama Kali: Pra-pelatihan VLA Murni dari Video Manusia untuk Operasi Cekatan, Dapat Diterapkan Hanya dengan Sedikit Data untuk Fine-tuning

Riset kolaboratif dari Microsoft Asia Research dan Universitas Tsinghua memperkenalkan kerangka pra-pelatihan VITRA, yang pertama kali memanfaatkan video aktivitas manusia skala besar untuk pra-pelatihan model Vision-Language-Action (VLA) dalam manipulasi lincah. Inti inovasinya adalah solusi otomatis untuk mengubah video manusia tanpa anotasi menjadi data V-L-A terstruktur. Melalui ekstraksi jejak gerakan 3D tangan, segmentasi aksi atomik berdasarkan kecepatan, dan pembuatan instruksi bahasa dengan GPT-4, dibangun dataset besar berisi 1 juta klip. Model VLA, dengan arsitektur gabungan VLM (PaliGemma-2) dan Diffusion Action Expert, menunjukkan kemampuan prediksi gerakan **zero-shot** yang kuat di lingkungan tak terlihat. Setelah penyetelan halus (**fine-tuning**) hanya dengan sekitar 1.2K data robot nyata, model berhasil diterapkan pada robot lengan lengkap dengan tangan lincah (seperti Realman dengan XHAND1), mencapai tingkat keberhasilan tinggi dalam tugas seperti mengambil, menempatkan, menuang, dan menyapu, serta menunjukkan **kemampuan generalisasi dan ketangguhan** yang luar biasa terhadap objek dan latar belakang baru. Penelitian ini juga mengungkap **hukum penskalaan (_scaling law_)** antara jumlah data pra-pelatihan dan peningkatan kinerja. Dukungan perangkat keras dari tangan lincah XHAND1, dengan model URDF presisi tinggi dan arsitektur penggerak langsung (_direct-drive_), memungkinkan alih ruang gerak manusia-robot dan eksekusi yang responsif. Karya terobosan ini membuka jalan bagi pelatihan model VLA yang lebih efisien dan dapat digeneralisasi, menggunakan data video manusia yang melimpah, mendekatkan pada realisasi kecerdasan berwujud (_embodied AI_) yang lincah dan adaptif.

marsbit06/08 08:57

Pertama Kali: Pra-pelatihan VLA Murni dari Video Manusia untuk Operasi Cekatan, Dapat Diterapkan Hanya dengan Sedikit Data untuk Fine-tuning

marsbit06/08 08:57

活动图片