Pertama Kali: Pra-pelatihan VLA Murni dari Video Manusia untuk Operasi Cekatan, Dapat Diterapkan Hanya dengan Sedikit Data untuk Fine-tuning

marsbitDipublikasikan tanggal 2026-06-08Terakhir diperbarui pada 2026-06-08

Abstrak

Riset kolaboratif dari Microsoft Asia Research dan Universitas Tsinghua memperkenalkan kerangka pra-pelatihan VITRA, yang pertama kali memanfaatkan video aktivitas manusia skala besar untuk pra-pelatihan model Vision-Language-Action (VLA) dalam manipulasi lincah. Inti inovasinya adalah solusi otomatis untuk mengubah video manusia tanpa anotasi menjadi data V-L-A terstruktur. Melalui ekstraksi jejak gerakan 3D tangan, segmentasi aksi atomik berdasarkan kecepatan, dan pembuatan instruksi bahasa dengan GPT-4, dibangun dataset besar berisi 1 juta klip. Model VLA, dengan arsitektur gabungan VLM (PaliGemma-2) dan Diffusion Action Expert, menunjukkan kemampuan prediksi gerakan **zero-shot** yang kuat di lingkungan tak terlihat. Setelah penyetelan halus (**fine-tuning**) hanya dengan sekitar 1.2K data robot nyata, model berhasil diterapkan pada robot lengan lengkap dengan tangan lincah (seperti Realman dengan XHAND1), mencapai tingkat keberhasilan tinggi dalam tugas seperti mengambil, menempatkan, menuang, dan menyapu, serta menunjukkan **kemampuan generalisasi dan ketangguhan** yang luar biasa terhadap objek dan latar belakang baru. Penelitian ini juga mengungkap **hukum penskalaan (_scaling law_)** antara jumlah data pra-pelatihan dan peningkatan kinerja. Dukungan perangkat keras dari tangan lincah XHAND1, dengan model URDF presisi tinggi dan arsitektur penggerak langsung (_direct-drive_), memungkinkan alih ruang gerak manusia-robot dan eksekusi yang responsif. Karya terobosan ...

Mencapai kemampuan operasi cekatan setara manusia merupakan salah satu tantangan utama dalam bidang robotika.

Meskipun tangan cekatan multi-jari memiliki potensi seperti manusia secara perangkat keras, karena tingginya biaya untuk memperoleh data aksi robot berkualitas tinggi, model Visi-Bahasa-Aksi (VLA) yang ada saat ini jauh tertinggal dalam hal skala dan keragaman data dibandingkan model bahasa besar (LLM) dan model bahasa-visual (VLM), sehingga sulit memenuhi kebutuhan tugas kompleks di dunia nyata.

Makalah penelitian terbaru dari Microsoft Research Asia (MSRA) bekerja sama dengan Universitas Tsinghua, "Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos", mengusulkan kerangka pra-pelatihan inovatif VITRA untuk mengatasi masalah kunci ini.

Kontribusi inti dari penelitian ini adalah mengusulkan solusi yang sepenuhnya otomatis, mengubah sejumlah besar video aktivitas manusia nyata tanpa anotasi menjadi data yang sepenuhnya selaras dengan format data pelatihan V-L-A robot yang ada.

Dengan mengekstrak lintasan gerakan 3D tangan dari video, melakukan segmentasi aksi atomik, dan menghasilkan instruksi bahasa secara otomatis, tim penelitian membangun dataset V-L-A tangan berskala sangat besar yang berisi 1 juta segmen, 26 juta frame.

Setelah menyelesaikan pra-pelatihan pada data video manusia murni, model menunjukkan kemampuan prediksi aksi tangan nol-sampel (Zero-Shot) yang kuat di lingkungan nyata yang benar-benar belum pernah dilihat sebelumnya.

Hanya dengan sedikit data robot nyata untuk fine-tuning, model dapat mencapai operasi cekatan dengan tingkat keberhasilan tinggi pada robot nyata, dan menunjukkan kemampuan generalisasi yang sangat kuat terhadap objek dan lingkungan baru.

Berikut adalah konten lebih detail.

Membuka Jalan Transformasi dari Video Manusia ke Data Robot

Masalah inti dari makalah ini adalah bagaimana mengatasi perbedaan besar antara video manusia yang tidak terstruktur dan data robot yang terstruktur, sehingga dapat mengekstrak label aksi dan instruksi bahasa berkualitas tinggi yang dapat digunakan untuk pra-pelatihan model VLA.

Penelitian ini membangun sistem lengkap yang terdiri dari tiga teknologi inti, mencapai transformasi mulus dari video mentah ke data V-L-A.

△

Anotasi Gerakan 3D: Memulihkan Lintasan Tangan dan Kamera dengan Akurat

Memulihkan gerakan tangan 3D yang akurat dari video kamera monokuler, tidak terkalibrasi, dan mungkin bergerak, adalah tugas yang sangat menantang.

Penelitian ini mengusulkan metode pelacakan pose tangan dan kamera monokuler berdasarkan teknologi visi 3D terkini:

Pertama, menentukan status kamera melalui aliran optik latar belakang, dan memperkirakan parameter intrinsik kamera.

Selanjutnya, menggunakan SLAM visi mendalam dan model estimasi kedalaman untuk melacak pose kamera, dan menggunakan model rekonstruksi tangan untuk mengekstrak pose tangan 3D di ruang kamera setiap frame (termasuk pose 6D pergelangan tangan dan sudut sendi lengkap).

Akhirnya, menggabungkan informasi ini untuk mendapatkan lintasan gerakan tangan 3D di ruang dunia.

Metode ini tidak hanya menyediakan label aksi berpresisi tinggi, tetapi juga meletakkan dasar untuk segmentasi aksi dan anotasi instruksi selanjutnya.

Segmentasi Aksi Atomik: Pembagian Alami Berdasarkan Nilai Minimum Kecepatan

Data V-L-A robot yang ada biasanya terdiri dari tugas atomik sederhana dan jarak pandang pendek. Bagaimana secara akurat memisahkan aksi atom ini dari video panjang adalah sebuah tantangan.

Tim penelitian mengambil inspirasi dari ritme alami gerakan manusia, mengusulkan algoritma segmentasi sederhana dan efisien: memisahkan berdasarkan nilai minimum kecepatan pergerakan tangan di ruang 3D.

Selama transisi aksi, kecepatan tangan manusia biasanya mengalami perubahan, dan nilai minimum kecepatan sering kali menandai pergantian aksi.

Dengan mendeteksi nilai minimum kecepatan dari lintasan pergelangan tangan 3D di ruang dunia, metode ini dapat secara efisien membagi video panjang menjadi segmen pendek yang berisi aksi atom tunggal, tanpa memerlukan anotasi manual tambahan atau inferensi model apa pun.

Anotasi Instruksi: Deskripsi Aksi Akurat dengan Menggabungkan Lintasan 3D

Untuk menghasilkan instruksi bahasa yang akurat untuk segmen video yang telah dipisahkan, tim penelitian secara cerdik menggabungkan Model Bahasa-Visual (VLM) dan lintasan tangan 3D.

Untuk setiap segmen video, sistem mengambil sampel 8 frame gambar secara merata, dan memproyeksikan serta menumpuk lintasan 3D telapak tangan ke dalam gambar.

Kemudian, gambar-gambar dengan sorotan lintasan ini dimasukkan ke GPT-4, dengan prompt untuk menggabungkan konten gambar dan informasi lintasan, dan mendeskripsikan aksi tangan yang ditentukan dalam bentuk kalimat imperatif.

Eksperimen membuktikan bahwa menyediakan segmen video atomik dan menumpukkan lintasan tangan 3D dapat secara signifikan meningkatkan akurasi GPT dalam menghasilkan deskripsi aksi.

Mencapai Prediksi Nol-Sampel yang Kuat dan Generalisasi Dunia Nyata

Berdasarkan dataset V-L-A tangan manusia berskala sangat besar yang dibangun secara otomatis tersebut, tim penelitian merancang dan melatih sebuah model VLA yang dibuat khusus untuk operasi cekatan.

△

1. Arsitektur Model yang Menggabungkan VLM dan Pakar Aksi Difusi

Model VLA ini terdiri dari jaringan tulang punggung VLM (PaliGemma-2) dan sebuah pakar aksi difusi (Diffusion Transformer, DiT).

VLM menerima observasi visual, instruksi bahasa, dan informasi sudut pandang kamera (FoV), lalu mengeluarkan sebuah "Fitur Kognisi" (Cognition Feature).

Pakar aksi difusi kemudian menerima fitur kognisi tersebut, status tangan saat ini, serta blok aksi berisik yang dimask, dan memprediksi urutan aksi tangan di masa depan melalui denoising iteratif.

Untuk menangani aksi tangan manusia yang bergerak cepat dan beradaptasi dengan data segmen pendek, model menggunakan mekanisme perhatian sebab-akibat (Causal Attention) untuk denoising aksi, memastikan prediksi setiap langkah aksi hanya bergantung pada aksi sebelumnya, sehingga secara efektif menghindari dampak negatif dari zero-padding.

2. Prediksi Aksi Tangan Nol-Sampel: Menunjukkan Kemampuan Luar Biasa di Lingkungan Belum Pernah Dilihat

Di lingkungan kehidupan nyata yang benar-benar belum pernah dilihat sebelumnya, model yang telah dipra-pelatih menunjukkan kemampuan prediksi aksi tangan nol-sampel yang kuat.

△

Dalam evaluasi tugas menggenggam dan tugas prediksi aksi umum, model ini secara signifikan mengungguli model yang dilatih pada data yang dikumpulkan di lingkungan laboratorium (seperti EgoDex), serta mengungguli model yang dilatih menggunakan data beranotasi manusia mentah.

Hal ini membuktikan sepenuhnya bahwa menggunakan video kehidupan nyata yang masif dan beragam untuk pra-pelatihan dapat sangat meningkatkan kemampuan generalisasi model terhadap lingkungan kompleks dan objek yang belum dikenal.

3. Operasi Cekatan Robot Nyata: Penerapan Efisien Hanya dengan Sedikit Data Fine-tuning

Untuk diterapkan pada robot nyata, tim penelitian menyelaraskan ruang aksi tangan manusia dengan ruang aksi tangan cekatan robot (seperti Realman yang dilengkapi dengan XHAND1 dari StarMove).

△

Hanya dengan menggunakan sedikit (sekitar 1,2 ribu) data teleoperasi robot nyata untuk fine-tuning model yang telah dipra-pelatih, robot dapat melakukan berbagai tugas operasi cekatan termasuk menggenggam, menempatkan, menuang, dan menyapu di dunia nyata.

Hasil eksperimen menunjukkan bahwa dibandingkan dengan model yang tidak dipra-pelatih dengan data VLA manusia atau model yang dipra-pelatih di dataset lain (seperti OXE, EgoDex), metode ini mencapai peningkatan signifikan dalam tingkat keberhasilan tugas, terutama ketika menghadapi objek dan latar belakang yang belum pernah dilihat sebelumnya, menunjukkan ketangguhan yang luar biasa.

Dukungan Inti Perangkat Keras untuk Penerapan VITRA di Dunia Nyata

Alasan kerangka VITRA dapat mencapai kemampuan generalisasi yang menakjubkan pada robot nyata, selain inovasi tingkat algoritma, juga tidak terlepas dari dukungan kuat dari perangkat keras dasar —

tangan cekatan lima jari penggerak langsung mandiri pertama di Tiongkok, XHAND1 dari StarMove.

Kerangka ini dan karakteristik perangkat keras XHAND1 membentuk "kolaborasi lunak-keras" yang sempurna, menunjukkan keunggulan penerapan yang tak tergantikan dalam skenario aplikasi praktis.

△

Sambungan Mulus antara URDF Presisi Tinggi dan Ruang Aksi Tangan Manusia

Terobosan inti dari kerangka VITRA terletak pada penyelarasan ruang aksi tangan manusia dengan ruang aksi tangan cekatan robot.

XHAND1 secara resmi menyediakan model URDF dengan presisi yang sangat tinggi, tidak hanya menggambarkan parameter gerak dan dinamika secara akurat, tetapi juga memetakan distribusi spasial sendi tangan manusia dengan sempurna.

Dukungan model tingkat "digital twin" ini memungkinkan VITRA pada tahap fine-tuning untuk memetakan sudut sendi manusia secara akurat ke sendi yang sesuai di XHAND1, sehingga secara signifikan mengurangi kesenjangan realitas dari video manusia ke perangkat keras nyata, dan memastikan penerapan strategi pra-pelatihan yang efisien pada perangkat keras nyata.

Arsitektur Penggerak Langsung Penuh dan Respons Frekuensi Tinggi: Menjalankan Operasi Cekatan Kompleks dengan Sempurna

Saat menjalankan tugas operasi cekatan kompleks seperti menuang dan menyapu, robot memerlukan kemampuan respons dinamis yang sangat tinggi.

Arsitektur motor penggerak langsung penuh (Direct-Drive) yang diadopsi oleh XHAND1 menyediakan fondasi perangkat keras yang paling ideal untuk algoritma ini.

Desain penggerak langsung penuh pada dasarnya menghilangkan gesekan besar, kelambanan, dan gangguan nonlinier yang disebabkan oleh reduktor tradisional, memberikan kemampuan respons dinamis yang sangat sensitif pada tangan cekatan. Hal ini memungkinkan XHAND1 untuk segera dan akurat menjalankan perintah aksi yang dikeluarkan oleh model VITRA, serta mengoperasikan berbagai objek yang belum dikenal dengan aman.

Array Sensor yang Kaya: Mereservasi Ruang untuk Persepsi Multimodal di Masa Depan

Meskipun model VITRA saat ini terutama bergantung pada input visual, array sensor yang kaya yang dilengkapi pada XHAND1 (seperti array taktil resolusi tinggi) mereservasi ruang yang luas untuk persepsi multimodal di masa depan.

Dengan menggabungkan kemampuan persepsi perangkat keras yang kuat dari XHAND1, model VLA di masa depan diharapkan dapat lebih lanjut menggabungkan umpan balik taktil, menangani tugas "langkah jari (Finger Gaits)" yang lebih halus dan kompleks.

Hukum Skala dari Ukuran Data

Penelitian ini juga membahas secara mendalam pengaruh skala data pra-pelatihan terhadap kinerja model.

△

Eksperimen menemukan bahwa seiring dengan peningkatan jumlah data pra-pelatihan, kesalahan model dalam tugas prediksi aksi tangan nol-sampel terus menurun, dan tingkat keberhasilan dalam tugas operasi robot nyata terus meningkat.

Perilaku skala (Scaling Behavior) yang jelas ini menunjukkan bahwa dengan lebih memperluas skala data video manusia, diharapkan dapat terus meningkatkan kinerja model VLA.

Pencapaian ini menandai terobosan kunci dalam pemanfaatan video manusia tidak terstruktur untuk pra-pelatihan model VLA robot.

Dengan menyediakan seperangkat solusi transformasi data yang sepenuhnya otomatis, penelitian ini secara signifikan menurunkan ambang batas untuk memperoleh data pelatihan robot berkualitas tinggi, membuka jalan bagi penerapan tangan cekatan multi-jari dalam skenario kompleks nyata yang lebih luas, dan meletakkan dasar yang kuat untuk menuju kecerdasan berwujud (embodied intelligence) yang benar-benar tergeneralisasi.

Tautan makalah: https://arxiv.org/abs/2510.21571

Artikel ini berasal dari akun WeChat publik "量子位", penulis: Tim VITRA

Pertanyaan Terkait

QApa yang menjadi tantangan utama dalam pengembangan kemampuan manipulasi lincah (dexterous manipulation) pada robotika?

ATantangan utamanya adalah ketersediaan data tindakan robot berkualitas tinggi dalam skala dan keragaman yang memadai. Pengumpulan data robotik langsung mahal dan terbatas, sehingga model VLA (Vision-Language-Action) yang ada tertinggal jauh dari model bahasa besar (LLM) dan model visi-bahasa (VLM) dalam hal data.

QApa itu VITRA dan kontribusi utamanya dalam penelitian ini?

AVITRA adalah kerangka kerja pra-pelatihan inovatif yang dikembangkan oleh Microsoft Asia Research (MSRA) dan Universitas Tsinghua. Kontribusi utamanya adalah menyediakan solusi otomatis penuh untuk mengubah video aktivitas manusia nyata yang tidak berlabel menjadi data V-L-A berskala besar yang selaras dengan format pelatihan robot, menggunakan 3D hand tracking, segmentasi aksi atomik, dan generasi instruksi bahasa.

QBagaimana cara VITRA mengubah video manusia menjadi data yang dapat digunakan untuk melatih model robot?

AVITRA menggunakan tiga teknologi inti: 1) Pelacakan pose kamera dan tangan 3D dari video monokuler untuk mendapatkan gerakan tangan yang tepat. 2) Segmentasi aksi atomik berdasarkan titik kecepatan minimum pada lintasan pergelangan tangan 3D. 3) Anotasi instruksi bahasa otomatis menggunakan GPT-4 dengan gambar yang disoroti lintasan tangan 3D.

QApa hasil yang ditunjukkan model VLA setelah pra-pelatihan dengan data manusia dan penyetelan halus (fine-tuning) sedikit data robot?

AModel menunjukkan kemampuan prediksi gerakan tangan zero-shot yang kuat di lingkungan baru. Setelah fine-tuning dengan hanya sekitar 1.2K data robot nyata, model berhasil diterapkan pada robot untuk melakukan berbagai tugas manipulasi lincah seperti mengambil, menempatkan, menuang, dan menyapu dengan tingkat keberhasilan tinggi dan kemampuan generalisasi yang sangat baik terhadap objek dan latar belakang baru.

QPeran apa yang dimainkan oleh tangan robotik lincah '星动XHAND1' (Xingdong XHAND1) dalam penerapan VITRA di dunia nyata?

AXingdong XHAND1, tangan robotik lincah penggerak langsung (full direct-drive) buatan dalam negeri, memberikan dukungan perangkat keras inti. Model URDF-nya yang presisi memungkinkan pemetaan ruang aksi tangan manusia yang mulus. Arsitektur penggerak langsungnya memberikan respons dinamis tinggi untuk menjalankan operasi rumit, dan susunan sensornya yang kaya membuka kemungkinan untuk persepsi multimodal di masa depan.

Bacaan Terkait

AI Mampu Meniru Sempurna, Bagaimana Pengguna Crypto Melindungi Diri dari Penipuan Jenis Baru?

Dengan kemajuan AI, penipuan di dunia kripto kini semakin canggih dan sulit dibedakan dari informasi asli. Dulu, kita bisa mengandalkan kesalahan ketik atau tata bahasa yang buruk untuk mendeteksi penipuan phishing. Namun, AI kini mampu menghasilkan teks, percakapan, dan bahkan situs web yang tampak sangat profesional dan meyakinkan. Ini menciptakan risiko unik bagi pengguna kripto. Berbeda dengan perbankan tradisional, transaksi kripto yang dikonfirmasi di blockchain umumnya tidak dapat dibatalkan. Penipu tidak selalu mencuri kunci pribadi; cukup dengan mengelabui pengguna untuk menyetujui transaksi berbahaya atau memberi izin (approval) tanpa batas kepada kontrak pintar jahat, aset bisa hilang dalam sekejap. Oleh karena itu, pendekatan keamanan harus berubah. Daripada mengandalkan penampilan, pengguna harus menjadikan **verifikasi** sebagai prioritas utama. Berikut adalah prinsip inti yang perlu diterapkan: 1. **Periksa Domain dengan Cermat**: Jangan hanya melihat desain situs. Selalu ketik URL secara manual atau gunakan bookmark yang sudah disimpan. Waspadalah terhadap domain palsu yang mirip, sering kali dengan karakter tambahan atau akhiran yang tidak biasa. 2. **Gunakan Hanya Tautan Resmi**: Jangan klik tautan dari pesan privat, iklan, atau komentar media sosial yang mencurigakan. Akses situs hanya melalui saluran komunikasi resmi proyek yang telah diverifikasi. 3. **Tinjau Izin Wallet Sebelum Menyetujui**: Sebelum menandatangani atau menyetujui permintaan apa pun di dompet Anda, periksa detailnya. Periksa alamat kontrak, jenis token, jumlah yang diizinkan untuk ditransfer, dan lingkup izin. Hindari pemberian izin tanpa batas (*unlimited approval*). 4. **Verifikasi Alamat Kontrak Token**: Jangan percaya hanya pada nama dan logo token. Selalu konfirmasi alamat kontrak resmi melalui situs web proyek atau explorer blockchain yang tepercaya. 5. **Waspadai Pesan "Dukungan" yang Tidak Diminta**: Penipu sering menyamar sebagai dukungan pelanggan di media sosial. Ingatlah bahwa layanan resmi hampir tidak pernah memulai percakapan privat untuk menawarkan bantuan dan **tidak akan pernah** meminta seed phrase atau kunci pribadi Anda. 6. **Hati-hati dengan Rasa Urgensi**: Penipuan sering menciptakan rasa panik ("akun Anda akan diblokir", "klaim hadiah segera sebelum kadaluarsa") untuk mendorong Anda bertindak gegabah. Jika ada yang mendesak Anda untuk segera bertindak, berhentilah dan verifikasi semuanya dengan tenang. Kesimpulannya, di era AI, penampilan yang halus dan teks yang sempurna bukan lagi jaminan keamanan. Pertahanan terbaik adalah kebiasaan verifikasi yang konsisten terhadap setiap tautan, permintaan dompet, dan komunikasi sebelum melakukan tindakan apa pun. Keamanan kripto sekarang adalah pertempuran untuk selalu memeriksa ulang.

marsbit21m yang lalu

AI Mampu Meniru Sempurna, Bagaimana Pengguna Crypto Melindungi Diri dari Penipuan Jenis Baru?

marsbit21m yang lalu

Matikan AI Baru Boleh Interview: Orang Seperti Apa yang Dicari Anthropic?

**Ringkasan Artikel: "Matikan AI Sebelum Wawancara: Siapa yang Dicari Anthropic?"** Anthropic, perusahaan AI bernilai fantastis (9650 miliar dolar AS), menerapkan proses rekrutmen yang sangat unik. Kunci utamanya adalah **larangan mutlak menggunakan AI selama semua tahap wawancara**. Fase terpenting adalah **"wawancara budaya"** yang menguji nilai, pandangan dunia, dan pemahaman kandidat tentang **risiko jangka panjang AI** — bukan sekadar risiko produk. Pertanyaannya mendalam dan personal, seperti "Keyakinan tidak biasa apa yang Anda pegang?" atau dilema etika nyata. Yang dinilai adalah kemampuan berpikir mandiri, keberanian mempertahankan pendapat, dan bahkan **keberanian untuk mengkritik Anthropic sendiri**. Pendekatan ini bertolak belakang dengan tren di perusahaan seperti Google, yang justru mengizinkan penggunaan AI (Gemini) dalam wawancara teknis untuk menilai kelancaran berkolaborasi dengan AI. Logika Anthropic adalah: Di era di mana **eksekusi (menulis kode, menghasilkan argumen) semakin murah dan otomatis** oleh AI, yang justru menjadi sangat berharga dan langka adalah **kemampuan berpikir mandiri, memiliki keyakinan yang otentik, dan kebijaksanaan yang berasal dari diri sendiri**. Mereka mencari orang yang **tidak mengalihdayakan pikirannya** kepada AI. Intinya, Anthropic percaya bahwa di masa depan AI, yang paling dibutuhkan bukanlah orang yang paling mahir menggunakan AI, tetapi **orang yang tetap memiliki sesuatu yang berharga di kepalanya bahkan setelah AI dimatikan**.

marsbit26m yang lalu

Matikan AI Baru Boleh Interview: Orang Seperti Apa yang Dicari Anthropic?

marsbit26m yang lalu

Mengucapkan Selamat Tinggal pada Klasik Bull-Bear, Pasar Masuki Era Rotasi Gelembung

Pasar keuangan telah berubah secara fundamental dari siklus pasar sapi dan beruang tradisional yang bergerak lambat. Saat ini, pasar beroperasi seperti sistem konvektif badai berantai, di mana gelembung atau "badai" aset bergantian muncul, berkembang, dan mereda secara berurutan. Pola baru ini didorong oleh delapan perubahan struktural permanen: partisipasi spekulatif yang meluas ke publik, pembelian permanen dari rencana pensiun, dominasi investasi pasif, kebangkitan dana multi-strategi dan perdagangan frekuensi tinggi, penekanan volatilitas, perubahan komposisi indeks (didominasi perusahaan berbasis narasi dan teknologi), hilangnya keterlambatan informasi, serta lingkungan fiskal dan moneter yang mendukung. Hasilnya adalah pasar yang ditandai dengan rotasi gelembung cepat di berbagai tema seperti infrastruktur AI, teknologi kuantum, robotika, dan bioteknologi. Setiap gelombang menjalani siklus yang dapat diprediksi: laten, pemicu, pembentukan narasi, divergensi, kehancuran, dan akhirnya memicu gelombang berikutnya dengan aliran keluar modalnya. Pasar tidak akan kembali ke model lama. Kesuksesan dalam lingkungan baru ini membutuhkan perspektif yang lebih tinggi untuk melihat pola rantai yang utuh, daripada terhanyut oleh badai tunggal. Kedua, investor memerlukan kedalaman penelitian untuk menilai kelayakan tema atau kemampuan untuk mengidentifikasi dan mengikuti tren yang ditetapkan oleh pelaku pasar utama.

marsbit35m yang lalu

Mengucapkan Selamat Tinggal pada Klasik Bull-Bear, Pasar Masuki Era Rotasi Gelembung

marsbit35m yang lalu

2 Menit Terakhir Sebelum Pembukaan Hynix, TradeXYZ Membuat Harga Akurat Hanya Selisih 0,13%

Dulu, pasar keuangan tradisional berhenti menemukan harga saat tutup. Namun, pasar derivatif on-chain seperti yang dipelopori Hyperliquid mengubah hal ini. Dengan HIP-3 Hyperliquid, aset seperti saham kini dapat diperdagangkan 24/7 di rantai, menjadi tempat penemuan harga bahkan saat pasar tradisional tutup. Contohnya pada saham SK Hynix. Pasar tradisional Korea (KRX) tutup pada 5 Juni dengan harga 2.070.000 KRW. Di Hyperliquid, kontrak xyz:SKHX terus aktif. Menjelang pembukaan KRX pada 8 Juni, harga on-chain turun hingga 1200.0 USDC pada pukul 08:56 KST, yang menyiratkan penurunan -10.21%. Tiga menit kemudian, KRX membuka dengan harga 1.856.000 KRW, turun -10.34%. Selisihnya hanya 0,13%. Artinya, pasar on-chain hampir secara sempurna memperkirakan besarnya penurunan harga pembukaan. Kemudian, dalam 120 detik terakhir sebelum pembukaan (08:58-08:59 KST), volume perdagangan xyz:SKHX melonjak ke level tertinggi akhir pekan, dan harga naik +2,31%. Ini tidak berarti prediksi gagal, tetapi kemungkinan besar pasar on-chain sudah memperdagangkan antisipasi pemulihan setelah pembukaan. Nyatanya, dalam beberapa menit setelah pembukaan, saham SK Hynix di KRX juga bangkit sekitar +2,64%. Kasus ini menunjukkan bagaimana pasar on-chain dapat berfungsi sebagai arena penemuan harga yang kontinu dan sangat responsif, bahkan mendahului pergerakan di pasar tradisional.

marsbit38m yang lalu

2 Menit Terakhir Sebelum Pembukaan Hynix, TradeXYZ Membuat Harga Akurat Hanya Selisih 0,13%

marsbit38m yang lalu

Cara Tepat Menggunakan Skill: 5 Refleksi Setelah Anthropic Membagikan Metodologi Internal Mereka

Menurut artikel "Skill 的正确打开方式" yang membahas metodologi internal Anthropic, berikut adalah 5 poin refleksi penting dalam menggunakan dan membangun Skill secara efektif: 1. **Jangan tulis informasi yang sudah jelas**: Skill bertujuan untuk mengkodifikasi pengetahuan implisit organisasi. Fokuslah pada "Gotchas" atau pengalaman spesifik seperti masalah database atau kasus tepi yang hanya diketahui oleh anggota tim berpengalaman. 2. **Skill adalah Rekayasa Konteks**: Skill bukan sekadar file, melainkan struktur folder yang mengelola konteks dengan cerdas. File utama `SKILL.md` berfungsi sebagai halaman navigasi yang merujuk ke detail di subfolder seperti `references/`, `scripts/`, dan `examples/`, sehingga menghindari kelebihan konteks. 3. **Utamakan penggunaan skrip**: Jangan buang kemampuan penalaran model untuk tugas berulang. Otomatisasikan dengan skrip untuk eksekusi yang lebih konsisten, akurat, dan efisien dalam penggunaan token. Instruksi memberikan panduan dan penilaian, sedangkan skrip memberikan kemampuan eksekusi. 4. **Deskripsi Skill sebagai aturan perutean**: Deskripsi harus menjelaskan *kapan* Skill harus digunakan berdasarkan niat pengguna, bukan hanya fungsinya. Ini membantu Claude menentukan Skill mana yang akan dimuat untuk masalah spesifik pengguna. 5. **Kelola dan sebarkan Skill secara bertahap**: Mulailah dengan Skill yang dibagikan dalam tim kecil. Saat jumlah Skill bertambah, adopsi model seperti Marketplace organik, di mana Skill yang terbukti bermanfaat dan banyak digunakan naik level ke repositori formal, menghindari proses persetujuan yang berat. Kesimpulannya, Skill yang efektif menyelesaikan masalah konteks, daur ulang pengalaman, dan penggunaan kemampuan, bukan hanya masalah *prompt engineering*.

marsbit54m yang lalu

Cara Tepat Menggunakan Skill: 5 Refleksi Setelah Anthropic Membagikan Metodologi Internal Mereka

marsbit54m yang lalu

Trading

Spot

Futures

Artikel Populer

Cara Membeli CORE

Selamat datang di HTX.com! Kami telah membuat pembelian CORE (CORE) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli CORE (CORE) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan CORE (CORE) AndaSetelah melakukan pembelian, simpan CORE (CORE) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading CORE (CORE)Lakukan trading CORE (CORE) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

421 Total TayanganDipublikasikan pada 2024.12.13Diperbarui pada 2026.06.02

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga CORE (CORE) disajikan di bawah ini.

Pertama Kali: Pra-pelatihan VLA Murni dari Video Manusia untuk Operasi Cekatan, Dapat Diterapkan Hanya dengan Sedikit Data untuk Fine-tuning

Abstrak

Membuka Jalan Transformasi dari Video Manusia ke Data Robot

Anotasi Gerakan 3D: Memulihkan Lintasan Tangan dan Kamera dengan Akurat

Segmentasi Aksi Atomik: Pembagian Alami Berdasarkan Nilai Minimum Kecepatan

Anotasi Instruksi: Deskripsi Aksi Akurat dengan Menggabungkan Lintasan 3D

Mencapai Prediksi Nol-Sampel yang Kuat dan Generalisasi Dunia Nyata

1. Arsitektur Model yang Menggabungkan VLM dan Pakar Aksi Difusi

2. Prediksi Aksi Tangan Nol-Sampel: Menunjukkan Kemampuan Luar Biasa di Lingkungan Belum Pernah Dilihat

3. Operasi Cekatan Robot Nyata: Penerapan Efisien Hanya dengan Sedikit Data Fine-tuning

Dukungan Inti Perangkat Keras untuk Penerapan VITRA di Dunia Nyata

Sambungan Mulus antara URDF Presisi Tinggi dan Ruang Aksi Tangan Manusia

Arsitektur Penggerak Langsung Penuh dan Respons Frekuensi Tinggi: Menjalankan Operasi Cekatan Kompleks dengan Sempurna

Array Sensor yang Kaya: Mereservasi Ruang untuk Persepsi Multimodal di Masa Depan

Hukum Skala dari Ukuran Data

Pertanyaan Terkait

Bacaan Terkait

AI Mampu Meniru Sempurna, Bagaimana Pengguna Crypto Melindungi Diri dari Penipuan Jenis Baru?

Matikan AI Baru Boleh Interview: Orang Seperti Apa yang Dicari Anthropic?

Mengucapkan Selamat Tinggal pada Klasik Bull-Bear, Pasar Masuki Era Rotasi Gelembung

2 Menit Terakhir Sebelum Pembukaan Hynix, TradeXYZ Membuat Harga Akurat Hanya Selisih 0,13%

Cara Tepat Menggunakan Skill: 5 Refleksi Setelah Anthropic Membagikan Metodologi Internal Mereka

Trading

Artikel Populer

Cara Membeli CORE

Diskusi

Kategori Populer

Tag Populer