JD.com dan Mantan CTO Open AI Mira Murati Memasuki Jalur AI yang Sama
Bayangkan seorang lansia terjatuh di rumah. Tanpa perintah suara, perangkat pintar atau kamera langsung "melihat" kejadian tersebut dan AI secara proaktif mengirimkan peringatan darurat. Ini adalah salah satu visi yang coba diwujudkan oleh JoyAI-VL-Interaction, model interaksi visual-bahasa open-source pertama di dunia yang baru dirilis oleh JD.com.
Berbeda dengan model AI biasa yang bekerja dengan logika "tanya-jawab", JoyAI-VL-Interaction dirancang untuk berinteraksi secara aktif dan real-time dengan dunia fisik. Model ini dapat secara otonom memutuskan kapan harus merespons, kapan harus diam, dan kapan harus menyerahkan tugas kompleks ke model backend, hanya dengan menganalisis aliran video secara terus-menerus. Pendekatan ini disepakati juga oleh Thinking Machines Lab (didirikan oleh mantan CTO OpenAI, Mira Murati), menandakan pergeseran industri menuju AI yang lebih proaktif.
JD.com menempatkan modalitas visual sebagai penggerak utama, karena banyak informasi penting di dunia nyata muncul sebagai perubahan visual, bukan perintah suara. Model 8B parameter ini dirancang ringan, dapat dijalankan pada GPU seperti RTX 3090, dan sepenuhnya open-source—termasuk kode, model, dataset, dan sistem inferensi. Ini memungkinkan pengembang dengan mudah membuat aplikasi untuk berbagai skenario seperti penjagaan lansia/anak, asistensi tunanetra, komentar olahraga otomatis, inspeksi toko, dan kolaborasi robot.
Pelepasan open-source ini merupakan bagian dari strategi JD.com yang lebih besar untuk membawa AI ke dunia fisik. Perusahaan ini mengandankan aset datanya yang unik dari ribuan skenario operasional nyata di logistik, ritel, dan industri, serta berencana mengumpulkan 10 juta jam data video berkualitas tinggi. Dengan membuka akses, JD.com berharap dapat mempercepat adopsi AI interaktif yang dapat melihat, memahami, dan bertindak secara mandiri di lingkungan kita.
marsbit52m yang lalu