JD.com và Cựu CTO của OpenAI Mira Murati đặt cược vào cùng một đường đua AI
Hãy tưởng tượng một AI có thể chủ động nhìn thấy và hành động trong thế giới vật lý, thay vì chỉ thụ động trả lời câu hỏi. Đây chính là tương lai mà JoyAI-VL-Interaction của JD.com hướng đến – mô hình tương tác ngôn ngữ hình ảnh toàn diện đầu tiên trên thế giới mã nguồn mở.
Khác với mô hình hội thoại "luân phiên" truyền thống, JoyAI-VL-Interaction có thể xử lý luồng video liên tục, tự chủ đưa ra quyết định: khi nào nên phản hồi, khi nào nên im lặng và khi nào nên giao nhiệm vụ phức tạp cho mô hình hậu trường. Nó giải quyết một vấn đề cốt lõi: trong thế giới thực, nhiều sự kiện quan trọng (như người già ngã, hỏa hoạn) xảy ra quá nhanh, không cho phép con người kịp đặt câu hỏi.
JD.com và Thinking Machines Lab của cựu CTO OpenAI Mira Murati gần như đồng thời nhận ra xu hướng này, khẳng định tầm quan trọng của việc biến khả năng tương tác thành năng lực cốt lõi của AI. JD.com đặt ngôn ngữ hình ảnh vào vị trí trung tâm, coi đó là "phương thức điều khiển chính" để AI ra quyết định chủ động.
Mô hình 8B tham số này được thiết kế nhẹ, dễ triển khai (chỉ cần card đồ họa 3090), phù hợp cho các ứng dụng như chăm sóc người già/trẻ em, hỗ trợ người khiếm thị, bình luận sự kiện thể thao, giám sát cửa hàng và điều khiển robot. Nó đóng vai trò như một lớp tương tác tiền trạm, xử lý giao tiếp tức thời và phân phối tác vụ phức tạp.
Động thái mã nguồn mở toàn bộ (mô hình, hệ thống suy luận, dữ liệu) của JD.com nhằm mục đích thúc đẩy hệ sinh thái ứng dụng. Lợi thế then chốt của JD nằm ở khối tài sản dữ liệu khổng lồ từ thế giới vật lý – hàng nghìn kịch bản thực tế trong bán lẻ, logistics, chăm sóc sức khỏe và công nghiệp. Công ty đang đẩy mạnh thu thập 10 triệu giờ video chất lượng cao để huấn luyện các mô hình AI thể hiện.
Bằng việc kết hợp JoyAI-VL-Interaction (hiểu và tương tác) với JoyAI-Echo (tạo sinh video) đã công bố trước đó, JD.com đang định vị mình không chỉ là một nhà phát triển mô hình, mà còn là một trung tâm vận hành thế giới vật lý, nơi AI học hỏi và phục vụ trong các ngữ cảnh thực.
marsbit53 phút trước