Bài viết mới nhất của Lý Phi Phi: Khi video tạo sinh, robot và NVIDIA đều tự xưng là mô hình thế giới, chúng ta cần một phân loại học
Trong bài viết mới nhất của mình, giáo sư Lý Phi Phi đã phân loại và làm rõ khái niệm "mô hình thế giới" đang bị sử dụng một cách lộn xộn trong lĩnh vực AI hiện nay. Bà đề xuất một cách phân loại chức năng dựa trên vòng lặp POMDP cổ điển (tác nhân → hành động → trạng thái → quan sát → tác nhân), chia các hệ thống được gọi là "mô hình thế giới" thành ba loại chính:
1. **Bộ kết xuất (Renderer):** Đầu ra là các quan sát (pixel). Mục tiêu là độ trung thực về mặt thị giác. Ví dụ: các mô hình tạo video từ văn bản như Sora, hay hệ thống tương tác như Genie. Chúng tạo ra hình ảnh đẹp nhưng không nhất thiết tuân thủ vật lý chính xác.
2. **Bộ mô phỏng (Simulator):** Đầu ra là trạng thái thế giới. Mục tiêu là độ chính xác về cấu trúc hình học, vật lý và động lực học. Chúng phục vụ cả con người (kiến trúc sư, nhà thiết kế) và các chương trình máy tính (robot, xe tự hành) để tính toán và đào tạo. Đây được coi là trung tâm then chốt bị đánh giá thấp.
3. **Bộ lập kế hoạch (Planner):** Đầu ra là các hành động. Cho một quan sát và mục tiêu, nó quyết định tác nhân nên làm gì tiếp theo. Ví dụ: các mô hình VLA (Vision-Language-Action). Đây là lĩnh vực thú vị nhất nhưng cũng non trẻ nhất, với khoảng cách lớn giữa demo trong phòng thí nghiệm và ứng dụng thực tế.
Bài viết nhấn mạnh ba loại này không tách biệt mà chia sẻ hiểu biết cơ bản chung về thế giới. Xu hướng quan trọng hiện nay là sự hợp nhất giữa chúng, hướng tới một **mô hình thế giới thống nhất** có thể chuyển đổi linh hoạt giữa kết xuất, mô phỏng và lập kế hoạch tùy theo nhu cầu. Sản phẩm Marble của World Labs là một bước đi theo hướng này, cùng lúc tạo ra cả dữ liệu hình ảnh (Gaussian splatting) và dữ liệu vật lý (collision mesh) từ một mô hình duy nhất.
Tóm lại, trong khi mô hình ngôn ngữ cho phép máy móc "nói" về thế giới, thì mô hình thế giới chính là con đường để chúng thực sự hiểu, tưởng tượng, suy luận và tương tác với thế giới vật lý.
marsbit5 giờ trước