Bài viết mới của Lý Phi Phi: Khi tạo video, robot và NVIDIA đều tự xưng là mô hình thế giới, chúng ta cần một phân loại học
Tác giả Lý Phi Phi đưa ra một phân loại rõ ràng cho khái niệm "mô hình thế giới" (world model) đang bị sử dụng lộn xộn trong AI hiện nay. Dựa trên vòng lặp POMDP cơ bản (tác nhân → hành động → trạng thái → quan sát), bà chia các hệ thống tự xưng là mô hình thế giới thành ba loại chức năng:
1. **Bộ kết xuất (Renderer)**: Đầu ra là quan sát (pixel), tập trung vào độ trung thực thị giác. Ví dụ: các mô hình tạo video như Sora. Hạn chế: hình ảnh đẹp nhưng có thể không đúng vật lý.
2. **Bộ mô phỏng (Simulator)**: Đầu ra là trạng thái thế giới (mô hình hình học, vật lý, động lực học chính xác). Đây là trung tâm then chốt, có thể phục vụ cả con người (thiết kế, mô phỏng) và máy móc (đào tạo robot, xe tự lái). Ví dụ: NVIDIA Omniverse.
3. **Bộ lập kế hoạch (Planner)**: Đầu ra là hành động. Dựa trên quan sát và mục tiêu, nó quyết định tác nhân nên làm gì tiếp theo. Ví dụ: các mô hình Ngôn ngữ-Thị giác-Hành động (VLA) cho robot.
Bài viết nhấn mạnh **bộ mô phỏng là trung tâm bị đánh giá thấp**, vì nó hoạt động ở cấp độ cấu trúc nền tảng (hình học, vật lý), từ đó có thể suy ra đầu ra cho cả bộ kết xuất và bộ lập kế hoạch. Trong khi bộ kết xuất thương mại hóa tốt nhưng có trần vật lý, và bộ lập kế hoạch hứa hẹn nhưng chưa trưởng thành, thì bộ mô phỏng là cầu nối thiết yếu.
Xu hướng tương lai là sự hội tụ của ba loại này hướng tới một **mô hình thế giới thống nhất**, có thể chuyển đổi linh hoạt giữa kết xuất, mô phỏng và lập kế hoạch dựa trên cùng một hiểu biết cơ bản về thế giới. Điều này sẽ định hình tương lai của trí thông minh không gian, cho phép máy móc không chỉ nói về thế giới (như mô hình ngôn ngữ) mà thực sự hiểu, tưởng tượng và tương tác với nó.
链捕手1 giờ trước