Nhóm của Lý Phi Phi làm rõ khái niệm 'Mô hình thế giới', Sora chỉ có thể tính là trình kết xuất
Nhóm của Giáo sư Lý Phi Phi từ World Labs và Đại học Stanford đã công bố một bài phân tích khái niệm, chỉ ra sự lạm dụng thuật ngữ "mô hình thế giới" trong AI. Bài viết phân loại các hệ thống được gọi là "mô hình thế giới" thành ba chức năng chiếu theo vòng lặp nhận thức POMDP: bộ kết xuất, bộ mô phỏng và bộ lập kế hoạch.
Theo phân loại này, các mô hình tạo video như Sora của OpenAI thuộc nhóm "bộ kết xuất". Chúng tập trung tạo ra đầu ra pixel chân thực cho thị giác con người từ trạng thái hoặc mô tả, nhưng không thực sự tính toán các quy luật vật lý chính xác để dự đoán sự thay đổi trạng thái dựa trên hành động. Do đó, chúng không phải là mô hình thế giới đầy đủ hay bộ mô phỏng thế giới.
Ngược lại, "bộ mô phỏng" (ví dụ: NVIDIA Omniverse) tập trung vào việc tạo ra trạng thái vật lý-chính xác cho các tính toán, còn "bộ lập kế hoạch" chuyển đổi quan sát thành hành động. Sự nhầm lẫn khái niệm này, thường được thúc đẩy bởi tiếp thị, có thể dẫn đến đánh giá sai lệch về khả năng công nghệ, ảnh hưởng đến lựa chọn kỹ thuật và đầu tư.
Việc làm rõ này có giá trị thực tiễn, giúp các doanh nghiệp và nhà đầu tư đánh giá đúng năng lực của từng loại hệ thống. Tương lai có thể hướng tới sự hợp nhất của ba chức năng, nhưng hiện tại, việc nhận biết ranh giới của chúng là rất quan trọng.
marsbit16 giờ trước