Ngày 3 tháng 6 năm 2026, nhóm World Labs cùng với Giáo sư Lý Phi Phi của Đại học Stanford đã công bố một bài viết phân tích khái niệm với tiêu đề thẳng thắn đến mức hầu như không có trang trí: "Phân loại chức năng của Mô hình Thế giới". Câu đầu tiên của bài viết đã chạm đến một sự thỏa hiệp ngầm trong ngành: "Mô hình thế giới là một trong những thuật ngữ quan trọng nhất, cũng như bị lạm dụng nhiều nhất trong lĩnh vực trí tuệ nhân tạo hiện nay."
Bối cảnh của câu nói này, bất kỳ ai theo dõi ngành AI đều không xa lạ.
Tháng 2 năm 2024, OpenAI phát hành mô hình tạo video Sora, tiêu đề báo cáo kỹ thuật ghi rõ "Video Generation Models as World Simulators". Giám đốc robot của NVIDIA, Jim Fan, lúc đó đã để lại một bình luận trên LinkedIn mà sau này được nhắc đi nhắc lại: Sora về bản chất là một "Mô hình thế giới chỉ cho phép hành động 'no-op' (không thao tác) duy nhất". Ở phía khác, theo các báo cáo công khai, nhóm AI của Tesla đã nhiều lần trong các sự kiện công khai gọi thành phần dự đoán bên trong hệ thống lái tự động hoàn toàn (FSD) là "Mô hình thế giới" hoặc "Trình mô phỏng thế giới". Công cụ game engine, công cụ tạo 3D, mô hình trí tuệ thể hiện, các sản phẩm và công nghệ đa dạng đều bị nhồi nhét vào cùng một rổ và dán cùng một nhãn mác.
Một trình tạo video, một mạng dự đoán lái xe tự động, một mô hình điều khiển robot, một động cơ vật lý, chúng có điểm chung gì? Hầu như không có. Nhưng tất cả đều được gọi là "Mô hình thế giới".
Sự hỗn loạn khái niệm kéo dài hơn hai năm này, cuối cùng cũng có người cố gắng sắp xếp một cách có hệ thống. Lần này, nhóm của Lý Phi Phi không công bố mô hình mới, không công bố benchmark mới, cũng không trình diễn bất kỳ chức năng sản phẩm nào. Họ làm một việc cơ bản hơn: quay trở lại nguồn gốc lý thuyết là quá trình ra quyết định Markov phần quan sát được (POMDP), và quy ước tất cả các hệ thống trên thị trường được gọi là "Mô hình thế giới" thành ba phép chiếu chức năng khác nhau của cùng một vòng lặp nhận thức.
Ba phép chiếu đó lần lượt là: Trình kết xuất (Renderer), Trình mô phỏng (Simulator), Bộ lập kế hoạch (Planner). Trong khuôn khổ phân loại của World Labs, Sora và các mô hình tạo video cùng loại, thuộc về trình kết xuất.
Tại sao một thuật ngữ có thể chứa đựng nhiều ý nghĩa mâu thuẫn nhau đến vậy
Để hiểu được nguồn gốc của sự hỗn loạn này, cần phải đặt ra một câu hỏi cơ bản hơn: Khi một công ty nói "Chúng tôi đang làm Mô hình thế giới", họ thực sự đang nói về cái gì?
Đối với OpenAI, mục tiêu của Sora là "hiểu và thể hiện thế giới vật lý trong video". Theo báo cáo kỹ thuật, bằng cách học quy luật thống kê từ khối lượng dữ liệu video khổng lồ, Sora có thể tạo ra những hình ảnh phù hợp với nhận thức thị giác thông thường, chiếc cốc rơi xuống đất sẽ vỡ, máy bay giấy rời tay sẽ bay, người đi bộ hai chân luân phiên bước. Những hình ảnh này trông có vẻ "hiểu vật lý".
Đối với Tesla, "Mô hình thế giới" là mạng nơ-ron trong hệ thống FSD dự đoán quỹ đạo chuyển động của các thành phần tham gia giao thông trong vài giây tới. Nó cần xuất ra vị trí 3D, tốc độ, hướng chính xác để cung cấp cho mô-đun lập kế hoạch đường đi tính toán quyết định lái xe an toàn. Mô hình này không cần xuất pixel, nó xuất ra vector và phân phối xác suất.
Đối với công ty robot, "Mô hình thế giới" là cơ chế mô phỏng nội bộ giúp cánh tay robot có thể dự đoán "nếu tôi đẩy chiếc cốc này sang trái 5 cm, nó có đổ không?". Nó cần hiểu thuộc tính vật thể, cơ học tiếp xúc và tính ổn định, đầu ra là đánh giá khả năng thực thi của hành động.
Mục tiêu của ba loại công ty hoàn toàn khác nhau. Công ty tạo video quan tâm đến độ trung thực pixel, công ty lái xe tự động quan tâm đến độ chính xác dự đoán trạng thái vật lý, công ty robot quan tâm đến khả năng suy diễn hậu quả hành động. Tất cả đều đang làm "Mô hình thế giới", nhưng làm hoàn toàn không phải cùng một thứ.
World Labs trong bài viết đã chỉ thẳng vào cốt lõi vấn đề: Lý do những hệ thống này đều được gán cùng một cái tên, là vì chúng thực sự đều thể hiện một mặt nào đó của "hiểu biết về thế giới". Nhưng chúng mỗi cái chỉ hoàn thành một khâu trong chu trình nhận thức hoàn chỉnh, lại bị ngôn ngữ tiếp thị, báo chí và câu chuyện vốn đầu tư đóng gói thành mô hình thế giới hoàn chỉnh.
Một động lực khác của sự hỗn loạn khái niệm là sức căng nội tại của thuật ngữ này. Cụm từ "Mô hình thế giới" tự thân mang tính chất kể chuyện hoành tráng, nghe có vẻ có nhiều không gian tưởng tượng hơn so với "Mô hình tạo video" hoặc "Mô hình dự đoán video", và có thể hỗ trợ tốt hơn cho định giá cao và câu chuyện gọi vốn. Khi năng lực công nghệ không đáp ứng được kỳ vọng của công chúng, việc khái niệm trở thành công cụ tuyên truyền là điều tất yếu.
Trở về những năm 1960, "Mô hình thế giới" hoàn chỉnh nên là gì
Khuôn khổ phân loại của World Labs được xây dựng dựa trên một nền tảng lý thuyết tưởng chừng cũ kỹ: Quá trình ra quyết định Markov phần quan sát được (POMDP).
Khuôn khổ này mô tả một vòng lặp hoàn chỉnh về sự tương tác giữa tác nhân thông minh và môi trường. Tác nhân ở trong một trạng thái môi trường nào đó, nó thực hiện một hành động, hành động thay đổi trạng thái môi trường, tác nhân thông qua cảm biến thu được một phần quan sát, quan sát kích hoạt cập nhật trạng thái nội bộ, nhận thức sau khi cập nhật thúc đẩy hành động tiếp theo. Vòng lặp lặp đi lặp lại.
Trong khuôn khổ này, chức năng hoàn chỉnh của "Mô hình thế giới" nên bao gồm ba khâu: tạo quan sát từ trạng thái (pixel, point cloud mà mắt người nhìn thấy hoặc cảm biến thu thập được), suy diễn trạng thái tiếp theo từ hành động và trạng thái hiện tại (dự đoán biến đổi vật lý), tạo hành động từ quan sát và mục tiêu (lập kế hoạch ra quyết định).
Mô hình ngôn ngữ học quy luật thống kê của chuỗi văn bản, mô hình thế giới học các đặc tính thống kê của không gian và thời gian. Ánh sáng phản xạ trên bề mặt vật liệu khác nhau như thế nào, vật thể chuyển động dưới tác dụng của trọng lực ra sao, năng lượng truyền đi thế nào sau khi vật rắn va chạm, đây mới là những quy luật mà mô hình thế giới cần nắm bắt.
Nhóm World Labs chỉ ra trong bài viết rằng, tất cả các hệ thống hiện nay trên thị trường được gọi là "Mô hình thế giới", thực tế chỉ là phép chiếu của một khâu chức năng nào đó trong vòng lặp hoàn chỉnh nói trên. Một số hệ thống chỉ làm công việc "từ trạng thái đến quan sát" - kết xuất, một số chỉ làm "từ hành động đến trạng thái tiếp theo" - suy diễn trạng thái, một số chỉ làm "từ quan sát đến hành động" - lập kế hoạch. Mỗi cái cắt lấy một đoạn cung tròn của vòng lặp, nhưng lại bị dán nhãn đại diện cho hình tròn hoàn chỉnh.
Giá trị của khung phân tích này nằm ở chỗ, nó cung cấp một hệ tọa độ so sánh vượt ra ngoài ngôn ngữ tiếp thị. Bất kể một công ty đóng gói sản phẩm của mình như thế nào, chỉ cần đặt nó trở lại vòng lặp POMDP, xem nó nhận đầu vào gì, xuất ra đầu ra gì, thiếu khâu nào, ranh giới năng lực của nó sẽ lộ ra.
Trình kết xuất, Trình mô phỏng, Bộ lập kế hoạch: Ranh giới năng lực của ba phép chiếu
Trong phân loại của World Labs, loại thứ nhất được định nghĩa là "Trình kết xuất" (Renderer). Mục tiêu cốt lõi của nó là tạo ra đầu ra pixel trung thực cao hướng đến nhận thức thị giác của con người. Đầu vào là biểu diễn trạng thái môi trường nào đó (có thể là mô tả văn bản, tham số cảnh 3D hoặc mã hóa ngầm định), đầu ra là những khung hình liên tục.
Hướng tối ưu của trình kết xuất là độ trung thực thị giác chứ không phải độ chính xác vật lý. Bài viết của World Labs chỉ rõ, tòa nhà do trình kết xuất tạo ra có thể "xiêu vẹo", bởi vì nó không thực sự giải phương trình cơ học kết cấu; chất lỏng bắn tung tóe mà nó tạo ra có thể trông rất thật, nhưng thể tích, tốc độ dòng chảy và lực va đập của chất lỏng có thể hoàn toàn không tương ứng với đại lượng vật lý thực. Vì vậy, loại mô hình này không thể dùng cho thiết kế kiến trúc, không thể dùng để huấn luyện robot, không thể dùng cho các nhiệm vụ cần mô phỏng chính xác về mặt vật lý.
Genie 3 của Google, các mô hình chuyển văn bản thành video, và hầu hết tất cả công cụ tạo video AI, đều thuộc danh mục này. Sora tất nhiên cũng nằm trong đó.
Loại thứ hai là "Trình mô phỏng" (Simulator). Mục tiêu cốt lõi của nó không phải là tạo ra hình ảnh cho người xem, mà là tạo ra trạng thái tiếp theo chính xác có thể sử dụng cho các tính toán tiếp theo. Đầu vào là trạng thái môi trường hiện tại và lực tác động bên ngoài (hoặc hành động), đầu ra là trạng thái tiếp theo trung thực với quy luật thế giới thực về mặt vật lý và hình học. Trạng thái đầu ra của trình mô phỏng có thể dùng để phân tích ứng suất, tính toán năng lượng tiêu thụ, phát hiện va chạm, cũng có thể làm đầu vào cho trình kết xuất để tạo ra hình ảnh hóa, nhưng giá trị cốt lõi của nó nằm ở khả năng tính toán của chính trạng thái đó.
NVIDIA Omniverse là đại diện tiêu biểu cho loại hệ thống này. Nó không phải là mô hình AI nguyên bản, mà là một nền tảng song sinh kỹ thuật số kết hợp động cơ vật lý truyền thống và tính toán tăng tốc AI. World Labs đánh giá trong bài viết, trình mô phỏng là cầu nối giữa kết xuất và lập kế hoạch, nhưng sự khan hiếm dữ liệu chú thích vật lý 3D chất lượng cao là nút thắt chính. Theo ước tính của World Labs trong bài viết, dữ liệu dùng để huấn luyện loại mô hình này, ít hơn vài bậc độ lớn so với dữ liệu video có thể thu thập được trên internet.
Loại thứ ba là "Bộ lập kế hoạch" (Planner). Đầu vào của nó là dữ liệu quan sát (hình ảnh camera, point cloud lidar, số liệu cảm biến xúc giác...) và chỉ thị mục tiêu, đầu ra là hành động tiếp theo nên thực hiện. Mô hình VLA (Vision-Language-Action) và World Action Models đều thuộc loại này.
Sự khác biệt giữa ba phân loại lớn không phải là sự phân kỳ nhỏ nhặt về đường hướng công nghệ, mà là sự phân hóa chức năng mang tính căn bản. Trình kết xuất xuất pixel cho người xem, trình mô phỏng xuất trạng thái cho máy tính, bộ lập kế hoạch xuất hành động cho bộ truyền động chạy. Một hệ thống có thể đồng thời có nhiều năng lực, nhưng khi hầu hết các hệ thống được gọi là "Mô hình thế giới" về bản chất chỉ làm công việc kết xuất, thì việc đồng nhất "kết xuất" với "hiểu biết thế giới" là một sự không khớp nhận thức nghiêm trọng.
Một cuộc tranh luận kéo dài hai năm: Rốt cuộc Sora có phải là Mô hình thế giới không
Tháng 2 năm 2024, OpenAI phát hành Sora, tiêu đề báo cáo kỹ thuật trực tiếp ghi "Video Generation Models as World Simulators". Cách dùng từ này ngay lập tức gây ra tranh luận sôi nổi trong giới học thuật và cộng đồng nhà phát triển.
Những người ủng hộ cho rằng, video do Sora tạo ra thể hiện tính nhất quán không gian 3D, tính bền vững của vật thể và sự hiểu biết trực quan nào đó về tương tác vật lý. Một chiếc bánh hamburger bị cắn sẽ để lại vết răng, một con chó chạy trên tuyết sẽ làm bắn tung bông tuyết, những chi tiết này dường như cho thấy mô hình đã học được một số quy luật vật lý.
Lập luận cốt lõi của những người phản đối xuất phát từ định nghĩa kinh điển về mô hình thế giới trong lĩnh vực học tăng cường: một mô hình thế giới phải có khả năng dự đoán chuyển đổi trạng thái dựa trên hành động. Nghĩa là, cho trước trạng thái hiện tại và một đầu vào hành động, mô hình nên xuất ra trạng thái tiếp theo sau hành động đó. Sora không làm được điều này. Người dùng không thể nói với Sora "đẩy chiếc cốc đó từ bên trái", sau đó quan sát liệu cốc có đổ không, đổ về hướng nào, các mảnh vỡ bay đi đâu.
Bình luận của Jim Fan đã nắm bắt chính xác mâu thuẫn này: "Sora về bản chất là một mô hình thế giới, chỉ là nó chỉ cho phép hành động 'no-op' (không thao tác) duy nhất." Câu này có nghĩa là, Sora thực sự đang dự đoán sự thay đổi của môi trường theo thời gian, nhưng quá trình thay đổi này không chịu bất kỳ sự can thiệp bên ngoài nào, chỉ có thể diễn ra dọc theo chuỗi nhân quả vốn có trong dữ liệu video. Nó không thực hiện suy diễn tương tác, mà đang viết tiếp chuỗi quan sát thụ động.
Trên diễn đàn r/MachineLearning của Reddit, không ít nhà nghiên cứu học tăng cường bày tỏ sự chỉ trích gay gắt hơn: Hệ thống không thể dự đoán chuyển đổi trạng thái dựa trên hành động thì không thể gọi là mô hình thế giới, chỉ có thể gọi là mô hình dự đoán video.
Khung phân loại của World Labs đã cung cấp một câu trả lời có tính chất kết luận cho cuộc tranh luận này. Trong vòng lặp POMDP, hành động là đầu vào then chốt thúc đẩy chuyển đổi trạng thái, hệ thống thiếu đầu vào này chỉ là phép chiếu của khâu "sinh quan sát" trong chu trình nhận thức hoàn chỉnh. Sora thuộc về trình kết xuất, không phải mô hình thế giới hoàn chỉnh, càng không phải trình mô phỏng thế giới.
Nhưng điều này không có nghĩa là Sora không có giá trị. Trình kết xuất giải quyết một vấn đề khác: làm thế nào để tạo ra hình ảnh phù hợp với kỳ vọng thị giác của con người. Chính bản thân vấn đề này đã cực kỳ khó khăn và có giá trị thương mại to lớn. Vấn đề nằm ở chỗ, đóng gói khả năng kết xuất thành khả năng "hiểu biết thế giới" sẽ gây hiểu lầm cho các nhà ra quyết định công nghệ và nhà đầu tư, khiến người ta lầm tưởng rằng những mô hình này đã có năng lực suy diễn vật lý hoặc tương tác thể hiện.
Giá trị công nghiệp của việc làm rõ khái niệm
Làm rõ ranh giới định nghĩa của "Mô hình thế giới" không phải là một trò chơi chữ học thuật. Nó trực tiếp ảnh hưởng đến lựa chọn công nghệ, phán đoán đầu tư và nhận thức của công chúng về năng lực AI.
Đối với một doanh nghiệp sản xuất đang đánh giá việc sử dụng một "Mô hình thế giới" nào đó để huấn luyện robot, việc làm rõ mô hình đó thực chất là trình kết xuất, trình mô phỏng hay bộ lập kế hoạch, là điều kiện tiên quyết để tránh thử sai hàng triệu đô la. Một mô hình chỉ có thể tạo ra hình ảnh video, dù hình ảnh trung thực đến đâu, cũng không thể thay thế cho việc tính toán chính xác lực tác động lên vật thể, quỹ đạo chuyển động và hậu quả va chạm.
Đối với các tổ chức đầu tư, phân biệt ba phép chiếu có nghĩa là có thể xác định vị trí của dự án trong chồng công nghệ một cách chính xác hơn. Một công ty khởi nghiệp tự xưng là "Mô hình thế giới", nếu sản phẩm về bản chất là một trình kết xuất, đối thủ cạnh tranh của nó là các công ty tạo video, chứ không phải nền tảng song sinh kỹ thuật số hay mô hình điều khiển robot. Điều này trực tiếp quyết định cách ước tính quy mô thị trường và lựa chọn công ty đối chiếu.
Đối với giới học thuật, phân loại rõ ràng là tiền đề để thiết lập các benchmark có thể so sánh. Nếu thuật ngữ "Mô hình thế giới" tiếp tục bị tổng quát hóa, các nhà nghiên cứu sẽ khó định nghĩa điều gì được tính là cải tiến, điều gì được tính là đột phá, đánh giá ngang hàng sẽ được xây dựng trên cơ sở đa nghĩa.
World Labs trong bài viết cũng chỉ ra, làm rõ khái niệm không phải để tạo ra sự đối lập. Hướng phát triển trong tương lai sẽ là sự hòa hợp của ba phép chiếu. Một mô hình thực sự hiểu thuộc tính vật lý của chiếc cốc, nên có thể đồng thời kết xuất hình dáng thị giác của nó, mô phỏng quá trình vật lý khi nó bị đẩy đổ, và lập kế hoạch cách tay máy nắm chắc nó một cách ổn định. Nhưng trước khi công nghệ phát triển đến bước đó, nhận thức rõ ranh giới của mỗi bên có ý nghĩa thực tế hơn là mơ tưởng về sự hòa hợp.
Theo ước tính của World Labs trong bài viết, trình mô phỏng và công nghệ song sinh kỹ thuật số điển hình như NVIDIA Omniverse, đang nhắm đến thị trường tiềm năng trị giá trên nghìn tỷ đô la trong các lĩnh vực như nhà máy, kho bãi, chuỗi cung ứng. Con số này xuất phát từ đánh giá của chính nhà sản xuất, còn thị trường khi nào mới thực sự đạt đến quy mô này, phụ thuộc vào việc trình mô phỏng có thể đột phá nút thắt khan hiếm dữ liệu vật lý 3D chất lượng cao hay không.
Đối với ngành AI ở giai đoạn hiện tại, có lẽ nhận thức quan trọng nhất rất đơn giản: Có thể tạo video trung thực, không bằng hiểu biết thế giới vật lý; Được gọi là mô hình thế giới, không bằng thực sự đang mô phỏng thế giới. Xuyên thấu ngôn ngữ tiếp thị, xem xét một hệ thống trong vòng lặp POMDP thực sự tiếp nhận đầu vào gì, xuất ra kết quả gì, thiếu khâu nào, là cách phán đoán trung thực nhất về ranh giới năng lực công nghệ.








