Tác giả: Lý Phi Phi
Biên dịch: Gia Dương
"Mô hình thế giới" có lẽ là khái niệm nóng nhất và hỗn loạn nhất trong lĩnh vực AI kể từ năm 2025. Khi Sora ra mắt, OpenAI gọi nó là bộ mô phỏng thế giới; Genie cho phép bạn đi lại trong khung cảnh được tạo ra, cũng được gọi là mô hình thế giới; công ty robot nói họ đang làm mô hình thế giới, NVIDIA nói Omniverse là cơ sở hạ tầng cho mô hình thế giới, ngay cả động cơ game cũng bị lôi vào câu chuyện này. Mọi người đều dùng cùng một từ, nhưng mỗi người lại nói về những thứ hoàn toàn khác nhau.
Hôm nay, Lý Phi Phi đã đăng một bài viết mới trên Substack cá nhân, làm sáng tỏ khái niệm này. Cô ấy bắt đầu bằng việc quay lại với biểu đồ kinh điển nhất trong sách giáo khoa về học tăng cường (POMDP vòng khép kín: tác nhân → hành động → trạng thái → quan sát → tác nhân), sau đó chỉ ra: những thứ hiện được gọi là "mô hình thế giới", thực chất là ba hình chiếu khác nhau của vòng khép kín này. Thứ xuất ra pixel (quan sát) là trình kết xuất, xuất ra trạng thái là trình mô phỏng, xuất ra hành động là trình lập kế hoạch. Tiêu chuẩn phân loại rất đơn giản, chỉ xem bạn xuất ra phần nào trong vòng khép kín.

(Nguồn: MIT Technology Review)
Cô ấy đánh giá, trong ba loại, trình kết xuất thương mại hóa chín muồi nhất nhưng có giới hạn (đẹp mắt không đồng nghĩa với đúng đắn về vật lý), trình lập kế hoạch thú vị nhất nhưng cũng xa rời triển khai thực tế nhất (khoảng cách giữa demo phòng thí nghiệm và khả năng sử dụng thực tế vẫn rất lớn), còn trình mô phỏng là trung tâm then chốt bị đánh giá thấp nghiêm trọng. Bởi vì trình mô phỏng hoạt động ở cấp độ hình học, vật lý và động lực học, vừa có thể chiếu lên thành pixel cho con người tiêu thụ, cũng có thể suy luận ra hậu quả hành động cho robot sử dụng. Nắm được mô phỏng, đồng thời đã có nền tảng cho kết xuất và lập kế hoạch; ngược lại thì không.
Bài viết này tất nhiên cũng là tuyên ngôn sản phẩm của World Labs. Marble của họ đã đồng thời xuất ra Gaussian splatting và lưới va chạm, cố gắng thống nhất trình kết xuất và trình mô phỏng vào một mô hình duy nhất. Phần cuối bài viết phác họa viễn cảnh cuối cùng là một mô hình nền tảng thế giới thống nhất, có thể tự do chuyển đổi giữa kết xuất, mô phỏng và lập kế hoạch dựa trên nhu cầu hạ nguồn. Liệu viễn cảnh này có thành hiện thực hay không là chuyện khác, nhưng với tư cách là một khung phân tích, cách phân ba loại trình kết xuất/mô phỏng/lập kế hoạch có lẽ thực sự giúp xuyên thấu một phần nhiễu loạn trong khái niệm "mô hình thế giới" hiện tại.
Toàn văn dịch ra như sau.
"Thế giới là tổng hợp của tất cả những gì đang xảy ra." — Wittgenstein, Tractatus Logico-Philosophicus, 1921
Thế giới không được cấu thành từ chữ viết.
Trong một bài viết trước đó, chúng tôi đề xuất rằng trí tuệ không gian là biên giới tiếp theo của AI, và mô hình thế giới là con đường dẫn tới nó. Ở đây, nhóm World Labs và tôi muốn đi sâu hơn một tầng: trong số nhiều thứ hiện được gán cho cái tên "mô hình thế giới", những mô-đun chức năng nào thực sự cấu thành năng lực này? Công dụng của chúng lần lượt là gì?
Mô hình ngôn ngữ trao cho máy móc sự kiểm soát mạnh mẽ đối với khái niệm, từ vựng và suy luận, nhưng thế giới vật lý, dù ảo hay thực, vận hành trên một nền tảng hoàn toàn khác. Mô hình ngôn ngữ học cấu trúc thống kê của văn bản, mô hình thế giới học cấu trúc thống kê của không gian và thời gian: ánh sáng rơi trên một bề mặt như thế nào, một khu vườn trông ra sao từ một góc chưa từng được máy ảnh chụp lại, vật thể phản ứng với lực và tuân theo định luật vật lý ra sao.
Điều này khiến "mô hình thế giới" trở thành thuật ngữ quan trọng nhất và cũng bị lạm dụng nhiều nhất trong lĩnh vực AI hiện nay. Thị giác máy tính, robot học, học tăng cường và AI tạo sinh đều tuyên bố mình đang xây dựng mô hình thế giới, nhưng mỗi bên lại chỉ những thứ hoàn toàn khác biệt. Một mô hình video có thể tạo ra ngọn lửa tráng lệ nhưng vật lý không thể xảy ra, một mô hình ngôn ngữ ngẫu hứng tạo ra trò chơi có thể chơi được, một động cơ vật lý mô phỏng trung thực quá trình đốt cháy, tất cả đều được gọi bằng cùng một cái tên.
Người Hy Lạp cổ đại không bao giờ có thể thống nhất thế giới được cấu thành từ gì, dù là lửa, nước hay nguyên tử không thể phân chia, bởi vì "thế giới" không bao giờ là một thứ duy nhất. Nó luôn là từ thay thế mà một nhà tư tưởng sử dụng để suy luận về một tổng thể nào đó. AI thừa hưởng vấn đề tương tự, và nó xảy ra đúng lúc lĩnh vực này cần sự chính xác nhất.
Vòng khép kín đằng sau phân loại học
Để làm sáng tỏ sự hỗn loạn này, có thể bắt đầu từ một biểu đồ còn cổ xưa hơn tất cả các công nghệ trên. Tất cả sách giáo khoa về học tăng cường, bao gồm Sutton và Barto kinh điển, hàng chục năm qua vẫn sử dụng các biến thể của cùng một biểu đồ để mô tả cách tác nhân tương tác với thế giới. Tên chính thức của biểu đồ này là Quá trình quyết định Markov có thể quan sát một phần (POMDP), và định nghĩa ban đầu của thuật ngữ "mô hình thế giới" thuộc về truyền thống này.
Một tác nhân (có thể là người, robot hoặc hệ thống phần mềm) thực hiện hành động. Những hành động này thay đổi trạng thái của thế giới. Nhưng tác nhân không bao giờ có thể trực tiếp nhìn thấy trạng thái đó, những gì nó nhận được là quan sát: photon rơi trên võng mạc, số đọc cảm biến, pixel trong khung hình video. Quan sát mới dẫn dắt hành động mới, lặp đi lặp lại.
Từ "trạng thái" cần được tách ra để xem xét, bởi vì trong các lĩnh vực khác nhau ý nghĩa của nó có sự dịch chuyển. Ở đây không nói về trạng thái của nhà hóa học, không phải sự khác biệt giữa rắn, lỏng và khí. Đây là trạng thái của nhà vật lý và nhà robot học: mô tả đầy đủ mọi thứ đang xảy ra trên thế giới tại một thời điểm nhất định, bao gồm mọi vật thể, mọi vị trí, mọi vận tốc, mọi thuộc tính. Trạng thái là hiện thực cơ bản của thế giới, về nguyên tắc là hoàn chỉnh, nhưng đối với bất kỳ tác nhân nào trong đó thì không thể quan sát trực tiếp. Quan sát là góc nhìn cục bộ của tác nhân đối với hiện thực này. Hành động là phản hồi của tác nhân dựa trên đó.
Vòng khép kín này (tác nhân → hành động → trạng thái → quan sát → tác nhân) chính là cấu trúc mang lại ý nghĩa kỹ thuật cho thuật ngữ "mô hình thế giới". Cụm từ này bản thân còn cổ xưa hơn, có thể truy ngược về đề xuất của Kenneth Craik năm 1943, ông cho rằng tâm trí suy luận bằng cách chạy các "mô hình thu nhỏ" của hiện thực, và đến cuối những năm 1980, đầu những năm 1990, khái niệm này được đưa vào lĩnh vực mạng nơ-ron. Vòng khép kín này cũng giải thích ý nghĩa khi mọi người sử dụng thuật ngữ này ngày nay. Những thứ hiện được gọi là mô hình thế giới, thực chất là các hình chiếu khác nhau của cùng một vòng khép kín, mỗi loại xuất ra các thành phần khác nhau trong vòng khép kín.
Ba chức năng của mô hình thế giới
Loại mô hình thế giới đầu tiên là **trình kết xuất**. Trình kết xuất xuất ra quan sát, cụ thể là pixel hướng tới mắt người, và chỉ số chất lượng quan trọng nhất là độ trung thực thị giác. Một mô hình video chuyển đổi lời nhắc văn bản thành cảnh quay từ trên không đạt cấp độ điện ảnh chính là trình kết xuất; các hệ thống tương tác như Genie 3 của Google hoặc RTFM của chính World Labs cũng là trình kết xuất, chúng tạo ra hình ảnh theo thời gian thực dựa trên đầu vào người dùng. Loại mô hình này không có hiểu biết rõ ràng về cấu trúc ba chiều. Nó tạo ra những hình ảnh người xem sẽ thấy, chứ không phải cách thức bản thân sự vật trông như thế nào. Các tòa nhà trong cảnh quay từ trên không có thể hoàn hảo khi nhìn từ trên cao, nhưng hãy thử di chuyển xuyên qua thành phố bên dưới, chúng sẽ sụp đổ.
Loại thứ hai là **trình mô phỏng**. Trình mô phỏng xuất ra trạng thái: một biểu diễn thế giới trung thực về mặt hình học, vật lý hoặc động lực học, nơi cả con người và chương trình máy tính đều có thể tính toán và tương tác trên đó. Hợp đồng của trình kết xuất là thuần túy thị giác, còn hợp đồng của trình mô phỏng là cấu trúc, nó yêu cầu hình học phải đứng vững trước kiểm tra, vật lý tuân theo định luật Newton, hành vi động lực học đáp ứng kỳ vọng của các định luật vật lý. Trình mô phỏng đồng thời phục vụ hai loại người dùng. Các chuyên gia như kiến trúc sư, nhà thiết kế, nhà làm phim, nhà phát triển trò chơi cần độ chính xác vượt xa sự tin cậy thị giác. Các chương trình máy tính như tác nhân học tăng cường, bộ điều khiển robot, phương tiện tự lái thì coi trình mô phỏng như một bãi tập, tương tác với thế giới ở quy mô lớn, thử nghiệm những kịch bản hoặc nguy hiểm, hoặc đắt đỏ, hoặc đơn giản là không thể thực hiện trong thực tế.
Loại thứ ba là **trình lập kế hoạch**. Trình lập kế hoạch xuất ra hành động. Cho trước một quan sát và một mục tiêu, câu hỏi trình lập kế hoạch trả lời là: tác nhân nên làm gì tiếp theo. Theo nhiều ý nghĩa, trình lập kế hoạch là quá trình ngược lại của trình kết xuất. Trình kết xuất lấy hành động làm đầu vào, tạo ra quan sát, trình lập kế hoạch lấy quan sát làm đầu vào, tạo ra hành động, từ đó khép lại vòng lặp nhận thức - hành động. Mô hình Thị giác - Ngôn ngữ - Hành động (VLA), hệ thống dựa trên mô hình, và làn sóng mới của các mô hình Hành động Thế giới (World Action Models), đều là những nỗ lực khác nhau của trình lập kế hoạch: cho phép hệ thống quyết định robot nên làm gì trong một thế giới phi cấu trúc.
Ba loại trên bao phủ phần lớn công việc hiện đang được triển khai trên thực tế, và sự phân biệt giữa chúng rất hữu ích trong thực hành. Nhưng ba loại này không cơ bản tách biệt nhau. Chúng chia sẻ cùng một tập hợp kiến thức cơ bản về cách thế giới vận hành: hình học, vật lý, động lực học. Một mô hình có thể kết xuất một chiếc cốc từ bất kỳ góc độ nào, về nguyên tắc cũng nên có thể mô phỏng điều gì sẽ xảy ra khi chiếc cốc bị đẩy, và lập kế hoạch cho một bàn tay nhấc nó lên. Ngày càng nhiều nghiên cứu thú vị nhất đang cố ý làm mờ ranh giới giữa ba thứ này.

Hình 丨 Ba loại mô hình thế giới (Nguồn: Substack)
Tại sao mô phỏng là trung tâm then chốt
Trong ba loại, trình mô phỏng nhận được ít sự chú ý của công chúng nhất, nhưng lại là quan trọng nhất trong ba loại. Bài viết này muốn sửa chữa sự bất đối xứng đó.
Trình kết xuất hiện là loại thương mại hóa cao nhất. Một lượng lớn sản phẩm chuyển đổi hình ảnh hoặc văn bản thành video đang mở rộng nhanh chóng trên thị trường tiêu dùng và doanh nghiệp. Mô hình Nano Banana của Google đã đưa khả năng tạo hình ảnh cấp độ trình kết xuất đến với có thể hàng trăm triệu người dùng. Công nghệ là thực, thị trường cũng thực. Tuy nhiên, mục tiêu tối ưu hóa của trình kết xuất là độ tin cậy thị giác chứ không phải độ chính xác vật lý, giới hạn này rất quan trọng. Đầu ra của chúng rất đẹp, nhưng bạn không thể dùng chúng để thiết kế một tòa nhà hoặc huấn luyện một robot.
Trình lập kế hoạch là thú vị nhất và cũng non trẻ nhất, nó liên quan chặt chẽ đến lĩnh vực học robot đang phát triển nhanh chóng. Hai năm qua, lĩnh vực này đã sản xuất ra không ít bản demo robot trông ấn tượng trong video, nhưng chúng ta cần thành thật đối mặt với việc những bản demo này thực sự cho thấy điều gì. Hầu như tất cả các demo đều bị giới hạn trong môi trường phòng thí nghiệm bị hạn chế cao, loại vật thể hạn chế, thời lượng nhiệm vụ ngắn. Không có bản demo nào đã trải qua sự kiểm chứng về độ phức tạp, đa dạng và thời lượng liên tục mà việc triển khai thực tế yêu cầu. Khoảng cách giữa một video demo tuyệt vời và một robot có thể làm việc đáng tin cậy trong nhà bếp, nhà kho hay phòng phẫu thuật vẫn rất lớn.
Tuy nhiên, quy mô đặt cược thương mại vẫn đáng kể. Một làn sóng những người mới tham gia được tài trợ tốt đang tranh nhau ra mắt hệ thống lập kế hoạch tổng quát, trong khi các ông lớn về cơ sở hạ tầng thì đang đặt khả năng lập kế hoạch lên trên các ngăn xếp mô phỏng rộng hơn.
Mô phỏng là cầu nối giữa hai loại. Nếu ngôn ngữ là sự trừu tượng hóa của thế giới, pixel là hình chiếu của thế giới, thì hình học, vật lý và động lực học chính là bản thân thế giới. Trình mô phỏng phải hoạt động ở cấp độ này: nó là bộ xương cấu trúc, từ đó biểu hiện thị giác (cho trình kết xuất sử dụng) và hậu quả hành động (cho trình lập kế hoạch sử dụng) đều có thể được suy ra.
Một mô hình nắm được mô phỏng, có thể chiếu sự hiểu biết của nó thành pixel cho con người tiêu thụ, cũng có thể chiếu thành dự đoán hành động cho tác nhân hiện thân sử dụng. Còn một mô hình chỉ nắm được kết xuất hoặc chỉ nắm được lập kế hoạch, thì không làm được cả hai. Không gian thương mại ở đây cực kỳ rộng lớn. Chỉ riêng Omniverse của NVIDIA, quy mô thị trường mục tiêu của nó được công ty ước tính vượt quá nghìn tỷ đô la, bao phủ nhà máy, nhà kho, chuỗi cung ứng và bản sao kỹ thuật số. Huấn luyện robot, kiểm tra xe tự lái, hình ảnh hóa kiến trúc, thiết kế kỹ thuật, khám phá dược phẩm, tất cả đều phụ thuộc vào một dạng mô phỏng nào đó.
Những vấn đề mở khó khăn nhất của lĩnh vực này cũng tập trung ở đây. Dữ liệu ba chiều với chú thích hình học rõ ràng, thuộc tính vật liệu và vật lý, khan hiếm hơn vài bậc độ lớn so với video internet được dùng để huấn luyện trình kết xuất. Khoảng cách sim-to-real (sự khác biệt giữa hành vi vật thể trong mô phỏng và hành vi trong thế giới thực) vẫn tồn tại. Trình mô phỏng tạo sinh trên cơ sở đó còn giới thiệu thêm rủi ro mới: hình học được AI tạo ra có thể trông đúng, nhưng thực tế chứa các vấn đề tự giao nhau hoặc tỷ lệ sai, dẫn đến kết quả mô phỏng vật lý vô lý. Chi phí tính toán cho mô phỏng đa vật lý quy mô lớn (vật thể rắn, vật thể biến dạng, chất lỏng, vải cùng tương tác đồng thời) vẫn cao hơn vài bậc độ lớn so với mô phỏng lĩnh vực đơn lẻ.
Tại World Labs, Marble là bước đầu tiên của chúng tôi theo hướng này. Nó nhận đầu vào đa phương thức (văn bản, hình ảnh, video hoặc phác thảo không gian), tạo ra môi trường 3D có thể khám phá, đồng thời xuất ra Gaussian splatting cho khám phá thị giác và lưới va chạm cho động cơ vật lý vận hành. Nhưng Marble chỉ là chương đầu tiên của một cung dài. Khi ranh giới giữa kết xuất, mô phỏng và lập kế hoạch bắt đầu tan biến, toàn bộ lĩnh vực đang viết nên câu chuyện này.
Ranh giới đang tan biến, và điều gì sẽ xảy ra tiếp theo
Xu hướng quan trọng nhất của lĩnh vực hiện tại là ba loại đang bắt đầu hợp nhất. Sự đồng thuận đằng sau là: kiến thức cần thiết để kết xuất một thế giới, mô phỏng nó, hành động trong đó, phần lớn là giống nhau. Sử dụng lại ví dụ trước, một mô hình thực sự hiểu cách một chiếc cốc đặt trên bàn (hình dạng hình học, thuộc tính vật liệu, phản ứng với lực, v.v.), lẽ ra phải có thể kết xuất chiếc cốc đó từ bất kỳ góc độ nào, mô phỏng điều gì sẽ xảy ra khi chiếc cốc bị đẩy, và lập kế hoạch cho một bàn tay nhấc nó lên. Ba loại là ba hình chiếu của cùng một hiểu biết cơ bản.
Ví dụ, gần đây đã có một lượng nhỏ nhưng đang tăng lên các công việc từ các phòng thí nghiệm robot khác nhau, chúng cho thấy một khả năng ít nhất về mặt khái niệm là đúng: một trình kết xuất video được huấn luyện trước có thể đóng vai trò là mạng xương sống cho dự đoán thế giới kết hợp và dự đoán hành động, cho phép một mô hình duy nhất đồng thời tưởng tượng "điều gì sẽ xảy ra" và "nên làm gì", từ đó bắc cầu giữa trình kết xuất và trình lập kế hoạch. Marble của World Labs đã có thể từ một mô hình duy nhất đồng thời xuất ra Gaussian splatting và lưới va chạm, xóa nhòa ranh giới giữa trình kết xuất và trình mô phỏng. Mỗi cấp độ đang chuyển từ đầu ra thụ động sang hệ thống tương tác: trình kết xuất trở nên có thể phản hồi điều kiện hành động, thế giới do trình mô phỏng tạo ra trở nên kiểm soát và chỉnh sửa được nhiều hơn, trình lập kế hoạch bắt đầu suy luận thận trọng hơn là chỉ phản ứng.
Điểm kết thúc logic là một mô hình thế giới thống nhất: một mô hình nền tảng, có thể kết xuất khung nhìn chân thực như ảnh chụp, tạo ra cấu trúc chính xác về mặt vật lý, lập kế hoạch chuỗi hành động, và chuyển đổi giữa các phương thức đầu ra khác nhau dựa trên nhu cầu của người dùng hạ nguồn. Chúng ta vẫn sẽ đối mặt với một loạt thách thức nghiêm trọng. Cảnh quan dữ liệu cực kỳ không cân bằng, trình kết xuất sở hữu lượng lớn video internet, trong khi trình mô phỏng và trình lập kế hoạch phải đối mặt với sự khan hiếm nghiêm trọng của dữ liệu tài sản 3D và dữ liệu trình diễn robot. Tối ưu hóa cho vẻ đẹp thị giác có thể hy sinh độ chính xác mà robot hoặc mô phỏng độ trung thực cao cần. Hòa giải những căng thẳng này trong kiến trúc đơn nhất, là vấn đề mở cốt lõi của nghiên cứu mô hình thế giới ngày nay, cũng là điều World Labs cam kết giải quyết trong quá trình phát triển liên tục Marble.

(Nguồn: Substack)
Nhưng hướng đi lớn đã rõ ràng. Từ cuối những năm 1980 đến nay, lĩnh vực này luôn đặt cược vào cùng một ván cược: miễn là mô hình thế giới đủ phong phú, mọi thứ tác nhân cần để nhìn thấy thế giới, xây dựng thế giới, hành động trong đó đều nằm trong đó. Ván cược này hiện đang thúc đẩy nghiên cứu của cả một thế hệ. Và điều thực sự thêm sức nặng cho nó, là sự hợp nhất đã và đang diễn ra: ba đường thẳng kết xuất, mô phỏng, lập kế hoạch, mỗi đường đã tự đứng vững thành một ngành công nghiệp trị giá hàng chục tỷ đô la, ban đầu chúng là các hướng nghiên cứu độc lập, giờ bắt đầu hợp lại với nhau. Khi ranh giới biến mất, sự hợp lưu của ba thứ sẽ định nghĩa lại một điều lớn hơn: mối quan hệ giữa trí tuệ máy móc và thế giới vật lý mà nó cư trú, tức là hướng đi dài hạn của trí tuệ không gian.
Ngôn ngữ cho máy móc một cách nói về thế giới này. Mô hình thế giới, là con đường cuối cùng để máy móc hiểu, tưởng tượng, suy luận và tương tác với nó.
Tài liệu tham khảo:1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models








