Tác giả: Lý Phi Phi
Biên dịch: Gia Dương
“Mô hình thế giới” có lẽ là khái niệm nóng nhất và hỗn loạn nhất trong lĩnh vực AI kể từ năm 2025. Khi Sora ra mắt, OpenAI gọi nó là trình mô phỏng thế giới; Genie cho phép bạn đi lại trong khung cảnh được tạo ra, cũng được gọi là mô hình thế giới; công ty robot nói rằng họ đang xây dựng mô hình thế giới, NVIDIA nói Omniverse là cơ sở hạ tầng của mô hình thế giới, ngay cả engine game cũng bị lôi vào câu chuyện này. Mọi người đều sử dụng cùng một từ, nhưng những gì mỗi bên nói lại hoàn toàn không phải là một thứ.
Hôm nay, Lý Phi Phi đã đăng một bài viết mới trên Substack cá nhân để làm rõ khái niệm này. Bà ấy bắt đầu bằng cách quay lại với biểu đồ kinh điển nhất trong sách giáo khoa về học tăng cường (vòng lặp POMDP: tác nhân → hành động → trạng thái → quan sát → tác nhân), sau đó chỉ ra rằng: những thứ hiện được gọi là “mô hình thế giới” thực chất là ba hình chiếu khác nhau của vòng lặp này. Thứ xuất ra pixel (quan sát) là bộ kết xuất, thứ xuất ra trạng thái là bộ mô phỏng, thứ xuất ra hành động là bộ lập kế hoạch. Tiêu chuẩn phân loại rất đơn giản, chỉ cần nhìn bạn xuất ra phần nào trong vòng lặp.

(Nguồn: MIT Technology Review)
Bà đánh giá, trong ba loại, bộ kết xuất là thương mại hóa trưởng thành nhất nhưng có trần giới hạn (đẹp không bằng chính xác về vật lý), bộ lập kế hoạch thú vị nhất nhưng xa khỏi triển khai thực tế nhất (vực sâu giữa trình diễn phòng thí nghiệm và khả năng sử dụng thực tế vẫn rất lớn), còn bộ mô phỏng là trung tâm bị đánh giá thấp nghiêm trọng. Bởi vì bộ mô phỏng hoạt động ở cấp độ hình học, vật lý và động lực học, vừa có thể chiếu lên thành pixel cho con người tiêu thụ, vừa có thể suy luận ra hậu quả hành động cho robot sử dụng. Nắm được mô phỏng, đồng thời cũng nắm được cơ sở cho kết xuất và lập kế hoạch; ngược lại thì không được.
Bài viết này tất nhiên cũng là tuyên ngôn sản phẩm của World Labs. Marble của họ đã đồng thời xuất ra Gaussian splat và lưới va chạm, cố gắng thống nhất bộ kết xuất và bộ mô phỏng vào một mô hình. Cuối bài viết mô tả kết cục là một mô hình nền tảng thế giới thống nhất, có thể tự do chuyển đổi giữa kết xuất, mô phỏng và lập kế hoạch theo nhu cầu hạ nguồn. Viễn cảnh này có thành hiện thực hay không là chuyện khác, nhưng với tư cách là một khung phân tích, phân loại ba phần kết xuất/mô phỏng/lập kế hoạch có lẽ thực sự giúp xuyên qua một phần nhiễu loạn của khái niệm “mô hình thế giới” hiện nay.
Toàn văn dịch ra như sau.
“Thế giới là tổng số của tất cả những gì xảy ra.” – Wittgenstein, Tractatus Logico-Philosophicus, 1921
Thế giới không được tạo thành từ chữ cái.
Trong một bài viết trước đây, chúng tôi đề xuất rằng trí tuệ không gian là biên giới tiếp theo của AI, và mô hình thế giới là con đường dẫn tới nó. Ở đây, đội ngũ World Labs và tôi muốn đi sâu thêm một tầng nữa: trong số rất nhiều thứ hiện được gắn mác “mô hình thế giới”, những mô-đun chức năng nào thực sự cấu thành nên khả năng này? Công dụng cụ thể của chúng là gì?
Mô hình ngôn ngữ trao cho máy móc sự kiểm soát mạnh mẽ đối với khái niệm, từ vựng và lý luận, nhưng thế giới vật lý, dù là ảo hay thực, vận hành trên một nền tảng hoàn toàn khác. Mô hình ngôn ngữ học cấu trúc thống kê của văn bản, mô hình thế giới học cấu trúc thống kê của không gian và thời gian: ánh sáng rơi trên bề mặt như thế nào, một khu vườn trông ra sao từ một góc độ chưa bao giờ được máy ảnh chụp lại, vật thể phản ứng với lực và tuân theo định luật vật lý ra sao.
Điều này khiến “mô hình thế giới” trở thành một trong những thuật ngữ quan trọng nhất, đồng thời bị lạm dụng nhiều nhất trong lĩnh vực AI hiện nay. Thị giác máy tính, robot học, học tăng cường và AI sinh thành đều tuyên bố họ đang xây dựng mô hình thế giới, nhưng mỗi bên lại chỉ những thứ hoàn toàn khác nhau. Một mô hình video tạo ra ngọn lửa tráng lệ nhưng không thể xảy ra về mặt vật lý, một mô hình ngôn ngữ ngẫu hứng tạo ra trò chơi có thể chơi được, một engine vật lý trung thực mô phỏng quá trình cháy, tất cả đều được gọi bằng một tên.
Người Hy Lạp cổ đại không bao giờ đạt được thống nhất về thế giới được cấu thành từ cái gì, dù là lửa, nước hay nguyên tử không thể chia cắt, bởi vì “thế giới” chưa bao giờ là một thứ duy nhất. Nó luôn là từ thay thế mà một nhà tư tưởng sử dụng để lý luận về một tính tổng thể nào đó. AI thừa hưởng cùng một vấn đề, và điều đó xảy ra đúng vào lúc lĩnh vực này cần sự chính xác nhất.
Vòng lặp đằng sau phân loại học
Để làm rõ sự hỗn loạn này, có thể bắt đầu từ một biểu đồ còn cổ xưa hơn tất cả các công nghệ nói trên. Tất cả sách giáo khoa về học tăng cường, bao gồm Sutton và Barto kinh điển, hàng chục năm nay luôn sử dụng biến thể của cùng một biểu đồ để mô tả cách một tác nhân tương tác với thế giới. Tên chính thức của biểu đồ này là Quá trình quyết định Markov với quan sát một phần (POMDP), và định nghĩa ban đầu của thuật ngữ “mô hình thế giới” thuộc về truyền thống này.
Một tác nhân (có thể là người, robot hoặc hệ thống phần mềm) thực hiện hành động. Những hành động này thay đổi trạng thái của thế giới. Nhưng tác nhân không bao giờ trực tiếp nhìn thấy trạng thái, cái nó nhận được là quan sát: photon rơi trên võng mạc, chỉ số đọc của cảm biến, pixel trong khung hình video. Quan sát mới dẫn dắt hành động mới, và cứ thế lặp lại.
Từ “trạng thái” cần được tách ra để xem xét, bởi vì ý nghĩa của nó thay đổi trong các lĩnh vực khác nhau. Ở đây không nói về trạng thái của nhà hóa học, không phải sự khác biệt giữa rắn, lỏng và khí. Ở đây là trạng thái của nhà vật lý và nhà robot học: mô tả hoàn chỉnh về mọi thứ xảy ra trong thế giới tại một thời điểm nhất định, bao gồm mọi vật thể, mọi vị trí, mọi vận tốc, mọi thuộc tính. Trạng thái là hiện thực cơ bản của thế giới, về nguyên tắc là đầy đủ, nhưng đối với bất kỳ tác nhân nào trong đó thì không bao giờ có thể quan sát trực tiếp. Quan sát là góc nhìn cục bộ của tác nhân đối với hiện thực này. Hành động là sự phản hồi của tác nhân dựa trên đó.
Vòng lặp này (tác nhân → hành động → trạng thái → quan sát → tác nhân) chính là cấu trúc mang lại ý nghĩa kỹ thuật cho thuật ngữ “mô hình thế giới”. Cụm từ này thậm chí còn cổ xưa hơn, có thể truy ngược về đề xuất năm 1943 của Kenneth Craik, ông cho rằng tâm trí lý luận bằng cách chạy một “mô hình tỷ lệ nhỏ” của hiện thực, và vào cuối những năm 1980, đầu những năm 1990, khái niệm này được đưa vào lĩnh vực mạng nơ-ron. Vòng lặp này cũng giải thích ý nghĩa khi mọi người sử dụng thuật ngữ này ngày nay. Những thứ hiện được gọi là mô hình thế giới thực chất là các hình chiếu khác nhau của cùng một vòng lặp, mỗi loại xuất ra một thành phần khác nhau trong vòng lặp.
Ba chức năng của mô hình thế giới
Loại mô hình thế giới thứ nhất là bộ kết xuất. Bộ kết xuất xuất ra quan sát, cụ thể là pixel hướng đến mắt người, và chỉ số chất lượng quan trọng nhất là độ trung thực hình ảnh. Một mô hình video chuyển đổi lời nhắc văn bản thành cảnh quay cấp điện ảnh là một bộ kết xuất; hệ thống tương tác như Genie 3 của Google hoặc RTFM của chính World Labs cũng là bộ kết xuất, chúng tạo ra hình ảnh theo thời gian thực dựa trên đầu vào người dùng. Loại mô hình này không có hiểu biết rõ ràng về cấu trúc ba chiều. Nó tạo ra những hình ảnh người xem sẽ thấy, chứ không phải bản thân sự vật trông như thế nào. Tòa nhà trong cảnh quay trên không có thể hoàn hảo khi nhìn từ trên cao, nhưng hãy thử đi xuyên qua thành phố bên dưới, chúng sẽ sụp đổ.
Loại thứ hai là bộ mô phỏng. Bộ mô phỏng xuất ra trạng thái: một biểu diễn thế giới trung thực về mặt hình học, vật lý hoặc động lực học, nơi cả con người và chương trình máy tính đều có thể tính toán và tương tác trên đó. Thỏa thuận của bộ kết xuất là thuần túy hình ảnh, còn thỏa thuận của bộ mô phỏng là cấu trúc, đòi hỏi hình học chịu được kiểm tra, vật lý tuân theo định luật Newton, hành vi động lực học phù hợp với dự đoán của định luật vật lý. Bộ mô phỏng phục vụ đồng thời hai loại người dùng. Các chuyên gia như kiến trúc sư, nhà thiết kế, nhà làm phim, nhà phát triển trò chơi… cần độ chính xác vượt ra ngoài độ tin cậy hình ảnh. Các chương trình máy tính như tác nhân học tăng cường, bộ điều khiển robot, phương tiện tự hành… coi bộ mô phỏng như một bãi tập luyện, tương tác quy mô lớn với thế giới trong đó, kiểm tra những kịch bản nguy hiểm, đắt đỏ hoặc đơn giản là không thể thực hiện trong thực tế.
Loại thứ ba là bộ lập kế hoạch. Bộ lập kế hoạch xuất ra hành động. Cho một quan sát và một mục tiêu, bộ lập kế hoạch trả lời câu hỏi: tác nhân nên làm gì tiếp theo. Theo nhiều nghĩa, bộ lập kế hoạch là quá trình ngược của bộ kết xuất. Bộ kết xuất lấy hành động làm đầu vào, tạo ra quan sát; bộ lập kế hoạch lấy quan sát làm đầu vào, tạo ra hành động, từ đó đóng kín vòng lặp cảm nhận-hành động. Các mô hình Thị giác-Ngôn ngữ-Hành động (VLA), các hệ thống dựa trên mô hình, và làn sóng mới của các Mô hình Hành động Thế giới (World Action Models) đều là những nỗ lực khác nhau của bộ lập kế hoạch: cho phép hệ thống quyết định robot nên làm gì trong một thế giới phi cấu trúc.
Ba loại trên bao phủ phần lớn công việc hiện đang được triển khai thực tế, và sự phân biệt giữa chúng rất hữu ích trong thực tiễn. Nhưng ba loại này về cơ bản không tách biệt nhau. Chúng chia sẻ cùng một kiến thức cơ bản về cách thế giới vận hành: hình học, vật lý, động lực học. Về nguyên tắc, một mô hình có thể kết xuất một chiếc cốc từ bất kỳ góc độ nào cũng nên có thể mô phỏng điều gì sẽ xảy ra khi chiếc cốc bị đẩy, và lập kế hoạch cho một bàn tay nhấc nó lên. Ngày càng nhiều nghiên cứu thú vị nhất đang cố ý làm mờ ranh giới giữa ba loại này.

Hình 丨Ba loại mô hình thế giới (Nguồn: Substack)
Tại sao mô phỏng là trung tâm then chốt
Trong ba loại, bộ mô phỏng nhận được ít sự chú ý của công chúng nhất, nhưng lại quan trọng nhất trong ba loại. Bài viết này muốn sửa chữa sự bất đối xứng đó.
Bộ kết xuất hiện có mức độ thương mại hóa cao nhất. Một số lượng lớn sản phẩm tạo hình ảnh hoặc văn bản thành video đang mở rộng nhanh chóng trên thị trường tiêu dùng và doanh nghiệp. Mô hình Nano Banana của Google đã đưa khả năng tạo hình ảnh cấp bộ kết xuất đến tay hàng trăm triệu người dùng. Công nghệ là có thật, thị trường cũng có thật. Tuy nhiên, mục tiêu tối ưu hóa của bộ kết xuất là độ tin cậy hình ảnh chứ không phải độ chính xác vật lý, trần giới hạn này rất quan trọng. Đầu ra của chúng rất đẹp, nhưng bạn không thể dùng chúng để thiết kế một tòa nhà hoặc huấn luyện một con robot.
Bộ lập kế hoạch là thú vị nhất và cũng chưa trưởng thành nhất, nó liên quan chặt chẽ đến lĩnh vực học robot đang phát triển nhanh chóng. Hai năm qua, lĩnh vực này đã tạo ra nhiều trình diễn robot ấn tượng khi xem trên video, nhưng chúng ta cần thành thật đối mặt với những gì các trình diễn này thực sự thể hiện. Hầu hết tất cả trình diễn đều bị giới hạn trong môi trường phòng thí nghiệm rất hạn chế, số lượng loại vật thể có hạn, thời gian thực hiện nhiệm vụ ngắn. Không có cái nào được kiểm chứng bởi độ phức tạp, đa dạng và thời lượng liên tục mà triển khai thế giới thực yêu cầu. Khoảng cách giữa một video trình diễn tuyệt vời và một con robot có thể hoạt động đáng tin cậy trong nhà bếp, nhà kho hoặc phòng phẫu thuật vẫn rất lớn.
Tuy vậy, quy mô đặt cược thương mại vẫn đáng kể. Một làn sóng những người mới tham gia được tài trợ tốt đang tranh nhau ra mắt hệ thống lập kế hoạch tổng quát, trong khi các công ty hạ tầng lớn thì đang đặt khả năng lập kế hoạch trên các ngăn xếp mô phỏng rộng hơn.
Mô phỏng là cầu nối giữa hai bên. Nếu ngôn ngữ là sự trừu tượng hóa thế giới, pixel là hình chiếu của thế giới, thì hình học, vật lý và động lực học chính là bản thân thế giới. Bộ mô phỏng phải hoạt động ở cấp độ này: nó là khung xương cấu trúc, từ đó có thể suy ra biểu hiện hình ảnh (cho bộ kết xuất sử dụng) và hậu quả hành động (cho bộ lập kế hoạch sử dụng).
Một mô hình nắm vững mô phỏng có thể chiếu hiểu biết của nó thành pixel cho con người tiêu thụ, cũng có thể chiếu thành dự đoán hành động cho tác nhân hiện thân sử dụng. Trong khi đó, một mô hình chỉ nắm vững kết xuất hoặc chỉ nắm vững lập kế hoạch không thể làm được cả hai. Không gian thương mại ở đây cực kỳ rộng lớn. Chỉ riêng Omniverse của NVIDIA, quy mô thị trường mục tiêu theo ước tính của công ty đã vượt quá nghìn tỷ USD, bao phủ nhà máy, nhà kho, chuỗi cung ứng và song sinh kỹ thuật số. Huấn luyện robot, kiểm thử xe tự hành, trực quan hóa kiến trúc, thiết kế kỹ thuật, khám phá thuốc, tất cả đều phụ thuộc vào một hình thái mô phỏng nào đó.
Những câu hỏi mở khó khăn nhất của lĩnh vực này cũng tập trung ở đây. Dữ liệu ba chiều với hình học rõ ràng, thuộc tính vật liệu và chú thích vật lý khan hiếm hơn vài bậc độ lớn so với video internet mà bộ kết xuất sử dụng để huấn luyện. Khoảng cách sim-to-real (sự khác biệt giữa hành vi vật thể trong mô phỏng và trong thế giới thực) vẫn tồn tại. Bộ mô phỏng sinh thành còn giới thiệu thêm rủi ro mới: hình học được AI tạo ra có thể trông đúng, nhưng thực tế chứa các vấn đề tự giao nhau hoặc tỷ lệ sai, dẫn đến kết quả mô phỏng vật lý phi lý. Chi phí tính toán cho mô phỏng đa vật lý quy mô lớn (vật thể rắn, biến dạng, chất lỏng, vải tương tác đồng thời) vẫn cao hơn vài bậc độ lớn so với mô phỏng đơn lĩnh vực.
Tại World Labs, Marble là bước đầu tiên của chúng tôi theo hướng này. Nó tiếp nhận đầu vào đa phương thức (văn bản, hình ảnh, video hoặc bản phác không gian), tạo ra môi trường 3D có thể khám phá, đồng thời xuất ra Gaussian splat để khám phá hình ảnh và lưới va chạm cho engine vật lý vận hành. Nhưng Marble chỉ là chương đầu tiên của một cung dài. Khi ranh giới giữa kết xuất, mô phỏng và lập kế hoạch bắt đầu tan biến, toàn bộ lĩnh vực đang viết nên câu chuyện này.
Ranh giới đang tan biến, và điều gì sẽ xảy ra tiếp theo
Xu hướng quan trọng nhất của lĩnh vực hiện nay là ba loại đang bắt đầu hợp nhất. Sự đồng thuận đằng sau là: kiến thức cần thiết để kết xuất một thế giới, mô phỏng nó, và hành động trong đó, phần lớn là giống nhau. Tiếp tục ví dụ trước, một mô hình thực sự hiểu chiếc cốc được đặt trên bàn như thế nào (hình dạng hình học, thuộc tính vật liệu, phản ứng với lực, v.v…), về lý thuyết nên có thể kết xuất chiếc cốc từ bất kỳ góc độ nào, mô phỏng điều gì sẽ xảy ra khi chiếc cốc bị đẩy, và lập kế hoạch cho một bàn tay nhấc nó lên. Ba loại là ba hình chiếu của cùng một hiểu biết cơ bản.
Ví dụ, gần đây đã có một số lượng nhỏ nhưng đang tăng lên các công trình từ các phòng thí nghiệm robot khác nhau, chúng cho thấy một khả năng ít nhất về mặt khái niệm là có thật: một bộ kết xuất video được huấn luyện trước có thể đóng vai trò là mạng xương sống cho dự đoán thế giới và hành động kết hợp, cho phép một mô hình duy nhất đồng thời tưởng tượng “điều gì sẽ xảy ra” và “nên làm gì”, từ đó bắc cầu giữa bộ kết xuất và bộ lập kế hoạch. Marble của World Labs đã có thể từ một mô hình duy nhất đồng thời xuất ra Gaussian splat và lưới va chạm, làm tan biến ranh giới giữa bộ kết xuất và bộ mô phỏng. Mỗi tầng đều đang chuyển từ đầu ra thụ động sang hệ thống tương tác: bộ kết xuất trở nên có thể phản hồi với điều kiện hành động, thế giới do bộ mô phỏng tạo ra trở nên dễ kiểm soát và chỉnh sửa hơn, bộ lập kế hoạch bắt đầu lý luận cẩn trọng thay vì chỉ phản ứng.
Điểm đến logic là một mô hình thế giới thống nhất: một mô hình nền tảng có thể kết xuất các góc nhìn trung thực như ảnh chụp, tạo ra các cấu trúc chính xác về mặt vật lý, lập kế hoạch chuỗi hành động, và chuyển đổi giữa các phương thức đầu ra khác nhau tùy theo nhu cầu của người dùng hạ nguồn. Chúng ta vẫn sẽ đối mặt với một loạt thách thức nghiêm trọng. Cục diện dữ liệu cực kỳ không cân đối, bộ kết xuất có lượng lớn video internet, trong khi bộ mô phỏng và bộ lập kế hoạch phải đối mặt với sự khan hiếm nghiêm trọng của dữ liệu tài sản 3D và trình diễn robot. Tối ưu hóa cho tính thẩm mỹ hình ảnh có thể hy sinh độ chính xác mà robot hoặc mô phỏng độ trung thực cao yêu cầu. Việc điều hòa những căng thẳng này trong một kiến trúc đơn nhất là vấn đề mở cốt lõi của nghiên cứu mô hình thế giới ngày nay, và cũng là điều World Labs đang nỗ lực giải quyết trong quá trình phát triển liên tục Marble.

(Nguồn: Substack)
Nhưng phương hướng lớn đã rõ ràng. Từ cuối những năm 1980 đến nay, lĩnh vực này đặt cược vào cùng một ván: chỉ cần mô hình thế giới đủ phong phú, mọi thứ tác nhân cần để nhìn thấy thế giới, xây dựng thế giới và hành động trong đó đều ở bên trong. Ván cược này giờ đây đang thúc đẩy nghiên cứu của cả một thế hệ. Và điều thực sự gia trọng cho nó, là sự hợp nhất đang diễn ra: ba đường kết xuất, mô phỏng, lập kế hoạch, mỗi đường đã tự mình xây dựng nên các ngành công nghiệp trị giá hàng chục tỷ USD, ban đầu là các hướng nghiên cứu độc lập, giờ đây bắt đầu hội tụ lại. Khi ranh giới biến mất, sự hợp lưu của ba bên sẽ định nghĩa lại một điều lớn hơn: mối quan hệ giữa trí tuệ máy móc và thế giới vật lý mà nó cư trú, cũng chính là hướng đi dài hạn của trí tuệ không gian.
Ngôn ngữ cho máy móc một cách nói về thế giới này. Mô hình thế giới, là con đường để máy móc cuối cùng có thể hiểu, tưởng tượng, lý luận và tương tác với nó.
Tài liệu tham khảo: 1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models





