Bài viết mới nhất của Lý Phi Phi: Khi video tạo sinh, robot và NVIDIA đều tự xưng là mô hình thế giới, chúng ta cần một phân loại học

marsbitXuất bản vào 2026-07-05Cập nhật gần nhất vào 2026-07-05

Tóm tắt

Trong bài viết mới nhất của mình, giáo sư Lý Phi Phi đã phân loại và làm rõ khái niệm "mô hình thế giới" đang bị sử dụng một cách lộn xộn trong lĩnh vực AI hiện nay. Bà đề xuất một cách phân loại chức năng dựa trên vòng lặp POMDP cổ điển (tác nhân → hành động → trạng thái → quan sát → tác nhân), chia các hệ thống được gọi là "mô hình thế giới" thành ba loại chính: 1. **Bộ kết xuất (Renderer):** Đầu ra là các quan sát (pixel). Mục tiêu là độ trung thực về mặt thị giác. Ví dụ: các mô hình tạo video từ văn bản như Sora, hay hệ thống tương tác như Genie. Chúng tạo ra hình ảnh đẹp nhưng không nhất thiết tuân thủ vật lý chính xác. 2. **Bộ mô phỏng (Simulator):** Đầu ra là trạng thái thế giới. Mục tiêu là độ chính xác về cấu trúc hình học, vật lý và động lực học. Chúng phục vụ cả con người (kiến trúc sư, nhà thiết kế) và các chương trình máy tính (robot, xe tự hành) để tính toán và đào tạo. Đây được coi là trung tâm then chốt bị đánh giá thấp. 3. **Bộ lập kế hoạch (Planner):** Đầu ra là các hành động. Cho một quan sát và mục tiêu, nó quyết định tác nhân nên làm gì tiếp theo. Ví dụ: các mô hình VLA (Vision-Language-Action). Đây là lĩnh vực thú vị nhất nhưng cũng non trẻ nhất, với khoảng cách lớn giữa demo trong phòng thí nghiệm và ứng dụng thực tế. Bài viết nhấn mạnh ba loại này không tách biệt mà chia sẻ hiểu biết cơ bản chung về thế giới. Xu hướng quan trọng hiện nay là sự hợp nhất giữa chúng, hướng tới một **mô hình thế giới thống nhất** có thể chuyển đổi linh hoạt giữa kết x...

Tác giả: Lý Phi Phi

Biên dịch: Gia Dương

“Mô hình thế giới” có lẽ là khái niệm nóng nhất và hỗn loạn nhất trong lĩnh vực AI kể từ năm 2025. Khi Sora ra mắt, OpenAI gọi nó là trình mô phỏng thế giới; Genie cho phép bạn đi lại trong khung cảnh được tạo ra, cũng được gọi là mô hình thế giới; công ty robot nói rằng họ đang xây dựng mô hình thế giới, NVIDIA nói Omniverse là cơ sở hạ tầng của mô hình thế giới, ngay cả engine game cũng bị lôi vào câu chuyện này. Mọi người đều sử dụng cùng một từ, nhưng những gì mỗi bên nói lại hoàn toàn không phải là một thứ.

Hôm nay, Lý Phi Phi đã đăng một bài viết mới trên Substack cá nhân để làm rõ khái niệm này. Bà ấy bắt đầu bằng cách quay lại với biểu đồ kinh điển nhất trong sách giáo khoa về học tăng cường (vòng lặp POMDP: tác nhân → hành động → trạng thái → quan sát → tác nhân), sau đó chỉ ra rằng: những thứ hiện được gọi là “mô hình thế giới” thực chất là ba hình chiếu khác nhau của vòng lặp này. Thứ xuất ra pixel (quan sát) là bộ kết xuất, thứ xuất ra trạng thái là bộ mô phỏng, thứ xuất ra hành động là bộ lập kế hoạch. Tiêu chuẩn phân loại rất đơn giản, chỉ cần nhìn bạn xuất ra phần nào trong vòng lặp.

(Nguồn: MIT Technology Review)

Bà đánh giá, trong ba loại, bộ kết xuất là thương mại hóa trưởng thành nhất nhưng có trần giới hạn (đẹp không bằng chính xác về vật lý), bộ lập kế hoạch thú vị nhất nhưng xa khỏi triển khai thực tế nhất (vực sâu giữa trình diễn phòng thí nghiệm và khả năng sử dụng thực tế vẫn rất lớn), còn bộ mô phỏng là trung tâm bị đánh giá thấp nghiêm trọng. Bởi vì bộ mô phỏng hoạt động ở cấp độ hình học, vật lý và động lực học, vừa có thể chiếu lên thành pixel cho con người tiêu thụ, vừa có thể suy luận ra hậu quả hành động cho robot sử dụng. Nắm được mô phỏng, đồng thời cũng nắm được cơ sở cho kết xuất và lập kế hoạch; ngược lại thì không được.

Bài viết này tất nhiên cũng là tuyên ngôn sản phẩm của World Labs. Marble của họ đã đồng thời xuất ra Gaussian splat và lưới va chạm, cố gắng thống nhất bộ kết xuất và bộ mô phỏng vào một mô hình. Cuối bài viết mô tả kết cục là một mô hình nền tảng thế giới thống nhất, có thể tự do chuyển đổi giữa kết xuất, mô phỏng và lập kế hoạch theo nhu cầu hạ nguồn. Viễn cảnh này có thành hiện thực hay không là chuyện khác, nhưng với tư cách là một khung phân tích, phân loại ba phần kết xuất/mô phỏng/lập kế hoạch có lẽ thực sự giúp xuyên qua một phần nhiễu loạn của khái niệm “mô hình thế giới” hiện nay.

Toàn văn dịch ra như sau.

“Thế giới là tổng số của tất cả những gì xảy ra.” – Wittgenstein, Tractatus Logico-Philosophicus, 1921

Thế giới không được tạo thành từ chữ cái.

Trong một bài viết trước đây, chúng tôi đề xuất rằng trí tuệ không gian là biên giới tiếp theo của AI, và mô hình thế giới là con đường dẫn tới nó. Ở đây, đội ngũ World Labs và tôi muốn đi sâu thêm một tầng nữa: trong số rất nhiều thứ hiện được gắn mác “mô hình thế giới”, những mô-đun chức năng nào thực sự cấu thành nên khả năng này? Công dụng cụ thể của chúng là gì?

Mô hình ngôn ngữ trao cho máy móc sự kiểm soát mạnh mẽ đối với khái niệm, từ vựng và lý luận, nhưng thế giới vật lý, dù là ảo hay thực, vận hành trên một nền tảng hoàn toàn khác. Mô hình ngôn ngữ học cấu trúc thống kê của văn bản, mô hình thế giới học cấu trúc thống kê của không gian và thời gian: ánh sáng rơi trên bề mặt như thế nào, một khu vườn trông ra sao từ một góc độ chưa bao giờ được máy ảnh chụp lại, vật thể phản ứng với lực và tuân theo định luật vật lý ra sao.

Điều này khiến “mô hình thế giới” trở thành một trong những thuật ngữ quan trọng nhất, đồng thời bị lạm dụng nhiều nhất trong lĩnh vực AI hiện nay. Thị giác máy tính, robot học, học tăng cường và AI sinh thành đều tuyên bố họ đang xây dựng mô hình thế giới, nhưng mỗi bên lại chỉ những thứ hoàn toàn khác nhau. Một mô hình video tạo ra ngọn lửa tráng lệ nhưng không thể xảy ra về mặt vật lý, một mô hình ngôn ngữ ngẫu hứng tạo ra trò chơi có thể chơi được, một engine vật lý trung thực mô phỏng quá trình cháy, tất cả đều được gọi bằng một tên.

Người Hy Lạp cổ đại không bao giờ đạt được thống nhất về thế giới được cấu thành từ cái gì, dù là lửa, nước hay nguyên tử không thể chia cắt, bởi vì “thế giới” chưa bao giờ là một thứ duy nhất. Nó luôn là từ thay thế mà một nhà tư tưởng sử dụng để lý luận về một tính tổng thể nào đó. AI thừa hưởng cùng một vấn đề, và điều đó xảy ra đúng vào lúc lĩnh vực này cần sự chính xác nhất.

Vòng lặp đằng sau phân loại học

Để làm rõ sự hỗn loạn này, có thể bắt đầu từ một biểu đồ còn cổ xưa hơn tất cả các công nghệ nói trên. Tất cả sách giáo khoa về học tăng cường, bao gồm Sutton và Barto kinh điển, hàng chục năm nay luôn sử dụng biến thể của cùng một biểu đồ để mô tả cách một tác nhân tương tác với thế giới. Tên chính thức của biểu đồ này là Quá trình quyết định Markov với quan sát một phần (POMDP), và định nghĩa ban đầu của thuật ngữ “mô hình thế giới” thuộc về truyền thống này.

Một tác nhân (có thể là người, robot hoặc hệ thống phần mềm) thực hiện hành động. Những hành động này thay đổi trạng thái của thế giới. Nhưng tác nhân không bao giờ trực tiếp nhìn thấy trạng thái, cái nó nhận được là quan sát: photon rơi trên võng mạc, chỉ số đọc của cảm biến, pixel trong khung hình video. Quan sát mới dẫn dắt hành động mới, và cứ thế lặp lại.

Từ “trạng thái” cần được tách ra để xem xét, bởi vì ý nghĩa của nó thay đổi trong các lĩnh vực khác nhau. Ở đây không nói về trạng thái của nhà hóa học, không phải sự khác biệt giữa rắn, lỏng và khí. Ở đây là trạng thái của nhà vật lý và nhà robot học: mô tả hoàn chỉnh về mọi thứ xảy ra trong thế giới tại một thời điểm nhất định, bao gồm mọi vật thể, mọi vị trí, mọi vận tốc, mọi thuộc tính. Trạng thái là hiện thực cơ bản của thế giới, về nguyên tắc là đầy đủ, nhưng đối với bất kỳ tác nhân nào trong đó thì không bao giờ có thể quan sát trực tiếp. Quan sát là góc nhìn cục bộ của tác nhân đối với hiện thực này. Hành động là sự phản hồi của tác nhân dựa trên đó.

Vòng lặp này (tác nhân → hành động → trạng thái → quan sát → tác nhân) chính là cấu trúc mang lại ý nghĩa kỹ thuật cho thuật ngữ “mô hình thế giới”. Cụm từ này thậm chí còn cổ xưa hơn, có thể truy ngược về đề xuất năm 1943 của Kenneth Craik, ông cho rằng tâm trí lý luận bằng cách chạy một “mô hình tỷ lệ nhỏ” của hiện thực, và vào cuối những năm 1980, đầu những năm 1990, khái niệm này được đưa vào lĩnh vực mạng nơ-ron. Vòng lặp này cũng giải thích ý nghĩa khi mọi người sử dụng thuật ngữ này ngày nay. Những thứ hiện được gọi là mô hình thế giới thực chất là các hình chiếu khác nhau của cùng một vòng lặp, mỗi loại xuất ra một thành phần khác nhau trong vòng lặp.

Ba chức năng của mô hình thế giới

Loại mô hình thế giới thứ nhất là bộ kết xuất. Bộ kết xuất xuất ra quan sát, cụ thể là pixel hướng đến mắt người, và chỉ số chất lượng quan trọng nhất là độ trung thực hình ảnh. Một mô hình video chuyển đổi lời nhắc văn bản thành cảnh quay cấp điện ảnh là một bộ kết xuất; hệ thống tương tác như Genie 3 của Google hoặc RTFM của chính World Labs cũng là bộ kết xuất, chúng tạo ra hình ảnh theo thời gian thực dựa trên đầu vào người dùng. Loại mô hình này không có hiểu biết rõ ràng về cấu trúc ba chiều. Nó tạo ra những hình ảnh người xem sẽ thấy, chứ không phải bản thân sự vật trông như thế nào. Tòa nhà trong cảnh quay trên không có thể hoàn hảo khi nhìn từ trên cao, nhưng hãy thử đi xuyên qua thành phố bên dưới, chúng sẽ sụp đổ.

Loại thứ hai là bộ mô phỏng. Bộ mô phỏng xuất ra trạng thái: một biểu diễn thế giới trung thực về mặt hình học, vật lý hoặc động lực học, nơi cả con người và chương trình máy tính đều có thể tính toán và tương tác trên đó. Thỏa thuận của bộ kết xuất là thuần túy hình ảnh, còn thỏa thuận của bộ mô phỏng là cấu trúc, đòi hỏi hình học chịu được kiểm tra, vật lý tuân theo định luật Newton, hành vi động lực học phù hợp với dự đoán của định luật vật lý. Bộ mô phỏng phục vụ đồng thời hai loại người dùng. Các chuyên gia như kiến trúc sư, nhà thiết kế, nhà làm phim, nhà phát triển trò chơi… cần độ chính xác vượt ra ngoài độ tin cậy hình ảnh. Các chương trình máy tính như tác nhân học tăng cường, bộ điều khiển robot, phương tiện tự hành… coi bộ mô phỏng như một bãi tập luyện, tương tác quy mô lớn với thế giới trong đó, kiểm tra những kịch bản nguy hiểm, đắt đỏ hoặc đơn giản là không thể thực hiện trong thực tế.

Loại thứ ba là bộ lập kế hoạch. Bộ lập kế hoạch xuất ra hành động. Cho một quan sát và một mục tiêu, bộ lập kế hoạch trả lời câu hỏi: tác nhân nên làm gì tiếp theo. Theo nhiều nghĩa, bộ lập kế hoạch là quá trình ngược của bộ kết xuất. Bộ kết xuất lấy hành động làm đầu vào, tạo ra quan sát; bộ lập kế hoạch lấy quan sát làm đầu vào, tạo ra hành động, từ đó đóng kín vòng lặp cảm nhận-hành động. Các mô hình Thị giác-Ngôn ngữ-Hành động (VLA), các hệ thống dựa trên mô hình, và làn sóng mới của các Mô hình Hành động Thế giới (World Action Models) đều là những nỗ lực khác nhau của bộ lập kế hoạch: cho phép hệ thống quyết định robot nên làm gì trong một thế giới phi cấu trúc.

Ba loại trên bao phủ phần lớn công việc hiện đang được triển khai thực tế, và sự phân biệt giữa chúng rất hữu ích trong thực tiễn. Nhưng ba loại này về cơ bản không tách biệt nhau. Chúng chia sẻ cùng một kiến thức cơ bản về cách thế giới vận hành: hình học, vật lý, động lực học. Về nguyên tắc, một mô hình có thể kết xuất một chiếc cốc từ bất kỳ góc độ nào cũng nên có thể mô phỏng điều gì sẽ xảy ra khi chiếc cốc bị đẩy, và lập kế hoạch cho một bàn tay nhấc nó lên. Ngày càng nhiều nghiên cứu thú vị nhất đang cố ý làm mờ ranh giới giữa ba loại này.

Hình 丨Ba loại mô hình thế giới (Nguồn: Substack)

Tại sao mô phỏng là trung tâm then chốt

Trong ba loại, bộ mô phỏng nhận được ít sự chú ý của công chúng nhất, nhưng lại quan trọng nhất trong ba loại. Bài viết này muốn sửa chữa sự bất đối xứng đó.

Bộ kết xuất hiện có mức độ thương mại hóa cao nhất. Một số lượng lớn sản phẩm tạo hình ảnh hoặc văn bản thành video đang mở rộng nhanh chóng trên thị trường tiêu dùng và doanh nghiệp. Mô hình Nano Banana của Google đã đưa khả năng tạo hình ảnh cấp bộ kết xuất đến tay hàng trăm triệu người dùng. Công nghệ là có thật, thị trường cũng có thật. Tuy nhiên, mục tiêu tối ưu hóa của bộ kết xuất là độ tin cậy hình ảnh chứ không phải độ chính xác vật lý, trần giới hạn này rất quan trọng. Đầu ra của chúng rất đẹp, nhưng bạn không thể dùng chúng để thiết kế một tòa nhà hoặc huấn luyện một con robot.

Bộ lập kế hoạch là thú vị nhất và cũng chưa trưởng thành nhất, nó liên quan chặt chẽ đến lĩnh vực học robot đang phát triển nhanh chóng. Hai năm qua, lĩnh vực này đã tạo ra nhiều trình diễn robot ấn tượng khi xem trên video, nhưng chúng ta cần thành thật đối mặt với những gì các trình diễn này thực sự thể hiện. Hầu hết tất cả trình diễn đều bị giới hạn trong môi trường phòng thí nghiệm rất hạn chế, số lượng loại vật thể có hạn, thời gian thực hiện nhiệm vụ ngắn. Không có cái nào được kiểm chứng bởi độ phức tạp, đa dạng và thời lượng liên tục mà triển khai thế giới thực yêu cầu. Khoảng cách giữa một video trình diễn tuyệt vời và một con robot có thể hoạt động đáng tin cậy trong nhà bếp, nhà kho hoặc phòng phẫu thuật vẫn rất lớn.

Tuy vậy, quy mô đặt cược thương mại vẫn đáng kể. Một làn sóng những người mới tham gia được tài trợ tốt đang tranh nhau ra mắt hệ thống lập kế hoạch tổng quát, trong khi các công ty hạ tầng lớn thì đang đặt khả năng lập kế hoạch trên các ngăn xếp mô phỏng rộng hơn.

Mô phỏng là cầu nối giữa hai bên. Nếu ngôn ngữ là sự trừu tượng hóa thế giới, pixel là hình chiếu của thế giới, thì hình học, vật lý và động lực học chính là bản thân thế giới. Bộ mô phỏng phải hoạt động ở cấp độ này: nó là khung xương cấu trúc, từ đó có thể suy ra biểu hiện hình ảnh (cho bộ kết xuất sử dụng) và hậu quả hành động (cho bộ lập kế hoạch sử dụng).

Một mô hình nắm vững mô phỏng có thể chiếu hiểu biết của nó thành pixel cho con người tiêu thụ, cũng có thể chiếu thành dự đoán hành động cho tác nhân hiện thân sử dụng. Trong khi đó, một mô hình chỉ nắm vững kết xuất hoặc chỉ nắm vững lập kế hoạch không thể làm được cả hai. Không gian thương mại ở đây cực kỳ rộng lớn. Chỉ riêng Omniverse của NVIDIA, quy mô thị trường mục tiêu theo ước tính của công ty đã vượt quá nghìn tỷ USD, bao phủ nhà máy, nhà kho, chuỗi cung ứng và song sinh kỹ thuật số. Huấn luyện robot, kiểm thử xe tự hành, trực quan hóa kiến trúc, thiết kế kỹ thuật, khám phá thuốc, tất cả đều phụ thuộc vào một hình thái mô phỏng nào đó.

Những câu hỏi mở khó khăn nhất của lĩnh vực này cũng tập trung ở đây. Dữ liệu ba chiều với hình học rõ ràng, thuộc tính vật liệu và chú thích vật lý khan hiếm hơn vài bậc độ lớn so với video internet mà bộ kết xuất sử dụng để huấn luyện. Khoảng cách sim-to-real (sự khác biệt giữa hành vi vật thể trong mô phỏng và trong thế giới thực) vẫn tồn tại. Bộ mô phỏng sinh thành còn giới thiệu thêm rủi ro mới: hình học được AI tạo ra có thể trông đúng, nhưng thực tế chứa các vấn đề tự giao nhau hoặc tỷ lệ sai, dẫn đến kết quả mô phỏng vật lý phi lý. Chi phí tính toán cho mô phỏng đa vật lý quy mô lớn (vật thể rắn, biến dạng, chất lỏng, vải tương tác đồng thời) vẫn cao hơn vài bậc độ lớn so với mô phỏng đơn lĩnh vực.

Tại World Labs, Marble là bước đầu tiên của chúng tôi theo hướng này. Nó tiếp nhận đầu vào đa phương thức (văn bản, hình ảnh, video hoặc bản phác không gian), tạo ra môi trường 3D có thể khám phá, đồng thời xuất ra Gaussian splat để khám phá hình ảnh và lưới va chạm cho engine vật lý vận hành. Nhưng Marble chỉ là chương đầu tiên của một cung dài. Khi ranh giới giữa kết xuất, mô phỏng và lập kế hoạch bắt đầu tan biến, toàn bộ lĩnh vực đang viết nên câu chuyện này.

Ranh giới đang tan biến, và điều gì sẽ xảy ra tiếp theo

Xu hướng quan trọng nhất của lĩnh vực hiện nay là ba loại đang bắt đầu hợp nhất. Sự đồng thuận đằng sau là: kiến thức cần thiết để kết xuất một thế giới, mô phỏng nó, và hành động trong đó, phần lớn là giống nhau. Tiếp tục ví dụ trước, một mô hình thực sự hiểu chiếc cốc được đặt trên bàn như thế nào (hình dạng hình học, thuộc tính vật liệu, phản ứng với lực, v.v…), về lý thuyết nên có thể kết xuất chiếc cốc từ bất kỳ góc độ nào, mô phỏng điều gì sẽ xảy ra khi chiếc cốc bị đẩy, và lập kế hoạch cho một bàn tay nhấc nó lên. Ba loại là ba hình chiếu của cùng một hiểu biết cơ bản.

Ví dụ, gần đây đã có một số lượng nhỏ nhưng đang tăng lên các công trình từ các phòng thí nghiệm robot khác nhau, chúng cho thấy một khả năng ít nhất về mặt khái niệm là có thật: một bộ kết xuất video được huấn luyện trước có thể đóng vai trò là mạng xương sống cho dự đoán thế giới và hành động kết hợp, cho phép một mô hình duy nhất đồng thời tưởng tượng “điều gì sẽ xảy ra” và “nên làm gì”, từ đó bắc cầu giữa bộ kết xuất và bộ lập kế hoạch. Marble của World Labs đã có thể từ một mô hình duy nhất đồng thời xuất ra Gaussian splat và lưới va chạm, làm tan biến ranh giới giữa bộ kết xuất và bộ mô phỏng. Mỗi tầng đều đang chuyển từ đầu ra thụ động sang hệ thống tương tác: bộ kết xuất trở nên có thể phản hồi với điều kiện hành động, thế giới do bộ mô phỏng tạo ra trở nên dễ kiểm soát và chỉnh sửa hơn, bộ lập kế hoạch bắt đầu lý luận cẩn trọng thay vì chỉ phản ứng.

Điểm đến logic là một mô hình thế giới thống nhất: một mô hình nền tảng có thể kết xuất các góc nhìn trung thực như ảnh chụp, tạo ra các cấu trúc chính xác về mặt vật lý, lập kế hoạch chuỗi hành động, và chuyển đổi giữa các phương thức đầu ra khác nhau tùy theo nhu cầu của người dùng hạ nguồn. Chúng ta vẫn sẽ đối mặt với một loạt thách thức nghiêm trọng. Cục diện dữ liệu cực kỳ không cân đối, bộ kết xuất có lượng lớn video internet, trong khi bộ mô phỏng và bộ lập kế hoạch phải đối mặt với sự khan hiếm nghiêm trọng của dữ liệu tài sản 3D và trình diễn robot. Tối ưu hóa cho tính thẩm mỹ hình ảnh có thể hy sinh độ chính xác mà robot hoặc mô phỏng độ trung thực cao yêu cầu. Việc điều hòa những căng thẳng này trong một kiến trúc đơn nhất là vấn đề mở cốt lõi của nghiên cứu mô hình thế giới ngày nay, và cũng là điều World Labs đang nỗ lực giải quyết trong quá trình phát triển liên tục Marble.

(Nguồn: Substack)

Nhưng phương hướng lớn đã rõ ràng. Từ cuối những năm 1980 đến nay, lĩnh vực này đặt cược vào cùng một ván: chỉ cần mô hình thế giới đủ phong phú, mọi thứ tác nhân cần để nhìn thấy thế giới, xây dựng thế giới và hành động trong đó đều ở bên trong. Ván cược này giờ đây đang thúc đẩy nghiên cứu của cả một thế hệ. Và điều thực sự gia trọng cho nó, là sự hợp nhất đang diễn ra: ba đường kết xuất, mô phỏng, lập kế hoạch, mỗi đường đã tự mình xây dựng nên các ngành công nghiệp trị giá hàng chục tỷ USD, ban đầu là các hướng nghiên cứu độc lập, giờ đây bắt đầu hội tụ lại. Khi ranh giới biến mất, sự hợp lưu của ba bên sẽ định nghĩa lại một điều lớn hơn: mối quan hệ giữa trí tuệ máy móc và thế giới vật lý mà nó cư trú, cũng chính là hướng đi dài hạn của trí tuệ không gian.

Ngôn ngữ cho máy móc một cách nói về thế giới này. Mô hình thế giới, là con đường để máy móc cuối cùng có thể hiểu, tưởng tượng, lý luận và tương tác với nó.

Tài liệu tham khảo: 1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models

Câu hỏi Liên quan

QBài viết của Lý Phi Phi đề xuất phân loại chức năng nào cho các mô hình thế giới trong AI?

ABài viết đề xuất một phân loại chức năng dựa trên vòng lặp POMDP (quá trình ra quyết định Markov quan sát một phần), chia các mô hình thế giới thành ba loại chính: Bộ kết xuất (Renderer) - xuất ra quan sát (pixel cho mắt người), Bộ mô phỏng (Simulator) - xuất ra trạng thái (biểu diễn hình học/vật lý chính xác của thế giới), và Bộ lập kế hoạch (Planner) - xuất ra hành động (quyết định tác nhân nên làm gì).

QTại sao tác giả cho rằng Bộ mô phỏng (Simulator) là trung tâm quan trọng trong ba loại mô hình thế giới?

ATác giả lập luận rằng Bộ mô phỏng là quan trọng nhất vì nó hoạt động ở cấp độ cấu trúc cơ bản của thế giới - hình học, vật lý và động lực học. Nắm bắt được sự mô phỏng, một mô hình có thể chiếu sự hiểu biết đó thành pixel cho con người tiêu thụ (kết xuất) và dự đoán hậu quả hành động cho tác nhân (lập kế hoạch). Ngược lại, một mô hình chỉ biết kết xuất hoặc chỉ lập kế hoạch thì không thể làm được cả hai. Nó cũng phục vụ nhu cầu thương mại rộng lớn trong đào tạo robot, thiết kế kỹ thuật, v.v.

QSản phẩm Marble của World Labs được mô tả có khả năng gì nổi bật?

AMarble của World Labs được mô tả là bước đầu tiên hướng tới việc hợp nhất các loại mô hình. Nó nhận đầu vào đa phương thức (văn bản, hình ảnh, video hoặc phác thảo không gian) và tạo ra môi trường 3D có thể khám phá. Điểm nổi bật là nó đồng thời xuất ra cả "Gaussian splats" để khám phá hình ảnh chất lượng cao (chức năng của Bộ kết xuất) và "collision mesh" để các công cụ vật lý vận hành (chức năng của Bộ mô phỏng), từ đó làm mờ ranh giới giữa hai loại này.

QXu hướng chính nào đang diễn ra trong lĩnh vực mô hình thế giới theo bài viết?

AXu hướng chính là ba loại chức năng - Kết xuất, Mô phỏng và Lập kế hoạch - đang bắt đầu hội tụ và hợp nhất. Có sự đồng thuận rằng kiến thức cần thiết để kết xuất, mô phỏng và hành động trong một thế giới phần lớn là giống nhau. Chúng là ba hình chiếu khác nhau của cùng một sự hiểu biết cơ bản về thế giới. Nghiên cứu đang hướng tới các mô hình đa năng có thể chuyển đổi đầu ra tùy theo nhu cầu sử dụng cuối cùng.

QBài viết so sánh sự khác biệt cơ bản giữa Mô hình Ngôn ngữ và Mô hình Thế giới như thế nào?

ABài viết nêu rõ sự khác biệt cơ bản: Mô hình Ngôn ngữ học cấu trúc thống kê của văn bản, giúp máy móc nắm bắt khái niệm, từ vựng và suy luận - một cách trừu tượng hóa để 'nói về' thế giới. Trong khi đó, Mô hình Thế giới học cấu trúc thống kê của không gian và thời gian: ánh sáng rơi như thế nào, vật thể phản ứng với lực ra sao, v.v. Đây là con đường giúp máy móc thực sự hiểu, tưởng tượng, suy luận và tương tác với thế giới vật lý.

Nội dung Liên quan

Tại sao 14,336 giao dịch ETH của hacker UXLINK đặt ra câu hỏi mới cho DeFi

Hoạt động gần đây trên blockchain cho thấy kẻ khai thác lỗ hổng UXLINK đang tích cực rửa số tiền đánh cắp để gây khó khăn cho việc truy vết. Vụ việc xảy ra vào tháng 9/2025, khi hacker lợi dụng lỗ hổng 'delegateCall' để chiếm quyền ví đa chữ ký của dự án, tạo ra hàng tỷ token UXLINK bất hợp pháp và rút khoảng 4,5 triệu USD tài sản tiền mã hóa. Sau đó, kẻ tấn công đã chuyển đổi phần lớn số tiền sang DAI và ETH. Đáng chú ý, trong hai tuần qua, họ đã gửi tổng cộng 14.336,6 ETH vào Tornado Cash – một dịch vụ trộn tiền – để che giấu nguồn gốc, với lần gửi gần đây nhất trị giá hơn 8,1 triệu USD. Song song đó, một ví liên quan đến Mining Express – một dự án được cho là mô hình Ponzi đã sụp đổ – cũng bắt đầu tái phân bổ tài sản bằng cách chuyển đổi 5.004 ETH lấy 8,8 triệu DAI và sau đó chuyển một phần vào Tornado Cash. Các sự việc này làm nổi bật một khoảng trống lớn trong hệ sinh thái DeFi: mặc dù cho phép chuyển tài sản không cần cấp phép một cách trơn tru, nhưng vẫn thiếu các cơ chế hiệu quả để ngăn chặn hoặc xử lý các dòng tiền bất hợp pháp một khi chúng đã được đưa vào hệ thống. Điều này đặt ra yêu cầu cấp thiết về việc tăng cường phối hợp liên mạng và triển khai các hệ thống phát hiện đe dọa thời gian thực để bảo vệ tính phi tập trung và quyền riêng tư của người dùng.

ambcrypto26 phút trước

Tại sao 14,336 giao dịch ETH của hacker UXLINK đặt ra câu hỏi mới cho DeFi

ambcrypto26 phút trước

Đặc trưng của Forbes: Thanh toán xuyên biên giới bằng stablecoin nhanh hơn, nhưng vẫn chưa rẻ hơn

Tiêu điểm của Forbes: Thanh toán xuyên biên giới bằng stablecoin đã nhanh hơn, nhưng chưa rẻ hơn Ngành thanh toán xuyên biên giới bằng stablecoin đang tăng trưởng mạnh, với công nghệ sẵn sàng, môi trường pháp lý được cải thiện và khối lượng giao dịch tăng. Tuy nhiên, lời hứa về chi phí thấp hơn đáng kể so với các phương thức truyền thống (60-70 điểm cơ bản) vẫn chưa thành hiện thực, hiện ở mức 2-5 điểm cơ bản. Nguyên nhân chính là thiếu các nhóm thanh khoản sâu và quy mô lớn. Rào cản lớn nhất không phải là công nghệ mà là vấn đề tin cậy. Các doanh nghiệp thường gắn bó với đối tác ngoại hối truyền thống đã có mối quan hệ lâu dài và đáng tin cậy. Sự thay đổi chỉ diễn ra khi chênh lệch chi phí trở nên quá lớn hoặc một thế hệ doanh nhân mới xuất hiện. Các công ty thành công trong lĩnh vực này, như Caliza, không tìm cách thay thế hệ thống cũ (ví dụ: SWIFT) mà bổ sung và tích hợp với nó, đảm bảo độ chính xác và tuân thủ trong các khoản thanh toán phức tạp cho nhà cung cấp. Tăng trưởng mạnh mẽ (trên 40% hàng tháng) được thúc đẩy nhờ việc tự xây dựng giấy phép, quan hệ đối tác ngân hàng và kênh chuyển đổi pháp định. Tương lai của ngành sẽ chứng kiến sự sàng lọc tự nhiên. Các công ty tồn tại và phát triển được sẽ là những đơn vị sở hữu ba yếu tố then chốt: giấy phép đầy đủ, kênh tiếp cận pháp định vững chắc và khả năng cung cấp thanh khoản. Thiếu chúng, họ chỉ đơn thuần là những trung gian.

marsbit1 giờ trước

Đặc trưng của Forbes: Thanh toán xuyên biên giới bằng stablecoin nhanh hơn, nhưng vẫn chưa rẻ hơn

marsbit1 giờ trước

Forbes: Thanh toán xuyên biên giới bằng stablecoin đã nhanh hơn, nhưng chưa rẻ hơn

Bài viết của Forbes nhấn mạnh ngành thanh toán xuyên biên giới bằng stablecoin đang tăng trưởng nhanh chóng, với những cải thiện về công nghệ và môi trường quản lý. Tuy nhiên, lời hứa về chi phí thấp hơn vẫn chưa thành hiện thực. Trong khi các nhà môi giới ngoại hối truyền thống thu phí từ 60 đến 70 điểm cơ bản, stablecoin hướng tới mức chỉ 2-5 điểm, nhưng lợi thế này chủ yếu vẫn chỉ là lý thuyết. Nguyên nhân chính là thiếu các nhóm thanh khoản sâu, quy mô lớn. Theo Imran Ahmad của Bitso Business, ưu thế về giá sẽ chỉ xuất hiện khi có dòng thanh khoản thể chế đổ vào. Một rào cản quan trọng khác là vấn đề niềm tin. Các doanh nghiệp thường gắn bó lâu dài với đại lý ngoại hối đáng tin cậy, khiến việc chuyển đổi sang giải pháp mới diễn ra chậm. Các công ty thành công như Caliza không tìm cách thay thế hệ thống cũ (như Swift) mà bổ sung cho nó, kết hợp tính nhanh chóng của stablecoin với độ tin cậy và tiêu chuẩn hóa của cơ sở hạ tầng truyền thống. Chiến lược này giúp họ đạt mức tăng trưởng ấn tượng. Tương lai của ngành được dự báo sẽ chứng kiến sự sàng lọc, nơi các công ty nắm giữ được giấy phép, kênh tiền pháp định và thanh khoản mới có thể tồn tại lâu dài.

链捕手1 giờ trước

Forbes: Thanh toán xuyên biên giới bằng stablecoin đã nhanh hơn, nhưng chưa rẻ hơn

链捕手1 giờ trước

Bài viết mới của Lý Phi Phi: Khi tạo video, robot và NVIDIA đều tự xưng là mô hình thế giới, chúng ta cần một phân loại học

Tác giả Lý Phi Phi đưa ra một phân loại rõ ràng cho khái niệm "mô hình thế giới" (world model) đang bị sử dụng lộn xộn trong AI hiện nay. Dựa trên vòng lặp POMDP cơ bản (tác nhân → hành động → trạng thái → quan sát), bà chia các hệ thống tự xưng là mô hình thế giới thành ba loại chức năng: 1. **Bộ kết xuất (Renderer)**: Đầu ra là quan sát (pixel), tập trung vào độ trung thực thị giác. Ví dụ: các mô hình tạo video như Sora. Hạn chế: hình ảnh đẹp nhưng có thể không đúng vật lý. 2. **Bộ mô phỏng (Simulator)**: Đầu ra là trạng thái thế giới (mô hình hình học, vật lý, động lực học chính xác). Đây là trung tâm then chốt, có thể phục vụ cả con người (thiết kế, mô phỏng) và máy móc (đào tạo robot, xe tự lái). Ví dụ: NVIDIA Omniverse. 3. **Bộ lập kế hoạch (Planner)**: Đầu ra là hành động. Dựa trên quan sát và mục tiêu, nó quyết định tác nhân nên làm gì tiếp theo. Ví dụ: các mô hình Ngôn ngữ-Thị giác-Hành động (VLA) cho robot. Bài viết nhấn mạnh **bộ mô phỏng là trung tâm bị đánh giá thấp**, vì nó hoạt động ở cấp độ cấu trúc nền tảng (hình học, vật lý), từ đó có thể suy ra đầu ra cho cả bộ kết xuất và bộ lập kế hoạch. Trong khi bộ kết xuất thương mại hóa tốt nhưng có trần vật lý, và bộ lập kế hoạch hứa hẹn nhưng chưa trưởng thành, thì bộ mô phỏng là cầu nối thiết yếu. Xu hướng tương lai là sự hội tụ của ba loại này hướng tới một **mô hình thế giới thống nhất**, có thể chuyển đổi linh hoạt giữa kết xuất, mô phỏng và lập kế hoạch dựa trên cùng một hiểu biết cơ bản về thế giới. Điều này sẽ định hình tương lai của trí thông minh không gian, cho phép máy móc không chỉ nói về thế giới (như mô hình ngôn ngữ) mà thực sự hiểu, tưởng tượng và tương tác với nó.

链捕手1 giờ trước

Bài viết mới của Lý Phi Phi: Khi tạo video, robot và NVIDIA đều tự xưng là mô hình thế giới, chúng ta cần một phân loại học

链捕手1 giờ trước

Bitcoin: Đây là lý do tại sao đợt tăng giá Q3 của Bitcoin có thể đối mặt với bài kiểm tra thanh khoản

Dữ liệu on-chain của Bitcoin cho thấy thị trường có thể đang ở giai đoạn cuối của chu kỳ giảm giá, với tỷ lệ Lợi nhuận/Thua lỗ Thực tế (Realized P/L Ratio) xuống mức thấp nhất trong 43 tháng, thường báo hiệu đáy. Áp lực bán dường như đang giảm dần, được củng cố bởi dòng tiền ròng chảy vào các ETF Bitcoin tại Mỹ, cho thấy nhu cầu từ các tổ chức đang quay trở lại. Tuy nhiên, sự phục hồi tiềm ẩn của Bitcoin trong quý III có thể đối mặt với một thách thức lớn: thanh khoản. Bất chấp dòng tiền vào ETF, vốn hóa của các stablecoin chính như USDT và USDC vẫn tiếp tục thu hẹp, với hơn 1 tỷ USD rút khỏi thị trường chỉ trong tuần qua. Điều này cho thấy thiếu vốn mới thực sự chảy vào hệ sinh thái tiền điện tử. Trong khi đó, các nhà giao dịch đang bắt đầu xây dựng lại các vị thế có đòn bẩy. Nếu tình trạng thanh khoản yếu không được cải thiện, có thể sẽ không có đủ nhu cầu giao ngay để hỗ trợ đà tăng, khiến Bitcoin dễ bị tổn thương trước các đợt điều chỉnh mạnh do thanh lý đòn bẩy gây ra. Do đó, đợt tăng giá dự kiến trong quý III có thể gặp khó khăn trong việc duy trì đà tăng.

ambcrypto1 giờ trước

Bitcoin: Đây là lý do tại sao đợt tăng giá Q3 của Bitcoin có thể đối mặt với bài kiểm tra thanh khoản

ambcrypto1 giờ trước

Giao dịch

Giao ngay

Bài viết mới nhất của Lý Phi Phi: Khi video tạo sinh, robot và NVIDIA đều tự xưng là mô hình thế giới, chúng ta cần một phân loại học

Tóm tắt

Vòng lặp đằng sau phân loại học

Ba chức năng của mô hình thế giới

Tại sao mô phỏng là trung tâm then chốt

Ranh giới đang tan biến, và điều gì sẽ xảy ra tiếp theo

Câu hỏi Liên quan

Nội dung Liên quan

Tại sao 14,336 giao dịch ETH của hacker UXLINK đặt ra câu hỏi mới cho DeFi

Đặc trưng của Forbes: Thanh toán xuyên biên giới bằng stablecoin nhanh hơn, nhưng vẫn chưa rẻ hơn

Forbes: Thanh toán xuyên biên giới bằng stablecoin đã nhanh hơn, nhưng chưa rẻ hơn

Bài viết mới của Lý Phi Phi: Khi tạo video, robot và NVIDIA đều tự xưng là mô hình thế giới, chúng ta cần một phân loại học

Bitcoin: Đây là lý do tại sao đợt tăng giá Q3 của Bitcoin có thể đối mặt với bài kiểm tra thanh khoản

Giao dịch

Danh mục Phổ biến

Thẻ Nổi bật