“Thế giới là tất cả những gì xảy ra.”
Năm 1921, Ludwig Wittgenstein đã viết câu danh ngôn này trong “Luận Văn Logic-Triết Học”. Một thế kỷ sau, câu nói này được Lý Phi Phi, một trong những nhà lãnh đạo AI hàng đầu, trích dẫn làm phần mở đầu cho một bài blog công nghệ mới nhất của cô.
Trong bản đồ học sâu, mọi người đã quen với sự tấn công giảm chiều của AI đối với ngôn ngữ trong ba năm gần đây, bắt đầu từ việc ChatGPT trao cho máy móc khả năng biểu đạt, lập trình và suy luận vượt xa con người.
Tuy nhiên, đằng sau phép màu kỹ thuật số, một điểm mù thường bị bỏ qua: Máy móc có thể nói về thế giới, nhưng lại hoàn toàn không biết gì về bản chất vật lý của thế giới. Bài blog mà Lý Phi Phi công bố giống như một lần hạ nhiệt lạnh lùng.
Trong bối cảnh AI tạo sinh đã trở thành công cụ không thể thiếu trên toàn cầu ngày nay, định nghĩa về “mô hình thế giới” trong nội bộ ngành đang ngày càng trở nên hỗn loạn. Dù là tạo video hay trí tuệ thể hiện, các công ty đều đang tranh giành quyền giải thích khái niệm này.
Sau khi Lý Phi Phi đăng bài blog này, không ít người cho rằng cô đang cố gắng giành lại quyền định nghĩa “mô hình thế giới”. Nhưng ngược lại, tôi nghĩ, điều Lý Phi Phi thực sự muốn làm là thông qua đó để gửi đến mọi người một lời tuyên ngôn: Thế giới không được cấu thành bởi ngôn ngữ, mà bởi các quy luật không gian vật lý và thời gian chặt chẽ.
Để máy móc thực sự bước vào thế giới vật lý của con người, chúng phải thoát khỏi vùng an toàn thống kê văn bản và chuyển sang hiểu sự khúc xạ ánh sáng, quán tính của vật thể và logic va chạm. Đây không chỉ là sự chuyển dịch mô hình kỹ thuật mà còn là con đường tất yếu để AI tiến tới trí tuệ thể hiện.
01
Mọi người cần một hệ thống phân loại
Phải thừa nhận rằng, trong từ điển AI, “mô hình thế giới” đã trở thành một đại từ vạn năng, bất kỳ dự án nào liên quan đến việc tạo hình ảnh và mô phỏng môi trường dường như đều có thể liên kết với nó. Và sự mơ hồ này chính là bắt nguồn từ nhu cầu đa chiều của con người về định nghĩa “thế giới”.
Khi một công nghệ vừa mới bắt đầu, tự nhiên sẽ không có điều luật thống nhất nào để trói buộc nó trong một ranh giới rõ ràng. Sự hỗn loạn trong định nghĩa “mô hình thế giới” này cũng không hiếm gặp trong lịch sử. Khi các triết gia Hy Lạp cổ đại tranh luận về việc bản chất của thế giới là nước, lửa hay là các nguyên tử không thể phân chia, thực chất họ đang tìm kiếm nền tảng cho lý luận của mình.
Lĩnh vực AI hiện nay cũng gặp phải vấn đề tương tự: Khi một mô hình tạo video cho ra hiệu quả cực kỳ chân thực về mặt hình ảnh, nhưng lại hoàn toàn không thể tồn tại theo các quy luật vật lý, con người nên định nghĩa nó như thế nào? Bài blog của Lý Phi Phi đề cập đến một nền tảng định nghĩa cũ nhưng vững chắc: Quá trình quyết định Markov quan sát được một phần (POMDP).
Đây cũng là tiên đề cốt lõi của cơ chế học tăng cường, nó tiết lộ một vòng lặp vĩnh cửu của sự tương tác giữa tác nhân thông minh và thế giới vật lý: Tác nhân thực hiện hành động (Action), dẫn đến trạng thái thế giới (State) thay đổi. Tuy nhiên, tác nhân không có góc nhìn toàn tri, chỉ có thể thông qua quan sát (Observation) để xây dựng nhận thức cục bộ về thực tế.
Cái gọi là mô hình thế giới, về bản chất chính là mô hình trừu tượng về thế giới mà máy móc xây dựng trong “bộ não” của nó để tồn tại trong vòng lặp này. Nếu một mắt xích nào đó trong vòng lặp này không được định nghĩa rõ ràng, thì cái gọi là mô hình thế giới vẫn chỉ là sự chồng chất pixel mù quáng.
02
Ba trụ cột xây dựng trí tuệ
Vòng lặp này nghe có vẻ đơn giản, chức năng của từng mắt xích đều dễ hiểu. Tuy nhiên, nếu phân tích kỹ, bên trong đều có vô số chi tiết định nghĩa mơ hồ. Để giải thích sự hỗn loạn đó, Lý Phi Phi đã tách ra ba thành phần cốt lõi của mô hình thế giới, chúng vừa là phân loại kỹ thuật, vừa là ba trụ cột để AI hướng tới trí tuệ thể hiện.
1. Bộ kết xuất (Renderer)
Logic cốt lõi của bộ kết xuất là tính hợp lý về mặt hình ảnh. Đầu ra của nó là pixel, nỗ lực làm cho hình ảnh trở nên tự nhiên, mạch lạc, đẹp mắt trong mắt con người.
Đây cũng là lĩnh vực thương mại hóa thành công nhất hiện nay. Giống như các mô hình tạo video Sora của OpenAI và Seedance 2.0 của ByteDance, mô hình tạo ảnh GPT-image-2 của OpenAI và Nano Banana 2 của Google mà chúng ta quen thuộc, về bản chất đều là những cỗ máy xác suất thị giác tinh vi nhất hiện nay. Bằng cách học từ hàng tỷ hình ảnh và video trên Internet, cuối cùng chúng nắm bắt được quy luật phân bố của ánh sáng, bóng tối và hình thái.
Hiện thực tưởng chừng tươi đẹp, Lý Phi Phi chỉ ra rằng, điều này phải trả giá. Những mô hình hàng đầu này tuy có thể tạo ra những kiến trúc lộng lẫy, nhưng nếu cố gắng tương tác trong cấu trúc vật lý do chúng tạo ra, tòa nhà rất có thể sẽ sụp đổ ngay lập tức do thiếu cấu trúc hỗ trợ. Nói cách khác, chúng không hiểu “hỗ trợ” là gì, thứ chúng tạo ra chỉ là cái mà người xem “thấy”, không phải cái mà thế giới “tồn tại”.
2. Bộ mô phỏng (Simulator)
Thứ mà bộ mô phỏng theo đuổi, chính là lòng trung thành về cấu trúc mà bộ kết xuất thiếu. Nó hoàn toàn không quan tâm video có đẹp hay không, điều duy nhất nó quan tâm chỉ là thế giới có tuân theo quy luật vật lý hay không. Khi một bộ mô phỏng xuất ra một chiếc cốc bình thường nhất, nó cũng phải bao gồm sự phân bố khối lượng, hệ số ma sát vật liệu, phản ứng trọng lực và ranh giới vật lý khi va chạm của chiếc cốc.
Có bộ mô phỏng, nội dung trong video mới có thể nói đến tính chân thực. Tuy nhiên, bộ mô phỏng không chỉ bị đánh giá thấp nghiêm trọng trong làn sóng AI hiện nay, mà còn thường xuyên bị bỏ qua.
Xét từ trường hợp chiếc cốc trên, sự tồn tại của bộ mô phỏng biến “thảo luận nghệ thuật” thành “nghiên cứu vật lý”. Để xây dựng một bộ mô phỏng tuân thủ nghiêm ngặt các quy luật vật lý, nguồn lực tính toán và chi phí gán nhãn cần thiết đều khó có thể tưởng tượng. Nhưng đối với robot, tính thẩm mỹ hình ảnh hầu như là một thuộc tính vô dụng, chỉ có độ chính xác vật lý mới quyết định tất cả.
Bộ mô phỏng không đủ chính xác, robot được huấn luyện trong đó sẽ không bao giờ có thể bước vào thế giới thực. Thách thức Sim-to-Real là khách quan tồn tại, động tác kiểm tra đạt 100% trong phòng thí nghiệm, đến thế giới thực, lực ma sát nhỏ bé cũng có thể khiến robot tê liệt hoàn toàn, đây chính là “Nghịch lý Moravec” mà chúng ta thường nói.
3. Bộ lập kế hoạch (Planner)
Bộ lập kế hoạch chịu trách nhiệm đầu ra hành động. Là điểm kết nối giữa nhận thức và phản hồi, nó cần giải quyết câu hỏi cốt lõi không bao giờ có đáp án tiêu chuẩn “tiếp theo nên làm gì”. Trong khuôn khổ của Lý Phi Phi, đây cũng là liên kết cuối cùng của toàn bộ vòng lặp “nhận thức-hành động”, đồng thời cũng là lĩnh vực tiên phong đầy thách thức nhất.
Tất cả các mô hình thị giác-ngôn ngữ-hành động (VLA) hiện nay, đều đang cố gắng để hệ thống đưa ra quyết định trong thế giới phức tạp phi cấu trúc. Bộ lập kế hoạch không chỉ là dự đoán tương lai, mà còn là lựa chọn ra một con đường có thể đạt được mục tiêu nhất trong vô số khả năng. Nó là chìa khóa để máy móc tiến hóa từ “người quan sát” thành “người thực hành”.
03
Trung tâm nghìn tỷ đô la
Trong ba phân loại mà Lý Phi Phi đưa ra, các mô hình tương ứng với bộ kết xuất và bộ lập kế hoạch đã khá phổ biến; bộ mô phỏng còn lại, đương nhiên trở thành mắt xích khó thực hiện nhất. Lý Phi Phi cũng đưa ra một đánh giá sâu sắc: Bộ mô phỏng là cầu nối liên kết kết xuất với lập kế hoạch, cũng là trung tâm hạch tâm của toàn bộ hệ thống.
Làm tốt nhất trong lĩnh vực bộ mô phỏng này, không phải OpenAI, Anthropic và Google, mà là NVIDIA của Hoàng Nhân Huân.
Omniverse của Nvidia tuyên bố có thể chống đỡ giấc mơ song sinh kỹ thuật số nghìn tỷ đô la, nguyên nhân là nó nắm bắt được bản chất của bộ mô phỏng. Trên nền tảng của Nvidia, hoạt động của nhà máy, chuỗi cung ứng và kho hàng đều đã trở thành hình ảnh kỹ thuật số hoàn chỉnh. Đối với giới công nghiệp, đây không còn là demo trình diễn trên hình ảnh, mà là cơ sở hạ tầng cốt lõi của sức sản xuất.
Đây không phải là phóng đại, mà là cơ hội thị trường nghìn tỷ đô la đặt trước mắt tất cả mọi người.
Từ hiển thị ảo hóa xây dựng công trình, đến mô phỏng động lực học phân tử trong ngành dược phẩm, cho đến kiểm tra cảnh tượng lái xe tự động. Những ngành này thiếu không phải mô hình tạo ảnh tạo video sống động như thật, mà là một bộ mô phỏng có độ trung thực cực cao. Không ngoa, nắm bắt được khả năng mô phỏng thế giới vật lý, đồng nghĩa với nắm được vé ưu tiên vào sân cho công nghiệp hóa AI.
Nhưng khó khăn trong thực tế khiến lĩnh vực này hầu như không có người lạc quan công nghệ. Lý Phi Phi cũng thừa nhận, vực thẳm khổng lồ vẫn luôn tồn tại.
Đầu tiên chính là vấn đề dữ liệu trí tuệ thể hiện mà chúng ta đã đề cập nhiều lần trước đây. Dữ liệu video trên Internet nhiều vô kể, nhưng dữ liệu 3D được gán nhãn rõ ràng về cấu trúc hình học, thuộc tính vật liệu và phản hồi vật lý lại cực kỳ khan hiếm.
Thứ hai, ứng dụng AI tạo sinh sẽ luôn đi kèm với rủi ro ngầm. Mô hình hình học do AI tạo ra nhiều nhất chỉ có thể đạt được sự hoàn hảo về mặt hình ảnh, nhưng về cấu trúc vật lý thường không hợp lý, ví dụ như cốc giao cắt với mặt bàn, vật thể va chạm mất cảm giác thể tích. Trong miệng con người, hai chữ “xuyên mô hình” có thể bao quát những hiện tượng kỳ quái này, nhưng trong ứng dụng công nghiệp thực tế, điều này có nghĩa là thảm họa.
04
Hướng tới mô hình thế giới thống nhất
Dù khó khăn chồng chất, Lý Phi Phi vẫn đưa ra dự đoán tích cực về xu hướng ngành: Ranh giới giữa kết xuất, mô phỏng và lập kế hoạch đang trở nên mờ nhạt.
Đây không phải là viễn cảnh tươi đẹp, mà là hiện thực đang diễn ra. Đội ngũ World Labs của Lý Phi Phi sau khi khám phá, cho rằng con người đang tiến về một mô hình cơ bản thống nhất. Trong kiến trúc này, trí tưởng tượng và logic có thể hợp làm một.
Mô hình trong tương lai không còn là sự cộng dồn và ghép nối chức năng đơn lẻ, mà là một nền tảng mạng thần kinh thống nhất. Nó vừa có thể kết xuất cảnh tượng chân thực thông qua Gaussian Splatting, vừa tạo ra lưới va chạm cần thiết cho động cơ vật lý theo thời gian thực. Nói đơn giản, mô hình cơ bản thống nhất sẽ thực hiện chuyển đổi liền mạch giữa chế độ hình ảnh mà con người cần và chế độ trạng thái mà động cơ vật lý cần.
Từ một góc độ khác, các mô hình truyền thống đều là tĩnh, còn mô hình thế giới trong tương lai sẽ có khả năng tương tác mạnh mẽ hơn. Bộ kết xuất sẽ không còn là máy tạo video thụ động, dần dần bắt đầu tiếp nhận chỉ lệnh hành động; bộ mô phỏng trở nên có thể chỉnh sửa và kiểm soát hơn; bộ lập kế hoạch cũng có thể suy nghĩ logic, tự động điều chỉnh chiến lược theo sự thay đổi môi trường.
05
Đường cong dài của trí tuệ không gian
Cuối cùng, nhìn lại cấp độ vĩ mô, tất cả những điều này về “mô hình thế giới” tại sao lại quan trọng?
Theo quan điểm của Lý Phi Phi, nghiên cứu AI của con người trong mấy chục năm qua, đều luôn tìm kiếm chiếc chìa khóa có thể đưa máy móc bước vào thế giới vật lý. Ngày nay, chúng ta đã có mô hình ngôn ngữ giỏi xử lý logic, tiếp theo cần chính là mô hình xử lý không gian. Cốt lõi của trí tuệ không gian, nằm ở cách máy móc tương tác với thế giới vật lý mà nó tồn tại.
Trận chiến này, so không phải ai có nhiều sức mạnh tính toán hơn, mà là ai có thể định nghĩa tiêu chuẩn kỹ thuật số cho thế giới vật lý.
Mô hình thế giới tuyệt đối không phải là một sự tối ưu hóa thuật toán đơn giản, mà là một kỳ tích tiến hóa của AI.
“Ngôn ngữ trao cho máy móc khả năng nói về thế giới này, còn mô hình thế giới là cách thức cuối cùng để máy móc hiểu, tưởng tượng, suy luận và tương tác với thế giới vật lý.”
Mỗi người trong thời đại này, đều đang từ giai đoạn nói về thế giới, bước sang kỷ nguyên mới thực sự hiểu và tái cấu trúc thế giới.
Dù vậy, mô hình thế giới cũng chỉ là một điểm trung gian trên con đường hướng tới AGI, mà AI do con người tạo ra còn cách một “mô hình thế giới” thực sự một khoảng cách rất dài. Ở đây, quan điểm hơi cực đoan của một nhà lãnh đạo khác về mô hình thế giới - Dương Lập Khôn, đáng được chia sẻ:
Lạc quan mà nói, ít nhất còn phải năm đến mười năm nữa, trí tuệ của máy móc mới có thể gần bằng một chú chó con.
Bài viết này từ tài khoản công chúng WeChat “Tinh Mang Nền Silic”, tác giả: Tứ Tề








