Mấy năm qua, các khái niệm như metaverse, Web3.0, nền tảng dữ liệu mô phỏng, song sinh kỹ thuật số, AI vật lý lần lượt xuất hiện, người bình thường rất dễ bị nhầm lẫn.
Chúng có quan hệ gì với mô hình thế giới?
Đáp án là: Chúng không hoàn toàn là một, nhưng đều hướng tới xu thế lớn là ranh giới giữa thế giới số và thế giới vật lý đang mờ đi.
Mô hình thế giới giống như "lớp nhận thức" hoặc "hệ điều hành nền tảng" của những khái niệm này, chịu trách nhiệm giúp AI hiểu và suy diễn thế giới.
Một, Trả lời trước: Không phải một,
nhưng đều trên cùng một bản đồ
Các khái niệm được giới công nghệ nhiệt tình thổi phồng mấy năm qua, đại thể có thể chia làm ba loại.
Loại thứ nhất là "trải nghiệm không gian", đại diện là metaverse. Nó muốn để con người giao lưu, làm việc, tiêu dùng, sinh hoạt trong không gian ảo.
Loại thứ hai là "quan hệ sản xuất", đại diện là Web3.0. Nó muốn dùng blockchain để tái cấu trúc quyền sở hữu dữ liệu, danh tính và phương thức khích lệ.
Loại thứ ba là "năng lực kỹ thuật", bao gồm nền tảng dữ liệu mô phỏng, song sinh kỹ thuật số, AI vật lý và mô hình thế giới. Chúng đều cố gắng dùng phương tiện số để hiểu, mô phỏng, dự đoán hoặc tạo ra thế giới vật lý.
Mô hình thế giới thuộc loại thứ ba, nhưng nó ở tầng nền tảng hơn.
Nó không phải là một ứng dụng cụ thể nào, mà là một năng lực để AI xây dựng một thế giới có thể suy diễn trong đầu. Metaverse có thể dựa vào nó, nền tảng dữ liệu mô phỏng là tiền thân của nó, song sinh kỹ thuật số là họ hàng gần của nó, AI vật lý là nơi cư trú của nó, còn Web3.0 về cơ bản không nằm trong cùng một lớp kỹ thuật với nó.
Dưới đây sẽ giải thích từng cái một.
Hai, Metaverse:
Mô hình thế giới có thể là "động cơ" của nó
Vào thời điểm metaverse nóng nhất, mọi người mô tả một xã hội ảo nhập vai sâu. Bên trong có Avatar, bất động sản ảo, tài sản số, buổi hòa nhạc trực tuyến, làm việc từ xa. Cốt lõi của nó là một trải nghiệm không gian: con người có thể bước vào, giao lưu, tiêu dùng, sáng tạo.
Nhưng điểm nghẽn lớn nhất của metaverse lúc đó là sản xuất nội dung. Xây dựng một thành phố ảo cần một lượng tài nguyên mỹ thuật và kỹ thuật khổng lồ, chi phí cực cao, nhưng trải nghiệm vẫn còn sơ khai. Nhiều dự án cuối cùng biến thành phòng trưng bày trống trải hoặc mua bán đất đai đầu cơ, người dùng vào xem một vòng rồi không biết làm gì.
Nếu mô hình thế giới phát triển hoàn thiện, có thể trực tiếp dùng văn bản tạo ra thế giới 3D có thể tương tác, tương đương với việc lắp cho metaverse một "máy tạo tự động". Google Genie 3 đã cho thấy hình mẫu ban đầu: nhập một câu, liền có thể tạo ra một thế giới có thể khám phá thời gian thực. Tương lai bạn có thể chỉ cần nói "tôi muốn đi dạo ở Bến Thượng Hải những năm 1920", mô hình thế giới sẽ tạo cho bạn một con phố, một nhóm NPC, một đoạn cốt truyện.
Vì vậy, hai cái không phải là một. Metaverse là "điểm đến", mô hình thế giới là "công cụ xây đường và dựng thành". Mô hình thế giới không nhất định phải làm thành metaverse, nhưng metaverse muốn đạt được chi phí thấp, quy mô lớn, có thể tương tác, rất có thể không thể tách rời mô hình thế giới. Phần metaverse chưa làm được, mô hình thế giới có khả năng thay nó bổ sung.
Ba, Web3.0:
Cơ bản không cùng một lớp với mô hình thế giới
Cốt lõi của Web3.0 là blockchain, phi tập trung hóa, kinh tế token, người dùng sở hữu dữ liệu. Nó muốn giải quyết vấn đề quyền sở hữu và khích lệ của Internet, chứ không phải "thế giới được máy móc hiểu và mô phỏng thế nào".
Ví dụ: mô hình thế giới nghiên cứu "AI trong đầu suy diễn qua thế giới thế nào", Web3.0 nghiên cứu "tài sản số của thế giới này thuộc về ai, giao dịch thế nào". Hai cái có thể kết hợp - ví dụ trong thế giới ảo do mô hình thế giới tạo ra dùng NFT giao dịch đất đai, hoặc dùng DAO quản trị quy tắc thành phố ảo - nhưng hạt nhân kỹ thuật hoàn toàn khác nhau.
Vì vậy, Web3.0 và mô hình thế giới về cơ bản không phải một. Quan hệ của chúng giống như: Web3.0 có thể là "quy tắc kinh tế" của thế giới ảo tương lai, mô hình thế giới là "quy tắc vật lý". Một là vấn đề khoa học xã hội, một là vấn đề kỹ thuật công trình.
Bốn, Nền tảng dữ liệu mô phỏng:
Phiên bản 1.0 của mô hình thế giới
Cái này là gần nhất. Mấy năm qua, công ty lái xe tự động bỏ nhiều tiền làm nền tảng mô phỏng, như CARLA, 51World, Unity mô phỏng lái xe tự động, NVIDIA DRIVE Sim. Giá trị cốt lõi của chúng là: trong thế giới ảo sinh ra tình huống cực đoan, để thuật toán lái xe tự động huấn luyện chi phí thấp.
Vấn đề của những nền tảng này là, cảnh vật đa phần cần được xây dựng thủ công hoặc sinh ra dựa trên quy tắc. Mưa to, tuyết lớn, vật cản dị hình, người đi đường đột nhiên băng qua, những trường hợp góc cạnh (Corner Case) này cần nhà thiết kế một chút một chút mô hình hóa, hiệu suất rất thấp. Hơn nữa cảnh vật sinh ra theo quy tắc thường không đủ tự nhiên, thuật toán luyện nhiều sẽ quá khớp vào dấu vết nhân tạo.
Việc mô hình thế giới làm, là dùng AI tự động sinh ra những cảnh vật này. Nó không phải dựa vào nhà thiết kế bố trí vật cản thủ công, mà là từ dữ liệu thật học quy luật vật lý, sau đó sinh ra biến thể vô hạn gần với thật. Xpeng tuyên bố mô hình thế giới của họ hỗ trợ kiểm thử mô phỏng mỗi ngày tương đương chạy 30 triệu km, Horizon có thể để mô hình trong 30 giây sinh ra một video lái xe có thể điều khiển.
Vì vậy, nền tảng dữ liệu mô phỏng và mô hình thế giới, có thể xem là 1.0 và 2.0 của cùng một sự vật. Cái trước dựa vào nhân công và quy tắc, cái sau dựa vào AI sinh ra. Mô hình thế giới không phủ định giá trị của nền tảng dữ liệu mô phỏng, mà là làm cho nó thông minh hóa, tự động hóa, quy mô hóa.
Năm, Song sinh kỹ thuật số:
Mô hình thế giới so với nó nhiều hơn một năng lực "dự đoán tương lai"
Song sinh kỹ thuật số mấy năm nay rất nóng trong lĩnh vực công nghiệp, thành phố, năng lượng. Cốt lõi của nó là đối với thế giới vật lý làm gương soi độ chính xác cao 1:1. Ví dụ cho một nhà máy xây một phiên bản số, đồng bộ thời gian thực trạng thái thiết bị, dùng để giám sát, vận hành bảo trì, tối ưu hóa. Cho một thành phố xây một phiên bản số, dùng để mô phỏng lưu lượng giao thông, áp lực đường ống, ứng phó thiên tai.
Song sinh kỹ thuật số là "tấm gương của hiện tại". Câu hỏi nó trả lời là: thế giới thực tại thế nào?
Mô hình thế giới là "bàn cát của tương lai". Nó không chỉ muốn biết nhà máy hiện tại thế nào, còn muốn dự đoán: nếu dây chuyền sản xuất này tăng tốc, thiết bị có quá nóng không; nếu robot di chuyển như vậy, có va vào giá hàng không; nếu ngày mai có bão, tải lưới điện sẽ thế nào. Câu hỏi nó trả lời là: thế giới thực tại sẽ thế nào, và tôi nên hành động thế nào.
Vì vậy, mô hình thế giới bao hàm một phần năng lực của song sinh kỹ thuật số, nhưng lại tiến thêm một bước: từ "phục chế thực tại" đến "suy diễn tương lai". Bạn có thể hiểu song sinh kỹ thuật số là một thành phần hoặc điều kiện tiên quyết của mô hình thế giới, nhưng tham vọng của mô hình thế giới lớn hơn.
Sáu, AI vật lý:
Mô hình thế giới là thành phần cốt lõi của nó
Jensen Huang và NVIDIA mấy năm nay luôn nhắc đến "Physical AI", tức là AI có thể hành động trong thế giới vật lý. Xe ô tô lái tự động, robot hình người, cánh tay robot công nghiệp, máy bay không người lái, đều thuộc phạm vi này.
AI vật lý muốn hành động, cần ba thứ: - Nhận thức: nhìn thấy thế giới; - Hiểu biết: biết quy luật thế giới; - Quyết định: lựa chọn động tác.
Mô hình thế giới chịu trách nhiệm cho lớp ở giữa — hiểu quy luật thế giới và dự đoán tương lai. Nó để AI không chỉ nhìn thấy phía trước có vật cản, mà còn có thể dự đoán vật cản tiếp theo sẽ di chuyển thế nào, và động tác khác nhau của mình sẽ dẫn đến kết quả gì.
Vì vậy, bạn có thể nói, mô hình thế giới là thành phần cốt lõi của AI vật lý, nhưng không phải toàn bộ AI vật lý. AI vật lý còn bao gồm cảm biến, bộ truyền động, thuật toán điều khiển, hệ thống an toàn v.v. Mô hình thế giới là "vỏ não" của AI vật lý, chịu trách nhiệm suy diễn trước khi hành động.
Bảy, Một hình ảnh hiểu rõ quan hệ
Nếu đặt chúng vào một cấu trúc phân cấp, đại thể như thế này:
Cơ sở hạ tầng nền tảng: năng lực tính toán, GPU, đám mây, cảm biến, thu thập dữ liệu
Lớp nhận thức: Mô hình thế giới — hiểu và suy diễn quy luật thế giới vật lý
Lớp công cụ ứng dụng: Nền tảng dữ liệu mô phỏng, song sinh kỹ thuật số — đưa năng lực nhận thức thành công cụ huấn luyện hoặc giám sát
Lớp hành động: AI vật lý — robot, xe ô tô lái tự động hành động trong thế giới thực
Lớp trải nghiệm: Metaverse — không gian ảo con người nhập vai sâu
Lớp quy tắc: Web3.0 — quy tắc quyền sở hữu, danh tính, khích lệ kinh tế
Mô hình thế giới ở "lớp nhận thức", hỗ trợ lên trên hệ thống ứng dụng, hệ thống hành động và trải nghiệm ảo, phụ thuộc xuống dưới năng lực tính toán và dữ liệu. Nó không phải là bất kỳ khái niệm nào, nhưng có thể là nền tảng chung của nhiều khái niệm.
Tám, Mô hình thế giới có thể là
"Hệ điều hành" của những khái niệm này
Những khái niệm này dễ nhầm lẫn, là vì chúng đều hướng tới cùng một xu thế lớn:ranh giới giữa thế giới số và thế giới vật lý đang mờ đi.
Metaverse muốn để con người sống nhiều hơn trong thế giới số;
Web3.0 muốn để tài sản thế giới số thuộc về cá nhân;
Nền tảng dữ liệu mô phỏng muốn dùng thế giới số huấn luyện AI thế giới vật lý;
Song sinh kỹ thuật số muốn đồng bộ thời gian thực hai thế giới;
AI vật lý muốn để AI hành động trong thế giới vật lý;
Mô hình thế giới là để trong đầu AI có một thế giới có thể suy diễn, là "lớp nhận thức" kết nối số và vật lý.
Mô hình thế giới không nhất định thay thế những khái niệm này, nhưng nó có thể trở thành cơ sở hạ tầng nền tảng của nhiều khái niệm. Giống như hệ điều hành không thay thế App, nhưng App đều chạy trên hệ điều hành. Các App như metaverse, nền tảng mô phỏng, song sinh kỹ thuật số, AI vật lý, cuối cùng có thể đều cần hệ điều hành mô hình thế giới này để điều phối hiểu biết về thế giới.
Vậy, những khái niệm được thổi phồng nhiệt tình trước đây và mô hình thế giới có phải là một thứ không?
Nói một cách nghiêm túc thì không phải.
Nhưng nhiều lời khoe khoang ban đầu của nhiều khái niệm, có thể cuối cùng phải dựa vào mô hình thế giới để thực hiện.
—HẾT—
Bài viết từ tài khoản công chúng WeChat "IT桔子"(ID:itjuzi521), tác giả: Judy






