Tên gọi "world model" (mô hình thế giới), đến nay vẫn chưa có một danh thiếp thống nhất trong ngành. Có người gọi nó là mô hình thế giới, có người gọi là mô hình nền tảng thế giới, có người gọi là AI vật lý, cũng có người giấu nó trong kiến trúc của mô hình lớn tự lái xe, VLA hoặc hệ thống trí thông minh vật thể mà không đặt tên riêng.
Qwen-AgentWorld, HappyOyster, Qwen-RobotWorld của Alibaba lần lượt hướng đến thế giới ngôn ngữ, thế giới ảo và thế giới vật lý; HY-World của Tencent thiên về thế giới 3D có thể chỉnh sửa; các hãng xe thì thích nói hơn về mô hình thế giới lái xe hoặc mô hình hành vi thế giới; Huawei, Baidu đơn giản là không hô to riêng bốn chữ "world model".
Đằng sau sự hỗn loạn trong đặt tên, mọi người thực ra đang làm cùng một việc:
Để máy móc thiết lập một môi trường động có thể suy luận, có thể phân tích lại trong nội bộ trước khi thực sự hành động, giảm sự phụ thuộc vô hạn vào dữ liệu thực tế, nén thế giới thực thành một cỗ máy dữ liệu có thể sinh ra vô hạn, mắc lỗi vô hạn, làm lại vô hạn.
Khi các công ty khởi nghiệp còn đang bận rộn với quyền thu thập dữ liệu và ngân sách tính toán, thì Alibaba, Tencent, Huawei, Nio, XPeng, Li Auto đã âm thầm trải mô hình thế giới thành một đường đua mới.
Mô hình thế giới là một tham vọng: để AI vượt qua việc nhận biết thế giới, trước hết hãy "diễn tập" thế giới trong đầu.
Các nhà sản xuất ô tô tự lái muốn dùng nó để tạo ra "đề thi" về trời mưa, trời tuyết, vật cản dị dạng; các đội ngũ trí thông minh vật thể muốn dùng nó để robot ngã đủ trăm nghìn lần trong mô phỏng trước khi ra ngoài; còn các công ty game và mạng xã hội thì muốn dùng nó tạo ra một vũ trụ song song mà con người có thể đắm chìm vào.
Cách thức các ông lớn tham gia cuộc chơi có những điểm nhấn khác nhau, nhưng mục tiêu cốt lõi là nhất quán: nén thế giới thực thành một cỗ máy dữ liệu có thể suy luận vô hạn, phân tích lại vô hạn.
I. Các ông lớn Internet:
Từ thế giới số đến thế giới vật lý
Bố cục mô hình thế giới của Alibaba giống như "bày từng món đồ trên kệ ra".
Tháng 6/2026, chỉ trong vòng hơn chục ngày, họ liên tiếp tung ra ba lá bài:
Series Qwen-Robot ngày 16/6, HappyOyster 1.0 ngày 17/6, Qwen-AgentWorld ngày 24/6.
Qwen-AgentWorld là một mô hình thế giới ngôn ngữ nguyên bản, nó không tạo ra hình ảnh, mà tạo ra môi trường — trong bảy môi trường bao gồm công cụ MCP, tìm kiếm, terminal, kỹ thuật mã, Web, hệ điều hành, Android, mô hình có thể mô phỏng tương tác thực tế, tự học, mài giũa chính mình bằng học tăng cường. Nó cung cấp hai quy mô: kiến trúc MoE với tổng tham số 35B và 397B, tham số kích hoạt lần lượt là 3B và 17B; dữ liệu huấn luyện đến từ hơn 10 triệu đường tương tác môi trường thực tế; cả mô hình và tiêu chuẩn đánh giá AgentWorldBench đều đã mã nguồn mở. Điều này tương đương với việc coi mô hình thế giới là "bãi tập" chứ không phải là "đồ trang trí" của tác nhân thông minh.
HappyOyster 1.0 lại mang một diện mạo khác, nó giống một "trường quay phim có thể chơi" hơn: người dùng đưa ra một câu hoặc một bức ảnh, nó tạo ra một thế giới mở, và cho phép người dùng can thiệp tùy ý trong hai chế độ "Khám phá thế giới" và "Đạo diễn thời gian thực". Chế độ khám phá hỗ trợ di chuyển và điều khiển camera liên tục thời gian thực lên đến 1 phút, chế độ đạo diễn có thể tạo ra hình ảnh thời gian thực 480p/720p trên 3 phút. Alibaba định vị nó là cửa ngõ cho các ngành như game tương tác, đồng hành ảo, phim ngắn tương tác, trải nghiệm du lịch văn hóa.
Qwen-RobotWorld lại hướng đến một hướng khác, nó là "bộ não tư duy" trong bộ ba trí thông minh vật thể của Alibaba, phối hợp với mô hình thao tác VLA Qwen-RobotManip và mô hình di chuyển VLN Qwen-RobotNav, mục tiêu là giúp robot có một thế giới nội tâm có thể diễn tập trước.
Ba sự việc hợp lại với nhau, Alibaba đang đồng thời tranh giành quyền định nghĩa thế giới ngôn ngữ, thế giới ảo và thế giới vật lý.
Tencent Hunyuan đi theo một con đường khác, series HY-World của họ giống như đang xây dựng "nhà máy tự động của game 3D".
Tháng 7/2025, Tencent công bố mã nguồn mở mô hình thế giới 3D Hunyuan 1.0 tại WAIC; tháng 12 nâng cấp lên 1.5; tháng 4/2026 phát hành và mã nguồn mở HY-World 2.0. Đầu vào có thể là văn bản, ảnh đơn, ảnh đa, video thậm chí là mô hình trắng, đầu ra có thể là 3DGS, Mesh, point cloud.
Phiên bản 2.0 giới thiệu các mô-đun như HY-Pano 2.0, WorldNav, WorldStereo 2.0, WorldMirror 2.0, kết nối việc tạo thế giới, tái tạo thế giới, ảnh toàn cảnh, tạo thế giới thời gian thực thành một vòng khép kín.
Lợi thế của Tencent nằm ở các kịch bản game và mạng xã hội, người dùng thực sự của HY-World không phải để huấn luyện xe tự lái, mà là để tạo màn chơi game, quay phim ảo, tạo bản sao số.
Dự án mô hình thế giới của ByteDance thì giống như một cuộc "hành quân bí mật" mang gen dữ liệu video ngắn.
Tháng 8/2025, The Information tiết lộ đội Seed của Byte đang nghiên cứu và phát triển mô hình thế giới, dẫn dắt là Zhou Chang, cựu thành viên cốt cõi của Tongyi Qianwen. Con bài lớn nhất của dự án này là luồng video hơn 1 tỷ lần mỗi ngày từ Douyin và TikTok, cùng với khung EX-4D — có thể chuyển video đơn nhãn thành cảnh 4D đa góc nhìn. Nó nhắm đến Genie 3 của Google và V-JEPA 2 của Meta, mục tiêu không phải là một công cụ tạo video đẹp mắt, mà là xây dựng một "bản sao số" có thể mô phỏng quy luật vật lý.
Tại hội nghị FORCE Nguyên Động Lực của Volcano Engine ngày 23/6/2026, Byte không trực tiếp phát hành mô hình thế giới này, nhưng đã trình làng series Doubao Seed 2.1, mô hình tạo video Seedance 2.5, mô hình tạo ảnh Seedream 5.0 Pro và mô hình tạo âm thanh mới.
Báo cáo độc quyền của 36Kr thì tóm tắt chiến lược AI năm 2026 của Byte thành bốn mệnh đề: mô hình thế giới cuối năm phải đạt SOTA toàn cầu, Seedance khám phá tạo động, Coding củng cố nền tảng, Doubao tăng tốc thương mại hóa.
Điều này có nghĩa, mô hình thế giới là mệnh đề số một trong nội bộ Byte, chỉ là họ chọn để Seedance và Doubao đứng ở tiền sảnh trước, còn bản thân mô hình thế giới tiếp tục ẩn mình chuẩn bị chiêu lớn.
Khí chất của mô hình thế giới Pangu của Huawei thì là "trầm lặng nhưng chí mạng".
Tại hội nghị nhà phát triển tháng 6/2025, Huawei đã phát hành mô hình lớn Pangu, dựa trên mô hình lớn đa phương thức Pangu, khả năng cốt lõi là tạo ra không gian vật lý số độ chính xác cao từ một bức ảnh đơn. Nó có thể dự đoán va chạm, huấn luyện cánh tay robot nắm bắt, còn có thể tạo video lái xe và point cloud lidar, giúp mô hình end-to-end ADS của Huawei đạt được "hai ngày một phiên bản".
Huawei không hô to khẩu hiệu "mô hình thế giới", mà coi nó là "nền tảng huấn luyện" của xe thông minh và trí thông minh vật thể. Hợp tác với GAC là một trường hợp điển hình: video 2D và point cloud 3D tương ứng cấp độ pixel, khôi phục Corner Case phức tạp trong vài phút.
Tại HDC 2026 tháng 6/2026, Huawei đã đẩy mô hình lớn Pangu lên 7.0, và phát hành Ascend 910C, Yu Chengdong tái đảm nhiệm chức vụ dẫn dắt Pangu, nhưng bản thân mô hình thế giới không có tin tức phiên bản mới riêng.
Tư duy "mô hình thế giới không tồn tại độc lập, mà phục vụ vòng khép kín ngành" này, là phong cách nhất quán của Huawei.
Baidu tham gia cuộc chơi sớm hơn trong lĩnh vực lái xe tự động, Apollo ADFM được định vị là "mô hình lái xe tự động đầu tiên trên thế giới hỗ trợ L4" khi phát hành vào tháng 5/2024.
Mặc dù Baidu không đặt tên nó là mô hình thế giới, nhưng về bản chất nó đã có chức năng của mô hình thế giới: hiểu thế giới vật lý, dự đoán hành vi của người tham gia giao thông thông qua mạng thần kinh end-to-end. Tháng 11/2025, mô hình lớn Ernie 5.0 xuất hiện dưới dạng toàn phương thức nguyên bản, quy mô tham số đạt 2,4 nghìn tỷ; tháng 1/2026 chính thức lên bản chính thức.
Năng lực mô hình thế giới của Baidu đã ẩn vào một bàn cờ lớn hơn. Chiến lược của Baidu là: không bàn riêng về mô hình thế giới, mà để Apollo và Ernie hỗ trợ lẫn nhau.
Xiaomi và SenseTime đại diện cho hai trường phái "dòng kỹ thuật".
Xiaomi OneVL do Xiaomi mã nguồn mở ngày 13/5/2026, thống nhất VLA, mô hình thế giới và suy luận không gian tiềm ẩn vào một khung, nhấn mạnh khả năng giải thích của quá trình suy luận thị giác, làm ra linh kiện cơ bản mà cả lái xe tự động và trí thông minh vật thể đều có thể sử dụng.
"Kaiwu" của SenseTime's Jueying giống như một "tài xế già" đã lên chức, trong báo cáo của Frost & Sullivan tháng 9/2025, nó được định nghĩa là mô hình thế giới đầu tiên trong ngành đã sản xuất hàng loạt, có thể tương tác, có thể tạo video lái xe 150 giây, 1080P, 11 góc nhìn, và lắng đọng bộ dữ liệu lái xe sinh lớn nhất trong ngành WorldSim-Drive cùng kho cảnh tạo sinh hàng chục triệu.
Tháng 6/2026, Daxiao Robotics do Wang Xiaogang, đồng sáng lập SenseTime, thành lập lại tuyên bố hoàn thành vòng gọi vốn hàng trăm triệu USD, mô hình thế giới Kairos 3.0 của họ đứng đầu bốn bảng xếp hạng chính về tạo sinh video dự đoán, theo dõi chỉ lệnh nhiệm vụ.
Mô hình thế giới hệ SenseTime đang lan từ xe thông minh sang robot.
II. Các hãng xe:
Coi mô hình thế giới như trường lái xe và phòng thi
Nếu nói mô hình thế giới của các ông lớn Internet là đang "tạo ra thế giới", thì mô hình thế giới của các hãng xe là đang "sử dụng thế giới".
Nio là hãng xe Trung Quốc đầu tiên dùng mô hình thế giới như một lá cờ để vẫy.
Tại NIO IN tháng 7/2024, Ren Shaoqing công bố NWM (NIO World Model), định vị là mô hình thế giới lái xe thông minh đầu tiên của Trung Quốc.
Nó sử dụng kiến trúc sinh tự hồi quy đa nguyên, làm hai việc: "tưởng tượng tái tạo" về mặt không gian và "tưởng tượng suy diễn" về mặt thời gian.
Đưa vào một cảnh thực tế, nó có thể khôi phục thế giới 3D; đưa vào một gợi ý ba giây, nó có thể tạo video tương lai trên hai phút. Cứ mỗi 0.1 giây, nó suy diễn 216 quỹ đạo, chọn ra giải pháp tối ưu.
Logic của Nio rất rõ ràng: mô hình end-to-end là chưa đủ, một hệ thống lái thông minh thực sự thông minh cần phải giống con người "nhắm mắt cũng tưởng tượng được tình huống đường". Ngày 18/6/2026, Nio chính thức đẩy phiên bản mới NWM 2.0, phủ hơn 700 nghìn người dùng toàn series, ngay cả chủ xe cũ mua xe từ bốn năm trước cũng có thể nâng cấp miễn phí, bốn hệ thống xe Banyan, Cedar, Coconut+ đồng thời phát hành phiên bản. Phiên bản mới lần đầu tiên trong nước thực hiện mô hình lái thông minh trực tiếp xuất tín hiệu thao tác thô của vô lăng, bàn đạp ga, bàn đạp phanh, và nâng cấp hệ thống huấn luyện từ "mô hình thế giới + học tăng cường vòng kín" lên ba tầng "mô hình thế giới + tinh chỉnh giám sát + học tăng cường vòng kín". Cảnh phủ AEB gấp 6,7 lần AEB tiêu chuẩn, xác suất phanh nhầm giảm xuống một lần trên 100 nghìn km.
Chip Thần Ky NX9031 thậm chí được mô tả là "sinh ra đã được thiết kế cho mô hình thế giới".
Li Auto đã đề xuất tư duy mô hình thế giới "tái tạo + sinh ra" vào nửa cuối năm 2024, và công bố DrivingSphere tại CVPR 2025.
Nó bao gồm mô hình khuếch tán OccDreamer và VideoDreamer ST-DiT, xây dựng một môi trường mô phỏng vòng kín 4D độ trung thực cao.
Mô phỏng vòng mở truyền thống chỉ có thể đánh giá mô hình "nhìn thấy gì", còn mô phỏng vòng kín có thể đánh giá mô hình "đã làm gì". Mô hình thế giới của Li giống như một phòng thi có thể tạo ra vô hạn câu hỏi khó, để hệ thống lái thông minh chạy quen các cảnh éo le trong chip trước.
Đến Livis Day tháng 6/2026, Li đã nâng cấp thêm khả năng này thành "Mach VLA", kiến trúc MoE đa phương thức nguyên bản, cảm nhận, dự đoán, quy hoạch thống nhất, sức mạnh tính toán chip kép M100 trên xe là 2560TOPS, thời gian phản ứng 0.28 giây.
Theo lộ trình công bố của Li, quý ba sẽ đẩy Mach VLA hoàn toàn mới cho người dùng AD Max, quý tư mục tiêu ngang bằng Tesla FSD V14. Li không còn chỉ là một công ty ô tô, nó đang tự định hình mình thành một nhà cung cấp hệ thống trí thông minh vật thể Livis.
Con đường của XPeng Motors thì thể hiện cảm giác tầng thứ "làm lớn trước, làm tinh sau".
Tháng 4/2025, tại buổi chia sẻ công nghệ AI ở Hồng Kông, XPeng lần đầu tiên tiết lộ đang nghiên cứu và phát triển "mô hình nền tảng thế giới" lái xe tự động siêu quy mô 72 tỷ tham số.
Một năm sau, ngày 1/4/2026, XPeng chính thức công bố báo cáo công nghệ mô hình thế giới X-World.
Nó dựa trên công nghệ sinh video khuếch tán, cải tạo trên mẫu sinh video không gian tiềm ẩn của WAN 2.2, sử dụng VAE 3D nhân quả và DiT chú ý tự thời gian - góc nhìn, hỗ trợ sinh nhất quán xuyên góc nhìn từ 7 camera vòng quanh.
X-World không phải công cụ tạo video, mà là "bộ mô phỏng thế giới thực" của VLA thế hệ thứ hai của XPeng: cảnh mô phỏng tăng từ 30 nghìn cách đây một năm lên hơn 500 nghìn, quãng đường thử nghiệm mô phỏng hàng ngày tương đương 30 triệu km thử nghiệm thực tế, và hỗ trợ học tăng cường trực tuyến và sinh dữ liệu nước ngoài.
Tại CVPR tháng 6/2026, XPeng lại lần đầu tiên trình diễn biểu đồ công nghệ mô hình thế giới hoàn chỉnh. Tham vọng của XPeng được viết trong phạm vi ứng dụng của nó: xe AI, robot AI, ô tô bay. Mục tiêu quy mô dữ liệu huấn luyện của nó là 200 triệu clips, cụm vạn card cung cấp sức mạnh tính toán 10 EFLOPS, lặp lại 5 ngày một lần.
Geely Motors trình làng WAM (World Action Model) tại CES 2026, và đặt nó vào hệ thống AI toàn cục 2.0.
Kiến trúc phân tầng của WAM rất thú vị: tầng trên là mô hình lớn đa phương thức MLLM chịu trách nhiệm hiểu, tầng dưới là Chuyên gia Hành động (Action Expert) chịu trách nhiệm động tác, ở giữa là mô hình thế giới chịu trách nhiệm suy diễn.
Mục tiêu của Geely không phải là để mô hình lái thông minh tốt hơn, mà là để toàn bộ chiếc xe trở thành "một bộ não" — lái xe thông minh, khoang lái, khung gầm, động lực điều phối thống nhất. Tháng 4/2026, ZEEKR 8X ra mắt là giao hàng ngay, trở thành siêu tác nhân thông minh tích hợp khoang-lái đầu tiên lên xe sản xuất hàng loạt trong nước, G-ASD 4.0 của nó dựa trên WAM. Mục tiêu 2026 là L3 cao tốc và L4 tốc độ thấp.
Mô hình thế giới của BYD vẫn đang trong giai đoạn nghiên cứu sớm, thông tin tiết lộ tháng 1/2025 cho thấy, nội bộ họ tham khảo con đường của Tesla, thành lập nhóm nhỏ thử sai nhanh, trọng điểm giải quyết việc sinh dữ liệu Corner Case cho lái xe tự động end-to-end.
Great Wall Motors cũng đề xuất hướng lái xe thông minh thế hệ tiếp theo VLA + mô hình thế giới, và đã đi từ "chiến lược" đến "sản xuất hàng loạt": tháng 6/2026, tại hội nghị lái xe thông minh và xuất khẩu, Great Wall chia sẻ thực tiễn VLA, trung tâm siêu tính toán Jiuzhou ở Bảo Định đạt sức mạnh tính toán 5 EFLOPS, GPU hơn 10 nghìn card, Tank 700 sẽ trở thành mẫu xe đầu tiên trang bị hệ thống Coffee Pilot 4.0 VLA, sản xuất hàng loạt lên xe trong năm 2026. Hạm đội xe hiện có hơn 2 triệu chiếc tạo ra lượng dữ liệu khổng lồ mỗi ngày, đây là gia tài dày dặn nhất của Great Wall so với các hãng xe mới.
III. Nhà cung cấp giải pháp lái xe thông minh:
Động cơ thế giới ẩn dưới gầm xe
Ngoài các hãng xe, còn có một nhóm nhà cung cấp biến mô hình thế giới thành "động cơ tàng hình".
Momenta chính thức phát hành mô hình thế giới học tăng cường R7 tại triển lãm ô tô Bắc Kinh tháng 4/2026, và thực hiện phát hành sản xuất hàng loạt đầu tiên.
Nó là một kiến trúc ba tầng: tiền huấn luyện mô hình thế giới, mô phỏng mô hình thế giới, học tăng cường. R7 dựa trên hơn 12 tỷ km quãng đường xe thực tế mà nghiệp vụ sản xuất hàng loạt của Momenta mang lại, tinh luyện từ đó hơn 100 triệu đoạn "dữ liệu vàng" để tiền huấn luyện, sau đó để mô hình trải qua lượng lớn cảnh đuôi dài trong mô phỏng, cuối cùng dùng học tăng cường để mài giũa.
Momenta trực tiếp nhúng nó vào mô hình nền tảng end-to-end, mục tiêu là đạt tiêu chuẩn L4. Dữ liệu thương mại cũng đang bùng nổ nhanh chóng: số lượng xe sản xuất hàng loạt được trang bị hệ thống của Momenta đã vượt 900 nghìn chiếc, thành công giao hơn 100 mẫu xe sản xuất hàng loạt, điểm định danh tích lũy vượt 210 mẫu, giải pháp triển khai tại hơn 10 quốc gia và khu vực bao gồm Anh, Na Uy, Singapore, Úc New Zealand.
Tháng 6/2026, Momenta thông qua thẩm tra của Sở Giao dịch Chứng khoán Hồng Kông, lao vào IPO với danh hiệu "cổ phiếu AI vật lý đầu tiên" và thị phần NOA thành phố bên thứ ba 65%. Đủ thấy sự đặt cược của họ vào mô hình thế giới.
Horizon Robotics phát hành HorizonDrive vào tháng 5/2026, một mô hình thế giới tự hồi quy, khả năng cốt lõi là tạo video lái xe dài chuỗi thời gian cấp phút.
Nó sử dụng video-VAE hoạt động trong không gian tiềm ẩn, nhập vào bản đồ HD, khung giới hạn 3D và hành động của xe tự, sau đó xuất ra cảnh tương lai liên tục.
Điểm sáng của HorizonDrive là huấn luyện "tự sửa lỗi": thông qua công nghệ SRR và TRD, để mô hình tự sửa khi sinh ra lỗi. Trên nuScenes, FID của nó giảm 52%, FVD giảm 37%, độ chính xác quỹ đạo tăng 21%; một RTX 5090 đơn có thể sinh video 256×512, tốc độ 5.6 FPS, hoặc video 384×768 1.7 FPS. Định vị của nó là mô phỏng lái xe tự động vòng kín, giúp các hãng xe xác minh hệ thống L3+ trong tình huống không lên đường.
DriveGPT của Haomo.ai là một trong những dự án đầu tiên hô to khẩu hiệu "mô hình thế giới" trong nước.
"Xuehu · Hairuo" phát hành tháng 4/2023 là một mô hình lớn lái xe tự động sinh, dùng cách dự đoán khung hình tiếp theo để xây dựng không gian biểu diễn 4D. Đằng sau nó là 10 tỷ khung hình ảnh Internet, 4,8 triệu clips 4D và 87 triệu km quãng đường hỗ trợ lái.
Con đường Haomo đi tương tự World Model của Tesla, GAIA-1 của Wayve: để mô hình lớn lái xe tự động tiến hóa từ "xem ảnh" đến "xem video", rồi đến "dự đoán video". Nó cung cấp khả năng cho các kịch bản như xe Great Wall Wey, xe tự hành nhỏ Xiao Mo Tuo.
DeepRoute (Yuanrong Qixing) phát hành nền tảng DeepRoute IO 2.0 vào ngày 26/8/2025, trang bị mô hình VLA tự nghiên cứu.
Tại triển lãm ô tô Bắc Kinh tháng 4/2026, DeepRoute lại tiếp tục phát hành công nghệ mô hình nền tảng và chiến lược AI vật lý, và trình làng dữ liệu thương mại hóa: số lượng xe sản xuất hàng loạt được trang bị giải pháp NOA thành phố của họ vượt 300 nghìn chiếc, một năm qua tổng quãng đường chạy thực tế của xe được trang bị hệ thống an toàn chủ động của DeepRoute vượt 1,3 tỷ km, tổng thời gian lái đồng hành cùng người dùng tích lũy đạt 44,8 triệu giờ.
DeepRoute không đặt tên riêng một mô hình thế giới, nhưng trong hệ thống mô phỏng và huấn luyện của DeepRoute IO 2.0, mô hình thế giới là cốt lõi ngầm định.
IV. Công ty khởi nghiệp và ông lớn:
Hai tấm bản đồ, cùng một thành phố
Và bảng bố cục các ông lớn này, là một tấm bản đồ khác.
Hai tấm bản đồ chỉ về cùng một thành phố: ai có thể khiến AI thực sự hiểu thế giới vật lý, người đó sẽ sở hữu cửa ngõ của thời đại tiếp theo.
Lợi thế của các công ty khởi nghiệp là tập trung và tốc độ.
Họ có thể đặt cược vào một tuyến đường cấp tiến, ví dụ mô hình thế giới nguyên bản, sinh không gian 3D, động cơ vật lý VLA, không bị ràng buộc bởi nghiệp vụ hiện có. Nhưng họ thiếu dữ liệu, thiếu sức mạnh tính toán, thiếu kênh sản xuất hàng loạt, càng thiếu một vòng khép kín kịch bản thực tế có thể liên tục nuôi lớn mô hình thế giới.
Nhược điểm của các ông lớn là quán tính tổ chức và sự hỗn loạn đặt tên do nhiều bộ phận chạy song song — ba dự án mô hình thế giới của Alibaba thậm chí khiến người ngoài phân vân không biết chúng có phải cùng một việc không. Nhưng các ông lớn trong tay có dữ liệu, có sức mạnh tính toán, có người dùng, có xe, còn có hệ thống kỹ thuật để chạy mô hình. Công ty khởi nghiệp tạo ra "mô hình", ông lớn tạo ra "hệ thống".
Thời khắc nguy hiểm nhất, là khi các ông lớn biến mô hình thế giới từ "dự án nghiên cứu" thành "nền tảng nghiệp vụ". Mô hình lớn Pangu của Huawei phục vụ ADS và robot, HY-World của Tencent phục vụ game và công nghiệp, DrivingSphere của Li phục vụ lặp lái thông minh, Kaiwu của SenseTime đã sản xuất hàng loạt lên xe, Momenta R7 đã chạy trên hơn 900 nghìn xe —
Đây không phải là slide trên hội nghị, mà là "năng lực" đang bước vào dây chuyền sản phẩm. Đối với các công ty khởi nghiệp, cửa sổ cơ hội của mô hình thế giới đang thu hẹp, cạnh tranh trong tương lai sẽ nhanh chóng từ "ai có thể làm ra mô hình thế giới" biến thành "mô hình thế giới của ai có thể được các ông lớn dùng nổi, dùng tốt".
V. Mô hình thế giới không phải là cơn sốt,
mà là sự nâng cấp của cuộc chiến cũ
Mô hình thế giới không phải là một câu chuyện mới.
Nó là sản phẩm tự nhiên sau khi mô hình lớn ngôn ngữ, mô hình sinh video, mô hình lái xe tự động end-to-end, mô hình VLA robot giao nhau ở thế giới vật lý.
data-check-id="634442">Các ông lớn ồ ạt vào sân, chứng tỏ việc này đã từ "đồ chơi của tín đồ công nghệ" biến thành "cơ sở hạ tầng ngành".Alibaba, Tencent, ByteDance, Huawei, Baidu, Xiaomi, SenseTime dựng cầu giữa thế giới số và thế giới vật lý; Nio, Li, XPeng, Geely, BYD, Great Wall Motors sửa "cầu" đến tận xe ô tô; Momenta, Horizon, Haomo, DeepRoute thì lát đường ray dưới chân cầu.
Các công ty khởi nghiệp đứng ở cuối cầu, trong tay cầm bản vẽ tinh xảo hơn, nhưng lại phải đối mặt với sự thật các ông lớn đang điều động đội ngũ kỹ thuật.
Một năm tới, vấn đề cốt lõi của đường đua mô hình thế giới sẽ không phải là "ai đã làm", mà là "mô hình thế giới của ai thực sự đang thay con người hiểu thế giới".
Bài viết từ tài khoản công chúng WeChat: IT桔子 , tác giả: Judy






