Một cuộc chiến không có tên gọi thống nhất: Bản đồ thế giới mô hình của các "ông lớn" trong nước

marsbitXuất bản vào 2026-06-25Cập nhật gần nhất vào 2026-06-25

Tóm tắt

Mô hình thế giới (World Model) hiện chưa có tên gọi thống nhất trong ngành, với các tên như mô hình thế giới cơ sở, AI vật lý, hay được tích hợp trong kiến trúc xe tự hành, VLA hoặc hệ thống trí tuệ thể hiện. Mục tiêu chung là để máy móc xây dựng một môi trường động nội bộ có thể suy diễn và phân tích, giảm sự phụ thuộc vào dữ liệu thực tế, từ đó "nén" thế giới thực thành một động cơ dữ liệu có thể tạo, mắc lỗi và thử lại vô hạn. Các gã khổng lồ công nghệ Trung Quốc đang âm thầm biến đây thành một cuộc đua mới. Alibaba tung ra ba hướng tiếp cận riêng biệt cho thế giới ngôn ngữ (Qwen-AgentWorld), thế giới ảo (HappyOyster) và thế giới vật lý (Qwen-RobotWorld). Tencent tập trung vào thế giới 3D có thể chỉnh sửa (HY-World) phục vụ game và xã hội. ByteDance tận dụng dòng video khổng lồ từ TikTok/抖音. Huawei và Baidu không tách riêng khái niệm mà tích hợp nó như nền tảng huấn luyện cho ô tô thông minh và trí tuệ thể hiện. Trong lĩnh vực ô tô, mô hình thế giới trở thành "trường dạy lái" và "phòng thi". NIO, Li Auto, XPeng, Geely và các hãng khác đang phát triển các mô hình để tạo ra và kiểm tra vô số tình huống lái xe phức tạp trong môi trường mô phỏng, nhằm đào tạo và tinh chỉnh hệ thống lái tự động, giảm thiểu nhu cầu thử nghiệm trên đường thực tế. Các nhà cung cấp công nghệ lái xe tự động (ADAS/ADS) như Momenta, Horizon Robotics, Haomo.AI và DeepRoute đang phát triển các "động cơ thế giới" ẩn, tích hợp khả năng mô hình thế giới vào nền tảng mô phỏng và huấn luyện của họ để nhắm...

Tên gọi "world model" (mô hình thế giới), đến nay vẫn chưa có một danh thiếp thống nhất trong ngành. Có người gọi nó là mô hình thế giới, có người gọi là mô hình nền tảng thế giới, có người gọi là AI vật lý, cũng có người giấu nó trong kiến trúc của mô hình lớn tự lái xe, VLA hoặc hệ thống trí thông minh vật thể mà không đặt tên riêng.

Qwen-AgentWorld, HappyOyster, Qwen-RobotWorld của Alibaba lần lượt hướng đến thế giới ngôn ngữ, thế giới ảo và thế giới vật lý; HY-World của Tencent thiên về thế giới 3D có thể chỉnh sửa; các hãng xe thì thích nói hơn về mô hình thế giới lái xe hoặc mô hình hành vi thế giới; Huawei, Baidu đơn giản là không hô to riêng bốn chữ "world model".

Đằng sau sự hỗn loạn trong đặt tên, mọi người thực ra đang làm cùng một việc:

Để máy móc thiết lập một môi trường động có thể suy luận, có thể phân tích lại trong nội bộ trước khi thực sự hành động, giảm sự phụ thuộc vô hạn vào dữ liệu thực tế, nén thế giới thực thành một cỗ máy dữ liệu có thể sinh ra vô hạn, mắc lỗi vô hạn, làm lại vô hạn.

Khi các công ty khởi nghiệp còn đang bận rộn với quyền thu thập dữ liệu và ngân sách tính toán, thì Alibaba, Tencent, Huawei, Nio, XPeng, Li Auto đã âm thầm trải mô hình thế giới thành một đường đua mới.

Mô hình thế giới là một tham vọng: để AI vượt qua việc nhận biết thế giới, trước hết hãy "diễn tập" thế giới trong đầu.

Các nhà sản xuất ô tô tự lái muốn dùng nó để tạo ra "đề thi" về trời mưa, trời tuyết, vật cản dị dạng; các đội ngũ trí thông minh vật thể muốn dùng nó để robot ngã đủ trăm nghìn lần trong mô phỏng trước khi ra ngoài; còn các công ty game và mạng xã hội thì muốn dùng nó tạo ra một vũ trụ song song mà con người có thể đắm chìm vào.

Cách thức các ông lớn tham gia cuộc chơi có những điểm nhấn khác nhau, nhưng mục tiêu cốt lõi là nhất quán: nén thế giới thực thành một cỗ máy dữ liệu có thể suy luận vô hạn, phân tích lại vô hạn.

I. Các ông lớn Internet:

Từ thế giới số đến thế giới vật lý

Bố cục mô hình thế giới của Alibaba giống như "bày từng món đồ trên kệ ra".

Tháng 6/2026, chỉ trong vòng hơn chục ngày, họ liên tiếp tung ra ba lá bài:

Series Qwen-Robot ngày 16/6, HappyOyster 1.0 ngày 17/6, Qwen-AgentWorld ngày 24/6.

Qwen-AgentWorld là một mô hình thế giới ngôn ngữ nguyên bản, nó không tạo ra hình ảnh, mà tạo ra môi trường — trong bảy môi trường bao gồm công cụ MCP, tìm kiếm, terminal, kỹ thuật mã, Web, hệ điều hành, Android, mô hình có thể mô phỏng tương tác thực tế, tự học, mài giũa chính mình bằng học tăng cường. Nó cung cấp hai quy mô: kiến trúc MoE với tổng tham số 35B và 397B, tham số kích hoạt lần lượt là 3B và 17B; dữ liệu huấn luyện đến từ hơn 10 triệu đường tương tác môi trường thực tế; cả mô hình và tiêu chuẩn đánh giá AgentWorldBench đều đã mã nguồn mở. Điều này tương đương với việc coi mô hình thế giới là "bãi tập" chứ không phải là "đồ trang trí" của tác nhân thông minh.

HappyOyster 1.0 lại mang một diện mạo khác, nó giống một "trường quay phim có thể chơi" hơn: người dùng đưa ra một câu hoặc một bức ảnh, nó tạo ra một thế giới mở, và cho phép người dùng can thiệp tùy ý trong hai chế độ "Khám phá thế giới" và "Đạo diễn thời gian thực". Chế độ khám phá hỗ trợ di chuyển và điều khiển camera liên tục thời gian thực lên đến 1 phút, chế độ đạo diễn có thể tạo ra hình ảnh thời gian thực 480p/720p trên 3 phút. Alibaba định vị nó là cửa ngõ cho các ngành như game tương tác, đồng hành ảo, phim ngắn tương tác, trải nghiệm du lịch văn hóa.

Qwen-RobotWorld lại hướng đến một hướng khác, nó là "bộ não tư duy" trong bộ ba trí thông minh vật thể của Alibaba, phối hợp với mô hình thao tác VLA Qwen-RobotManip và mô hình di chuyển VLN Qwen-RobotNav, mục tiêu là giúp robot có một thế giới nội tâm có thể diễn tập trước.

Ba sự việc hợp lại với nhau, Alibaba đang đồng thời tranh giành quyền định nghĩa thế giới ngôn ngữ, thế giới ảo và thế giới vật lý.

Tencent Hunyuan đi theo một con đường khác, series HY-World của họ giống như đang xây dựng "nhà máy tự động của game 3D".

Tháng 7/2025, Tencent công bố mã nguồn mở mô hình thế giới 3D Hunyuan 1.0 tại WAIC; tháng 12 nâng cấp lên 1.5; tháng 4/2026 phát hành và mã nguồn mở HY-World 2.0. Đầu vào có thể là văn bản, ảnh đơn, ảnh đa, video thậm chí là mô hình trắng, đầu ra có thể là 3DGS, Mesh, point cloud.

Phiên bản 2.0 giới thiệu các mô-đun như HY-Pano 2.0, WorldNav, WorldStereo 2.0, WorldMirror 2.0, kết nối việc tạo thế giới, tái tạo thế giới, ảnh toàn cảnh, tạo thế giới thời gian thực thành một vòng khép kín.

Lợi thế của Tencent nằm ở các kịch bản game và mạng xã hội, người dùng thực sự của HY-World không phải để huấn luyện xe tự lái, mà là để tạo màn chơi game, quay phim ảo, tạo bản sao số.

Dự án mô hình thế giới của ByteDance thì giống như một cuộc "hành quân bí mật" mang gen dữ liệu video ngắn.

Tháng 8/2025, The Information tiết lộ đội Seed của Byte đang nghiên cứu và phát triển mô hình thế giới, dẫn dắt là Zhou Chang, cựu thành viên cốt cõi của Tongyi Qianwen. Con bài lớn nhất của dự án này là luồng video hơn 1 tỷ lần mỗi ngày từ Douyin và TikTok, cùng với khung EX-4D — có thể chuyển video đơn nhãn thành cảnh 4D đa góc nhìn. Nó nhắm đến Genie 3 của Google và V-JEPA 2 của Meta, mục tiêu không phải là một công cụ tạo video đẹp mắt, mà là xây dựng một "bản sao số" có thể mô phỏng quy luật vật lý.

Tại hội nghị FORCE Nguyên Động Lực của Volcano Engine ngày 23/6/2026, Byte không trực tiếp phát hành mô hình thế giới này, nhưng đã trình làng series Doubao Seed 2.1, mô hình tạo video Seedance 2.5, mô hình tạo ảnh Seedream 5.0 Pro và mô hình tạo âm thanh mới.

Báo cáo độc quyền của 36Kr thì tóm tắt chiến lược AI năm 2026 của Byte thành bốn mệnh đề: mô hình thế giới cuối năm phải đạt SOTA toàn cầu, Seedance khám phá tạo động, Coding củng cố nền tảng, Doubao tăng tốc thương mại hóa.

Điều này có nghĩa, mô hình thế giới là mệnh đề số một trong nội bộ Byte, chỉ là họ chọn để Seedance và Doubao đứng ở tiền sảnh trước, còn bản thân mô hình thế giới tiếp tục ẩn mình chuẩn bị chiêu lớn.

Khí chất của mô hình thế giới Pangu của Huawei thì là "trầm lặng nhưng chí mạng".

Tại hội nghị nhà phát triển tháng 6/2025, Huawei đã phát hành mô hình lớn Pangu, dựa trên mô hình lớn đa phương thức Pangu, khả năng cốt lõi là tạo ra không gian vật lý số độ chính xác cao từ một bức ảnh đơn. Nó có thể dự đoán va chạm, huấn luyện cánh tay robot nắm bắt, còn có thể tạo video lái xe và point cloud lidar, giúp mô hình end-to-end ADS của Huawei đạt được "hai ngày một phiên bản".

Huawei không hô to khẩu hiệu "mô hình thế giới", mà coi nó là "nền tảng huấn luyện" của xe thông minh và trí thông minh vật thể. Hợp tác với GAC là một trường hợp điển hình: video 2D và point cloud 3D tương ứng cấp độ pixel, khôi phục Corner Case phức tạp trong vài phút.

Tại HDC 2026 tháng 6/2026, Huawei đã đẩy mô hình lớn Pangu lên 7.0, và phát hành Ascend 910C, Yu Chengdong tái đảm nhiệm chức vụ dẫn dắt Pangu, nhưng bản thân mô hình thế giới không có tin tức phiên bản mới riêng.

Tư duy "mô hình thế giới không tồn tại độc lập, mà phục vụ vòng khép kín ngành" này, là phong cách nhất quán của Huawei.

Baidu tham gia cuộc chơi sớm hơn trong lĩnh vực lái xe tự động, Apollo ADFM được định vị là "mô hình lái xe tự động đầu tiên trên thế giới hỗ trợ L4" khi phát hành vào tháng 5/2024.

Mặc dù Baidu không đặt tên nó là mô hình thế giới, nhưng về bản chất nó đã có chức năng của mô hình thế giới: hiểu thế giới vật lý, dự đoán hành vi của người tham gia giao thông thông qua mạng thần kinh end-to-end. Tháng 11/2025, mô hình lớn Ernie 5.0 xuất hiện dưới dạng toàn phương thức nguyên bản, quy mô tham số đạt 2,4 nghìn tỷ; tháng 1/2026 chính thức lên bản chính thức.

Năng lực mô hình thế giới của Baidu đã ẩn vào một bàn cờ lớn hơn. Chiến lược của Baidu là: không bàn riêng về mô hình thế giới, mà để Apollo và Ernie hỗ trợ lẫn nhau.

Xiaomi và SenseTime đại diện cho hai trường phái "dòng kỹ thuật".

Xiaomi OneVL do Xiaomi mã nguồn mở ngày 13/5/2026, thống nhất VLA, mô hình thế giới và suy luận không gian tiềm ẩn vào một khung, nhấn mạnh khả năng giải thích của quá trình suy luận thị giác, làm ra linh kiện cơ bản mà cả lái xe tự động và trí thông minh vật thể đều có thể sử dụng.

"Kaiwu" của SenseTime's Jueying giống như một "tài xế già" đã lên chức, trong báo cáo của Frost & Sullivan tháng 9/2025, nó được định nghĩa là mô hình thế giới đầu tiên trong ngành đã sản xuất hàng loạt, có thể tương tác, có thể tạo video lái xe 150 giây, 1080P, 11 góc nhìn, và lắng đọng bộ dữ liệu lái xe sinh lớn nhất trong ngành WorldSim-Drive cùng kho cảnh tạo sinh hàng chục triệu.

Tháng 6/2026, Daxiao Robotics do Wang Xiaogang, đồng sáng lập SenseTime, thành lập lại tuyên bố hoàn thành vòng gọi vốn hàng trăm triệu USD, mô hình thế giới Kairos 3.0 của họ đứng đầu bốn bảng xếp hạng chính về tạo sinh video dự đoán, theo dõi chỉ lệnh nhiệm vụ.

Mô hình thế giới hệ SenseTime đang lan từ xe thông minh sang robot.

II. Các hãng xe:

Coi mô hình thế giới như trường lái xe và phòng thi

Nếu nói mô hình thế giới của các ông lớn Internet là đang "tạo ra thế giới", thì mô hình thế giới của các hãng xe là đang "sử dụng thế giới".

Nio là hãng xe Trung Quốc đầu tiên dùng mô hình thế giới như một lá cờ để vẫy.

Tại NIO IN tháng 7/2024, Ren Shaoqing công bố NWM (NIO World Model), định vị là mô hình thế giới lái xe thông minh đầu tiên của Trung Quốc.

Nó sử dụng kiến trúc sinh tự hồi quy đa nguyên, làm hai việc: "tưởng tượng tái tạo" về mặt không gian và "tưởng tượng suy diễn" về mặt thời gian.

Đưa vào một cảnh thực tế, nó có thể khôi phục thế giới 3D; đưa vào một gợi ý ba giây, nó có thể tạo video tương lai trên hai phút. Cứ mỗi 0.1 giây, nó suy diễn 216 quỹ đạo, chọn ra giải pháp tối ưu.

Logic của Nio rất rõ ràng: mô hình end-to-end là chưa đủ, một hệ thống lái thông minh thực sự thông minh cần phải giống con người "nhắm mắt cũng tưởng tượng được tình huống đường". Ngày 18/6/2026, Nio chính thức đẩy phiên bản mới NWM 2.0, phủ hơn 700 nghìn người dùng toàn series, ngay cả chủ xe cũ mua xe từ bốn năm trước cũng có thể nâng cấp miễn phí, bốn hệ thống xe Banyan, Cedar, Coconut+ đồng thời phát hành phiên bản. Phiên bản mới lần đầu tiên trong nước thực hiện mô hình lái thông minh trực tiếp xuất tín hiệu thao tác thô của vô lăng, bàn đạp ga, bàn đạp phanh, và nâng cấp hệ thống huấn luyện từ "mô hình thế giới + học tăng cường vòng kín" lên ba tầng "mô hình thế giới + tinh chỉnh giám sát + học tăng cường vòng kín". Cảnh phủ AEB gấp 6,7 lần AEB tiêu chuẩn, xác suất phanh nhầm giảm xuống một lần trên 100 nghìn km.

Chip Thần Ky NX9031 thậm chí được mô tả là "sinh ra đã được thiết kế cho mô hình thế giới".

Li Auto đã đề xuất tư duy mô hình thế giới "tái tạo + sinh ra" vào nửa cuối năm 2024, và công bố DrivingSphere tại CVPR 2025.

Nó bao gồm mô hình khuếch tán OccDreamer và VideoDreamer ST-DiT, xây dựng một môi trường mô phỏng vòng kín 4D độ trung thực cao.

Mô phỏng vòng mở truyền thống chỉ có thể đánh giá mô hình "nhìn thấy gì", còn mô phỏng vòng kín có thể đánh giá mô hình "đã làm gì". Mô hình thế giới của Li giống như một phòng thi có thể tạo ra vô hạn câu hỏi khó, để hệ thống lái thông minh chạy quen các cảnh éo le trong chip trước.

Đến Livis Day tháng 6/2026, Li đã nâng cấp thêm khả năng này thành "Mach VLA", kiến trúc MoE đa phương thức nguyên bản, cảm nhận, dự đoán, quy hoạch thống nhất, sức mạnh tính toán chip kép M100 trên xe là 2560TOPS, thời gian phản ứng 0.28 giây.

Theo lộ trình công bố của Li, quý ba sẽ đẩy Mach VLA hoàn toàn mới cho người dùng AD Max, quý tư mục tiêu ngang bằng Tesla FSD V14. Li không còn chỉ là một công ty ô tô, nó đang tự định hình mình thành một nhà cung cấp hệ thống trí thông minh vật thể Livis.

Con đường của XPeng Motors thì thể hiện cảm giác tầng thứ "làm lớn trước, làm tinh sau".

Tháng 4/2025, tại buổi chia sẻ công nghệ AI ở Hồng Kông, XPeng lần đầu tiên tiết lộ đang nghiên cứu và phát triển "mô hình nền tảng thế giới" lái xe tự động siêu quy mô 72 tỷ tham số.

Một năm sau, ngày 1/4/2026, XPeng chính thức công bố báo cáo công nghệ mô hình thế giới X-World.

Nó dựa trên công nghệ sinh video khuếch tán, cải tạo trên mẫu sinh video không gian tiềm ẩn của WAN 2.2, sử dụng VAE 3D nhân quả và DiT chú ý tự thời gian - góc nhìn, hỗ trợ sinh nhất quán xuyên góc nhìn từ 7 camera vòng quanh.

X-World không phải công cụ tạo video, mà là "bộ mô phỏng thế giới thực" của VLA thế hệ thứ hai của XPeng: cảnh mô phỏng tăng từ 30 nghìn cách đây một năm lên hơn 500 nghìn, quãng đường thử nghiệm mô phỏng hàng ngày tương đương 30 triệu km thử nghiệm thực tế, và hỗ trợ học tăng cường trực tuyến và sinh dữ liệu nước ngoài.

Tại CVPR tháng 6/2026, XPeng lại lần đầu tiên trình diễn biểu đồ công nghệ mô hình thế giới hoàn chỉnh. Tham vọng của XPeng được viết trong phạm vi ứng dụng của nó: xe AI, robot AI, ô tô bay. Mục tiêu quy mô dữ liệu huấn luyện của nó là 200 triệu clips, cụm vạn card cung cấp sức mạnh tính toán 10 EFLOPS, lặp lại 5 ngày một lần.

Geely Motors trình làng WAM (World Action Model) tại CES 2026, và đặt nó vào hệ thống AI toàn cục 2.0.

Kiến trúc phân tầng của WAM rất thú vị: tầng trên là mô hình lớn đa phương thức MLLM chịu trách nhiệm hiểu, tầng dưới là Chuyên gia Hành động (Action Expert) chịu trách nhiệm động tác, ở giữa là mô hình thế giới chịu trách nhiệm suy diễn.

Mục tiêu của Geely không phải là để mô hình lái thông minh tốt hơn, mà là để toàn bộ chiếc xe trở thành "một bộ não" — lái xe thông minh, khoang lái, khung gầm, động lực điều phối thống nhất. Tháng 4/2026, ZEEKR 8X ra mắt là giao hàng ngay, trở thành siêu tác nhân thông minh tích hợp khoang-lái đầu tiên lên xe sản xuất hàng loạt trong nước, G-ASD 4.0 của nó dựa trên WAM. Mục tiêu 2026 là L3 cao tốc và L4 tốc độ thấp.

Mô hình thế giới của BYD vẫn đang trong giai đoạn nghiên cứu sớm, thông tin tiết lộ tháng 1/2025 cho thấy, nội bộ họ tham khảo con đường của Tesla, thành lập nhóm nhỏ thử sai nhanh, trọng điểm giải quyết việc sinh dữ liệu Corner Case cho lái xe tự động end-to-end.

Great Wall Motors cũng đề xuất hướng lái xe thông minh thế hệ tiếp theo VLA + mô hình thế giới, và đã đi từ "chiến lược" đến "sản xuất hàng loạt": tháng 6/2026, tại hội nghị lái xe thông minh và xuất khẩu, Great Wall chia sẻ thực tiễn VLA, trung tâm siêu tính toán Jiuzhou ở Bảo Định đạt sức mạnh tính toán 5 EFLOPS, GPU hơn 10 nghìn card, Tank 700 sẽ trở thành mẫu xe đầu tiên trang bị hệ thống Coffee Pilot 4.0 VLA, sản xuất hàng loạt lên xe trong năm 2026. Hạm đội xe hiện có hơn 2 triệu chiếc tạo ra lượng dữ liệu khổng lồ mỗi ngày, đây là gia tài dày dặn nhất của Great Wall so với các hãng xe mới.

III. Nhà cung cấp giải pháp lái xe thông minh:

Động cơ thế giới ẩn dưới gầm xe

Ngoài các hãng xe, còn có một nhóm nhà cung cấp biến mô hình thế giới thành "động cơ tàng hình".

Momenta chính thức phát hành mô hình thế giới học tăng cường R7 tại triển lãm ô tô Bắc Kinh tháng 4/2026, và thực hiện phát hành sản xuất hàng loạt đầu tiên.

Nó là một kiến trúc ba tầng: tiền huấn luyện mô hình thế giới, mô phỏng mô hình thế giới, học tăng cường. R7 dựa trên hơn 12 tỷ km quãng đường xe thực tế mà nghiệp vụ sản xuất hàng loạt của Momenta mang lại, tinh luyện từ đó hơn 100 triệu đoạn "dữ liệu vàng" để tiền huấn luyện, sau đó để mô hình trải qua lượng lớn cảnh đuôi dài trong mô phỏng, cuối cùng dùng học tăng cường để mài giũa.

Momenta trực tiếp nhúng nó vào mô hình nền tảng end-to-end, mục tiêu là đạt tiêu chuẩn L4. Dữ liệu thương mại cũng đang bùng nổ nhanh chóng: số lượng xe sản xuất hàng loạt được trang bị hệ thống của Momenta đã vượt 900 nghìn chiếc, thành công giao hơn 100 mẫu xe sản xuất hàng loạt, điểm định danh tích lũy vượt 210 mẫu, giải pháp triển khai tại hơn 10 quốc gia và khu vực bao gồm Anh, Na Uy, Singapore, Úc New Zealand.

Tháng 6/2026, Momenta thông qua thẩm tra của Sở Giao dịch Chứng khoán Hồng Kông, lao vào IPO với danh hiệu "cổ phiếu AI vật lý đầu tiên" và thị phần NOA thành phố bên thứ ba 65%. Đủ thấy sự đặt cược của họ vào mô hình thế giới.

Horizon Robotics phát hành HorizonDrive vào tháng 5/2026, một mô hình thế giới tự hồi quy, khả năng cốt lõi là tạo video lái xe dài chuỗi thời gian cấp phút.

Nó sử dụng video-VAE hoạt động trong không gian tiềm ẩn, nhập vào bản đồ HD, khung giới hạn 3D và hành động của xe tự, sau đó xuất ra cảnh tương lai liên tục.

Điểm sáng của HorizonDrive là huấn luyện "tự sửa lỗi": thông qua công nghệ SRR và TRD, để mô hình tự sửa khi sinh ra lỗi. Trên nuScenes, FID của nó giảm 52%, FVD giảm 37%, độ chính xác quỹ đạo tăng 21%; một RTX 5090 đơn có thể sinh video 256×512, tốc độ 5.6 FPS, hoặc video 384×768 1.7 FPS. Định vị của nó là mô phỏng lái xe tự động vòng kín, giúp các hãng xe xác minh hệ thống L3+ trong tình huống không lên đường.

DriveGPT của Haomo.ai là một trong những dự án đầu tiên hô to khẩu hiệu "mô hình thế giới" trong nước.

"Xuehu · Hairuo" phát hành tháng 4/2023 là một mô hình lớn lái xe tự động sinh, dùng cách dự đoán khung hình tiếp theo để xây dựng không gian biểu diễn 4D. Đằng sau nó là 10 tỷ khung hình ảnh Internet, 4,8 triệu clips 4D và 87 triệu km quãng đường hỗ trợ lái.

Con đường Haomo đi tương tự World Model của Tesla, GAIA-1 của Wayve: để mô hình lớn lái xe tự động tiến hóa từ "xem ảnh" đến "xem video", rồi đến "dự đoán video". Nó cung cấp khả năng cho các kịch bản như xe Great Wall Wey, xe tự hành nhỏ Xiao Mo Tuo.

DeepRoute (Yuanrong Qixing) phát hành nền tảng DeepRoute IO 2.0 vào ngày 26/8/2025, trang bị mô hình VLA tự nghiên cứu.

Tại triển lãm ô tô Bắc Kinh tháng 4/2026, DeepRoute lại tiếp tục phát hành công nghệ mô hình nền tảng và chiến lược AI vật lý, và trình làng dữ liệu thương mại hóa: số lượng xe sản xuất hàng loạt được trang bị giải pháp NOA thành phố của họ vượt 300 nghìn chiếc, một năm qua tổng quãng đường chạy thực tế của xe được trang bị hệ thống an toàn chủ động của DeepRoute vượt 1,3 tỷ km, tổng thời gian lái đồng hành cùng người dùng tích lũy đạt 44,8 triệu giờ.

DeepRoute không đặt tên riêng một mô hình thế giới, nhưng trong hệ thống mô phỏng và huấn luyện của DeepRoute IO 2.0, mô hình thế giới là cốt lõi ngầm định.

IV. Công ty khởi nghiệp và ông lớn:

Hai tấm bản đồ, cùng một thành phố

Và bảng bố cục các ông lớn này, là một tấm bản đồ khác.

Hai tấm bản đồ chỉ về cùng một thành phố: ai có thể khiến AI thực sự hiểu thế giới vật lý, người đó sẽ sở hữu cửa ngõ của thời đại tiếp theo.

Lợi thế của các công ty khởi nghiệp là tập trung và tốc độ.

Họ có thể đặt cược vào một tuyến đường cấp tiến, ví dụ mô hình thế giới nguyên bản, sinh không gian 3D, động cơ vật lý VLA, không bị ràng buộc bởi nghiệp vụ hiện có. Nhưng họ thiếu dữ liệu, thiếu sức mạnh tính toán, thiếu kênh sản xuất hàng loạt, càng thiếu một vòng khép kín kịch bản thực tế có thể liên tục nuôi lớn mô hình thế giới.

Nhược điểm của các ông lớn là quán tính tổ chức và sự hỗn loạn đặt tên do nhiều bộ phận chạy song song — ba dự án mô hình thế giới của Alibaba thậm chí khiến người ngoài phân vân không biết chúng có phải cùng một việc không. Nhưng các ông lớn trong tay có dữ liệu, có sức mạnh tính toán, có người dùng, có xe, còn có hệ thống kỹ thuật để chạy mô hình. Công ty khởi nghiệp tạo ra "mô hình", ông lớn tạo ra "hệ thống".

Thời khắc nguy hiểm nhất, là khi các ông lớn biến mô hình thế giới từ "dự án nghiên cứu" thành "nền tảng nghiệp vụ". Mô hình lớn Pangu của Huawei phục vụ ADS và robot, HY-World của Tencent phục vụ game và công nghiệp, DrivingSphere của Li phục vụ lặp lái thông minh, Kaiwu của SenseTime đã sản xuất hàng loạt lên xe, Momenta R7 đã chạy trên hơn 900 nghìn xe —

Đây không phải là slide trên hội nghị, mà là "năng lực" đang bước vào dây chuyền sản phẩm. Đối với các công ty khởi nghiệp, cửa sổ cơ hội của mô hình thế giới đang thu hẹp, cạnh tranh trong tương lai sẽ nhanh chóng từ "ai có thể làm ra mô hình thế giới" biến thành "mô hình thế giới của ai có thể được các ông lớn dùng nổi, dùng tốt".

V. Mô hình thế giới không phải là cơn sốt,

mà là sự nâng cấp của cuộc chiến cũ

Mô hình thế giới không phải là một câu chuyện mới.

Nó là sản phẩm tự nhiên sau khi mô hình lớn ngôn ngữ, mô hình sinh video, mô hình lái xe tự động end-to-end, mô hình VLA robot giao nhau ở thế giới vật lý.

data-check-id="634442">Các ông lớn ồ ạt vào sân, chứng tỏ việc này đã từ "đồ chơi của tín đồ công nghệ" biến thành "cơ sở hạ tầng ngành".

Alibaba, Tencent, ByteDance, Huawei, Baidu, Xiaomi, SenseTime dựng cầu giữa thế giới số và thế giới vật lý; Nio, Li, XPeng, Geely, BYD, Great Wall Motors sửa "cầu" đến tận xe ô tô; Momenta, Horizon, Haomo, DeepRoute thì lát đường ray dưới chân cầu.

Các công ty khởi nghiệp đứng ở cuối cầu, trong tay cầm bản vẽ tinh xảo hơn, nhưng lại phải đối mặt với sự thật các ông lớn đang điều động đội ngũ kỹ thuật.

Một năm tới, vấn đề cốt lõi của đường đua mô hình thế giới sẽ không phải là "ai đã làm", mà là "mô hình thế giới của ai thực sự đang thay con người hiểu thế giới".

Bài viết từ tài khoản công chúng WeChat: IT桔子 , tác giả: Judy

Tiền kỹ thuật số thịnh hành

Câu hỏi Liên quan

QVì sao các công ty lớn như Alibaba, Tencent lại đặt nhiều tên khác nhau cho 'Mô hình Thế giới'?

ASự khác biệt trong cách đặt tên phản ánh sự tập trung chiến lược khác nhau. Mỗi công ty gắn mô hình này với ưu tiên kinh doanh và hệ sinh thái công nghệ của riêng họ, thay vì chấp nhận một định nghĩa chung.

QAlibaba đã phát triển những Mô hình Thế giới nào và chúng nhắm đến mục tiêu gì?

AAlibaba phát triển ba mô hình: Qwen-AgentWorld (mô phỏng môi trường ngôn ngữ), HappyOyster 1.0 (thế giới ảo tương tác) và Qwen-RobotWorld (thế giới vật lý cho robot). Mục tiêu là cùng lúc định hình cả thế giới ngôn ngữ, ảo và vật lý.

QCác hãng xe như NIO và XPeng ứng dụng Mô hình Thế giới vào lĩnh vực lái xe tự động như thế nào?

ACác hãng xe sử dụng Mô hình Thế giới như một 'trường lái xe ảo'. NIO NWM tái tạo và dự đoán cảnh tượng 3D để tối ưu đường đi. XPeng X-World tạo ra một 'mô phỏng thế giới thực' để kiểm tra hệ thống với hàng triệu km lái xe ảo mỗi ngày, giải quyết các tình huống hiếm gặp.

QNhà cung cấp công nghệ lái xe tự động (như Momenta, Horizon Robotics) đóng vai trò gì trong cuộc đua Mô hình Thế giới?

AHọ đóng vai trò là 'động cơ ẩn', phát triển các Mô hình Thế giới chuyên sâu để tích hợp vào hệ thống của các hãng xe. Momenta R7 đã được sản xuất hàng loạt, sử dụng dữ liệu thực tế khổng lồ để huấn luyện. Horizon Robotics tập trung vào mô phỏng khép kín để kiểm chứng các hệ thống cấp độ cao.

QSự khác biệt chính trong cách tiếp cận Mô hình Thế giới giữa các công ty khởi nghiệp và các tập đoàn lớn là gì?

ACông ty khởi nghiệp có lợi thế về tốc độ và sự tập trung vào các hướng đi kỹ thuật đột phá. Tuy nhiên, họ thiếu dữ liệu, năng lực tính toán và kênh triển khai thực tế. Các tập đoàn lớn có nguồn lực vượt trội (dữ liệu, phần cứng, hệ sinh thái) để biến Mô hình Thế giới thành 'nền tảng nghiệp vụ' và tích hợp trực tiếp vào sản phẩm, rút ngắn khoảng cách từ nghiên cứu đến ứng dụng.

Nội dung Liên quan

SUI, ENA Và EIGEN Dẫn Đầu Làn Sóng Mở Khóa Token 73 Triệu USD Tuần Này

**TÓM TẮT** Tuần này, thị trường tiền mã hóa chứng kiến làn sóng mở khóa token trị giá 73 triệu USD, với các dự án SUI, EIGEN và ENA dẫn đầu. Cụ thể, SUI (13.72 triệu token, ~9.4 triệu USD) và EIGEN (36.82 triệu token, ~8.7 triệu USD) sẽ mở khóa vào ngày 1 tháng 7 năm 2026, trong khi ENA mở khóa ~3.12 triệu USD vào ngày 3 tháng 7 năm 2026. Điểm quan trọng cần lưu ý: Việc mở khóa không tự động dẫn đến bán tháo ngay lập tức, vì các nhà tạo lập thị trường thường phòng ngừa rủi ro từ trước cho các sự kiện cung cấp này. Đối với nhà giao dịch, thông tin này quan trọng vì nó ảnh hưởng đến cách định giá vốn, thanh khoản và sự tự tin trên toàn thị trường hiện nay. Các đợt mở khóa là sự kiện về nguồn cung mà trader không thể bỏ qua, đặc biệt với các tài sản có nhiều quan tâm đầu cơ như SUI, ENA và EIGEN. Chúng có thể định hình vị thế giao dịch ngắn hạn và thanh khoản xung quanh ngày phát hành. Tuy nhiên, cần hiểu đây là một tín hiệu thị trường, không phải sự đảm bảo cho biến động giá. Tác động thực tế thường lan tỏa sang các giao dịch liên quan và phụ thuộc nhiều vào bối cảnh thanh khoản tổng thể, dòng ETF và điều kiện vĩ mô. Điều cần theo dõi tiếp theo là liệu mô hình này có được xác nhận bởi các dòng tiền, số liệu on-chain, hoặc dữ liệu phái sinh tiếp theo hay không, để xác định đây là một chủ đề bền vững hay chỉ là một đợt biến động ngắn hạn.

bitcoinist5 phút trước

SUI, ENA Và EIGEN Dẫn Đầu Làn Sóng Mở Khóa Token 73 Triệu USD Tuần Này

bitcoinist5 phút trước

Upbit Niêm Yết Gensyn Khi Phong Trào Tiền Mã Hóa AI Nhận Được Sự Thúc Đẩy Từ Thị Trường Hàn Quốc

Upbit, sàn giao dịch tiền điện tử lớn của Hàn Quốc, đã thông báo hỗ trợ giao dịch cho token GEN của Gensyn, một dự án cung cấp tài nguyên GPU điện toán phi tập trung cho AI. Việc niêm yết này mang lại các cặp giao dịch GEN với Won Hàn Quốc, Bitcoin và USDT, mở ra cánh cửa tiếp cận thị trường bán lẻ crypto sôi động nhất thế giới. Bài viết nhấn mạnh rằng niêm yết trên Upbit có thể tạo ra sự chú ý và thanh khoản tức thời mạnh mẽ cho GEN, nhờ sự kết hợp giữa tính thanh khoản mới, sự quan tâm của nhà đầu tư bán lẻ và câu chuyện đầu cơ liên tục xoay quanh lĩnh vực AI trong crypto. Gensyn được định vị rõ ràng trong xu hướng này với đề xuất về một thị trường mở cho sức mạnh tính toán phục vụ AI. Tuy nhiên, tác giả cũng đưa ra lời cảnh báo: "hiệu ứng niêm yết" có thể cắt cả hai chiều, dẫn đến biến động giá mạnh và sự điều chỉnh sau đợt mua ban đầu. Giá trị lâu dài của GEN sẽ không phụ thuộc vào tin tức niêm yết mà vào hoạt động thực tế của mạng lưới, mức độ sử dụng, tính bền vững của cơ chế token và sức hấp dẫn liên tục của xu hướng AI. Dù vậy, việc được niêm yết trên một sàn lớn như Upbit chắc chắn là một chất xúc tác quan trọng, giúp dự án tiếp cận đối tượng rộng lớn hơn và khó bị các nhà giao dịch altcoin bỏ qua.

bitcoinist50 phút trước

Upbit Niêm Yết Gensyn Khi Phong Trào Tiền Mã Hóa AI Nhận Được Sự Thúc Đẩy Từ Thị Trường Hàn Quốc

bitcoinist50 phút trước

CEO Goliath Ventures nhận tội trong vụ lừa đảo tiền mã hóa 250 triệu USD, đồng ý tịch thu tài sản xa xỉ

Giám đốc điều hành của công ty đầu tư tiền điện tử Goliath Ventures, Christopher Alexander Delgado, đã nhận tội với các cáo buộc liên bang về gian lận và rửa tiền. Anh ta thừa nhận vai trò trong một kế hoạch lừa đảo kiểu Ponzi gây thiệt hại ít nhất 250 triệu USD cho các nhà đầu tư. Vụ án do Văn phòng Luật sư Hoa Kỳ, Quận Trung Florida điều tra. Delgado nhận tội vào ngày 30/6 với tội danh âm mưu gian lận chuyển tiền, gian lận chuyển tiền và rửa tiền, có thể đối mặt tổng cộng đến 50 năm tù. Theo cáo trạng, từ tháng 1/2023 đến tháng 1/2026, Delgado và đồng phạm đã vận hành Goliath Ventures như một mô hình Ponzi, hứa hẹn lợi nhuận hàng tháng từ các nhóm thanh khoản tiền điện tử để thu hút ít nhất 400 triệu USD. Thay vào đó, tiền của nhà đầu tư mới được dùng để trả cho người tham gia trước, rút vốn và tài trợ cho lối sống xa xỉ của các lãnh đạo công ty. Theo thỏa thuận nhận tội, Delgado đồng ý tịch thu nhiều tài sản xa xỉ mua bằng tiền gian lận, bao gồm 8 bất động sản, 11 xe hơi hạng sang (Lamborghini, Rolls-Royce...), hàng chục đồng hồ, túi xách thiết kế, trang sức đắt tiền, tài khoản ngân hàng và các tài sản tiền điện tử như Ethereum, USDC. Bản án chính thức dự kiến vào tháng 10.

ambcrypto1 giờ trước

CEO Goliath Ventures nhận tội trong vụ lừa đảo tiền mã hóa 250 triệu USD, đồng ý tịch thu tài sản xa xỉ

ambcrypto1 giờ trước

Ripple Đẩy Mạnh Mở Rộng Tuân Thủ Toàn Cầu Trước Khi Thảo Luận Đạo Luật Rõ Ràng Ở Mỹ

Ripple đang tích cực mở rộng hoạt động tuân thủ quy định toàn cầu bằng cách xin cấp phép bổ sung tại Singapore và châu Âu, nhằm phát triển các sản phẩm thể chế dựa trên tiện ích. Động thái này diễn ra trong bối cảnh sắp tranh luận về Đạo luật Rõ ràng tại Mỹ, nhưng trọng tâm cần tách biệt với các diễn biến từ vụ kiện SEC. Đối với trader, câu chuyện này quan trọng vì nó phản ánh xu hướng phát triển hạ tầng và tiện ích, có khả năng ảnh hưởng đến dòng vốn, thanh khoản và tâm lý thị trường tiền điện tử rộng hơn, đặc biệt trong bối cảnh thị trường còn chịu tác động mạnh từ dòng ETF và sự luân chuyển vốn. Điều cần lưu ý là tránh diễn giải quá mức một tín hiệu đơn lẻ. Thông tin về giấy phép là một chỉ báo về định vị và sự tự tin của Ripple trong các thị trường được quản lý, chứ không phải một bảo đảm cho biến động giá. Cần theo dõi các dữ liệu tiếp theo như số liệu on-chain, lệnh mở (open interest) và dòng vốn để xác nhận liệu đây có phải một chủ đề bền vững hay chỉ là biến động ngắn hạn.

bitcoinist1 giờ trước

Ripple Đẩy Mạnh Mở Rộng Tuân Thủ Toàn Cầu Trước Khi Thảo Luận Đạo Luật Rõ Ràng Ở Mỹ

bitcoinist1 giờ trước

Giao dịch

Giao ngay

Bài viết Nổi bật

Làm thế nào để Mua WAR

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua WAR (WAR) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua WAR (WAR) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ WAR (WAR) của BạnSau khi mua WAR (WAR), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch WAR (WAR)Giao dịch WAR (WAR) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 757Xuất bản vào 2024.12.11Cập nhật vào 2026.06.02

Làm thế nào để Mua WAR

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của WAR (WAR) được trình bày dưới đây.

活动图片