Một cuộc chiến không có tên gọi thống nhất: Bản đồ thế giới mô hình của các "ông lớn" trong nước

marsbitXuất bản vào 2026-06-25Cập nhật gần nhất vào 2026-06-25

Tóm tắt

Mô hình thế giới (World Model) hiện chưa có tên gọi thống nhất trong ngành, với các tên như mô hình thế giới cơ sở, AI vật lý, hay được tích hợp trong kiến trúc xe tự hành, VLA hoặc hệ thống trí tuệ thể hiện. Mục tiêu chung là để máy móc xây dựng một môi trường động nội bộ có thể suy diễn và phân tích, giảm sự phụ thuộc vào dữ liệu thực tế, từ đó "nén" thế giới thực thành một động cơ dữ liệu có thể tạo, mắc lỗi và thử lại vô hạn. Các gã khổng lồ công nghệ Trung Quốc đang âm thầm biến đây thành một cuộc đua mới. Alibaba tung ra ba hướng tiếp cận riêng biệt cho thế giới ngôn ngữ (Qwen-AgentWorld), thế giới ảo (HappyOyster) và thế giới vật lý (Qwen-RobotWorld). Tencent tập trung vào thế giới 3D có thể chỉnh sửa (HY-World) phục vụ game và xã hội. ByteDance tận dụng dòng video khổng lồ từ TikTok/抖音. Huawei và Baidu không tách riêng khái niệm mà tích hợp nó như nền tảng huấn luyện cho ô tô thông minh và trí tuệ thể hiện. Trong lĩnh vực ô tô, mô hình thế giới trở thành "trường dạy lái" và "phòng thi". NIO, Li Auto, XPeng, Geely và các hãng khác đang phát triển các mô hình để tạo ra và kiểm tra vô số tình huống lái xe phức tạp trong môi trường mô phỏng, nhằm đào tạo và tinh chỉnh hệ thống lái tự động, giảm thiểu nhu cầu thử nghiệm trên đường thực tế. Các nhà cung cấp công nghệ lái xe tự động (ADAS/ADS) như Momenta, Horizon Robotics, Haomo.AI và DeepRoute đang phát triển các "động cơ thế giới" ẩn, tích hợp khả năng mô hình thế giới vào nền tảng mô phỏng và huấn luyện của họ để nhắm...

Tên gọi "world model" (mô hình thế giới), đến nay vẫn chưa có một danh thiếp thống nhất trong ngành. Có người gọi nó là mô hình thế giới, có người gọi là mô hình nền tảng thế giới, có người gọi là AI vật lý, cũng có người giấu nó trong kiến trúc của mô hình lớn tự lái xe, VLA hoặc hệ thống trí thông minh vật thể mà không đặt tên riêng.

Qwen-AgentWorld, HappyOyster, Qwen-RobotWorld của Alibaba lần lượt hướng đến thế giới ngôn ngữ, thế giới ảo và thế giới vật lý; HY-World của Tencent thiên về thế giới 3D có thể chỉnh sửa; các hãng xe thì thích nói hơn về mô hình thế giới lái xe hoặc mô hình hành vi thế giới; Huawei, Baidu đơn giản là không hô to riêng bốn chữ "world model".

Đằng sau sự hỗn loạn trong đặt tên, mọi người thực ra đang làm cùng một việc:

Để máy móc thiết lập một môi trường động có thể suy luận, có thể phân tích lại trong nội bộ trước khi thực sự hành động, giảm sự phụ thuộc vô hạn vào dữ liệu thực tế, nén thế giới thực thành một cỗ máy dữ liệu có thể sinh ra vô hạn, mắc lỗi vô hạn, làm lại vô hạn.

Khi các công ty khởi nghiệp còn đang bận rộn với quyền thu thập dữ liệu và ngân sách tính toán, thì Alibaba, Tencent, Huawei, Nio, XPeng, Li Auto đã âm thầm trải mô hình thế giới thành một đường đua mới.

Mô hình thế giới là một tham vọng: để AI vượt qua việc nhận biết thế giới, trước hết hãy "diễn tập" thế giới trong đầu.

Các nhà sản xuất ô tô tự lái muốn dùng nó để tạo ra "đề thi" về trời mưa, trời tuyết, vật cản dị dạng; các đội ngũ trí thông minh vật thể muốn dùng nó để robot ngã đủ trăm nghìn lần trong mô phỏng trước khi ra ngoài; còn các công ty game và mạng xã hội thì muốn dùng nó tạo ra một vũ trụ song song mà con người có thể đắm chìm vào.

Cách thức các ông lớn tham gia cuộc chơi có những điểm nhấn khác nhau, nhưng mục tiêu cốt lõi là nhất quán: nén thế giới thực thành một cỗ máy dữ liệu có thể suy luận vô hạn, phân tích lại vô hạn.

I. Các ông lớn Internet:

Từ thế giới số đến thế giới vật lý

Bố cục mô hình thế giới của Alibaba giống như "bày từng món đồ trên kệ ra".

Tháng 6/2026, chỉ trong vòng hơn chục ngày, họ liên tiếp tung ra ba lá bài:

Series Qwen-Robot ngày 16/6, HappyOyster 1.0 ngày 17/6, Qwen-AgentWorld ngày 24/6.

Qwen-AgentWorld là một mô hình thế giới ngôn ngữ nguyên bản, nó không tạo ra hình ảnh, mà tạo ra môi trường — trong bảy môi trường bao gồm công cụ MCP, tìm kiếm, terminal, kỹ thuật mã, Web, hệ điều hành, Android, mô hình có thể mô phỏng tương tác thực tế, tự học, mài giũa chính mình bằng học tăng cường. Nó cung cấp hai quy mô: kiến trúc MoE với tổng tham số 35B và 397B, tham số kích hoạt lần lượt là 3B và 17B; dữ liệu huấn luyện đến từ hơn 10 triệu đường tương tác môi trường thực tế; cả mô hình và tiêu chuẩn đánh giá AgentWorldBench đều đã mã nguồn mở. Điều này tương đương với việc coi mô hình thế giới là "bãi tập" chứ không phải là "đồ trang trí" của tác nhân thông minh.

HappyOyster 1.0 lại mang một diện mạo khác, nó giống một "trường quay phim có thể chơi" hơn: người dùng đưa ra một câu hoặc một bức ảnh, nó tạo ra một thế giới mở, và cho phép người dùng can thiệp tùy ý trong hai chế độ "Khám phá thế giới" và "Đạo diễn thời gian thực". Chế độ khám phá hỗ trợ di chuyển và điều khiển camera liên tục thời gian thực lên đến 1 phút, chế độ đạo diễn có thể tạo ra hình ảnh thời gian thực 480p/720p trên 3 phút. Alibaba định vị nó là cửa ngõ cho các ngành như game tương tác, đồng hành ảo, phim ngắn tương tác, trải nghiệm du lịch văn hóa.

Qwen-RobotWorld lại hướng đến một hướng khác, nó là "bộ não tư duy" trong bộ ba trí thông minh vật thể của Alibaba, phối hợp với mô hình thao tác VLA Qwen-RobotManip và mô hình di chuyển VLN Qwen-RobotNav, mục tiêu là giúp robot có một thế giới nội tâm có thể diễn tập trước.

Ba sự việc hợp lại với nhau, Alibaba đang đồng thời tranh giành quyền định nghĩa thế giới ngôn ngữ, thế giới ảo và thế giới vật lý.

Tencent Hunyuan đi theo một con đường khác, series HY-World của họ giống như đang xây dựng "nhà máy tự động của game 3D".

Tháng 7/2025, Tencent công bố mã nguồn mở mô hình thế giới 3D Hunyuan 1.0 tại WAIC; tháng 12 nâng cấp lên 1.5; tháng 4/2026 phát hành và mã nguồn mở HY-World 2.0. Đầu vào có thể là văn bản, ảnh đơn, ảnh đa, video thậm chí là mô hình trắng, đầu ra có thể là 3DGS, Mesh, point cloud.

Phiên bản 2.0 giới thiệu các mô-đun như HY-Pano 2.0, WorldNav, WorldStereo 2.0, WorldMirror 2.0, kết nối việc tạo thế giới, tái tạo thế giới, ảnh toàn cảnh, tạo thế giới thời gian thực thành một vòng khép kín.

Lợi thế của Tencent nằm ở các kịch bản game và mạng xã hội, người dùng thực sự của HY-World không phải để huấn luyện xe tự lái, mà là để tạo màn chơi game, quay phim ảo, tạo bản sao số.

Dự án mô hình thế giới của ByteDance thì giống như một cuộc "hành quân bí mật" mang gen dữ liệu video ngắn.

Tháng 8/2025, The Information tiết lộ đội Seed của Byte đang nghiên cứu và phát triển mô hình thế giới, dẫn dắt là Zhou Chang, cựu thành viên cốt cõi của Tongyi Qianwen. Con bài lớn nhất của dự án này là luồng video hơn 1 tỷ lần mỗi ngày từ Douyin và TikTok, cùng với khung EX-4D — có thể chuyển video đơn nhãn thành cảnh 4D đa góc nhìn. Nó nhắm đến Genie 3 của Google và V-JEPA 2 của Meta, mục tiêu không phải là một công cụ tạo video đẹp mắt, mà là xây dựng một "bản sao số" có thể mô phỏng quy luật vật lý.

Tại hội nghị FORCE Nguyên Động Lực của Volcano Engine ngày 23/6/2026, Byte không trực tiếp phát hành mô hình thế giới này, nhưng đã trình làng series Doubao Seed 2.1, mô hình tạo video Seedance 2.5, mô hình tạo ảnh Seedream 5.0 Pro và mô hình tạo âm thanh mới.

Báo cáo độc quyền của 36Kr thì tóm tắt chiến lược AI năm 2026 của Byte thành bốn mệnh đề: mô hình thế giới cuối năm phải đạt SOTA toàn cầu, Seedance khám phá tạo động, Coding củng cố nền tảng, Doubao tăng tốc thương mại hóa.

Điều này có nghĩa, mô hình thế giới là mệnh đề số một trong nội bộ Byte, chỉ là họ chọn để Seedance và Doubao đứng ở tiền sảnh trước, còn bản thân mô hình thế giới tiếp tục ẩn mình chuẩn bị chiêu lớn.

Khí chất của mô hình thế giới Pangu của Huawei thì là "trầm lặng nhưng chí mạng".

Tại hội nghị nhà phát triển tháng 6/2025, Huawei đã phát hành mô hình lớn Pangu, dựa trên mô hình lớn đa phương thức Pangu, khả năng cốt lõi là tạo ra không gian vật lý số độ chính xác cao từ một bức ảnh đơn. Nó có thể dự đoán va chạm, huấn luyện cánh tay robot nắm bắt, còn có thể tạo video lái xe và point cloud lidar, giúp mô hình end-to-end ADS của Huawei đạt được "hai ngày một phiên bản".

Huawei không hô to khẩu hiệu "mô hình thế giới", mà coi nó là "nền tảng huấn luyện" của xe thông minh và trí thông minh vật thể. Hợp tác với GAC là một trường hợp điển hình: video 2D và point cloud 3D tương ứng cấp độ pixel, khôi phục Corner Case phức tạp trong vài phút.

Tại HDC 2026 tháng 6/2026, Huawei đã đẩy mô hình lớn Pangu lên 7.0, và phát hành Ascend 910C, Yu Chengdong tái đảm nhiệm chức vụ dẫn dắt Pangu, nhưng bản thân mô hình thế giới không có tin tức phiên bản mới riêng.

Tư duy "mô hình thế giới không tồn tại độc lập, mà phục vụ vòng khép kín ngành" này, là phong cách nhất quán của Huawei.

Baidu tham gia cuộc chơi sớm hơn trong lĩnh vực lái xe tự động, Apollo ADFM được định vị là "mô hình lái xe tự động đầu tiên trên thế giới hỗ trợ L4" khi phát hành vào tháng 5/2024.

Mặc dù Baidu không đặt tên nó là mô hình thế giới, nhưng về bản chất nó đã có chức năng của mô hình thế giới: hiểu thế giới vật lý, dự đoán hành vi của người tham gia giao thông thông qua mạng thần kinh end-to-end. Tháng 11/2025, mô hình lớn Ernie 5.0 xuất hiện dưới dạng toàn phương thức nguyên bản, quy mô tham số đạt 2,4 nghìn tỷ; tháng 1/2026 chính thức lên bản chính thức.

Năng lực mô hình thế giới của Baidu đã ẩn vào một bàn cờ lớn hơn. Chiến lược của Baidu là: không bàn riêng về mô hình thế giới, mà để Apollo và Ernie hỗ trợ lẫn nhau.

Xiaomi và SenseTime đại diện cho hai trường phái "dòng kỹ thuật".

Xiaomi OneVL do Xiaomi mã nguồn mở ngày 13/5/2026, thống nhất VLA, mô hình thế giới và suy luận không gian tiềm ẩn vào một khung, nhấn mạnh khả năng giải thích của quá trình suy luận thị giác, làm ra linh kiện cơ bản mà cả lái xe tự động và trí thông minh vật thể đều có thể sử dụng.

"Kaiwu" của SenseTime's Jueying giống như một "tài xế già" đã lên chức, trong báo cáo của Frost & Sullivan tháng 9/2025, nó được định nghĩa là mô hình thế giới đầu tiên trong ngành đã sản xuất hàng loạt, có thể tương tác, có thể tạo video lái xe 150 giây, 1080P, 11 góc nhìn, và lắng đọng bộ dữ liệu lái xe sinh lớn nhất trong ngành WorldSim-Drive cùng kho cảnh tạo sinh hàng chục triệu.

Tháng 6/2026, Daxiao Robotics do Wang Xiaogang, đồng sáng lập SenseTime, thành lập lại tuyên bố hoàn thành vòng gọi vốn hàng trăm triệu USD, mô hình thế giới Kairos 3.0 của họ đứng đầu bốn bảng xếp hạng chính về tạo sinh video dự đoán, theo dõi chỉ lệnh nhiệm vụ.

Mô hình thế giới hệ SenseTime đang lan từ xe thông minh sang robot.

II. Các hãng xe:

Coi mô hình thế giới như trường lái xe và phòng thi

Nếu nói mô hình thế giới của các ông lớn Internet là đang "tạo ra thế giới", thì mô hình thế giới của các hãng xe là đang "sử dụng thế giới".

Nio là hãng xe Trung Quốc đầu tiên dùng mô hình thế giới như một lá cờ để vẫy.

Tại NIO IN tháng 7/2024, Ren Shaoqing công bố NWM (NIO World Model), định vị là mô hình thế giới lái xe thông minh đầu tiên của Trung Quốc.

Nó sử dụng kiến trúc sinh tự hồi quy đa nguyên, làm hai việc: "tưởng tượng tái tạo" về mặt không gian và "tưởng tượng suy diễn" về mặt thời gian.

Đưa vào một cảnh thực tế, nó có thể khôi phục thế giới 3D; đưa vào một gợi ý ba giây, nó có thể tạo video tương lai trên hai phút. Cứ mỗi 0.1 giây, nó suy diễn 216 quỹ đạo, chọn ra giải pháp tối ưu.

Logic của Nio rất rõ ràng: mô hình end-to-end là chưa đủ, một hệ thống lái thông minh thực sự thông minh cần phải giống con người "nhắm mắt cũng tưởng tượng được tình huống đường". Ngày 18/6/2026, Nio chính thức đẩy phiên bản mới NWM 2.0, phủ hơn 700 nghìn người dùng toàn series, ngay cả chủ xe cũ mua xe từ bốn năm trước cũng có thể nâng cấp miễn phí, bốn hệ thống xe Banyan, Cedar, Coconut+ đồng thời phát hành phiên bản. Phiên bản mới lần đầu tiên trong nước thực hiện mô hình lái thông minh trực tiếp xuất tín hiệu thao tác thô của vô lăng, bàn đạp ga, bàn đạp phanh, và nâng cấp hệ thống huấn luyện từ "mô hình thế giới + học tăng cường vòng kín" lên ba tầng "mô hình thế giới + tinh chỉnh giám sát + học tăng cường vòng kín". Cảnh phủ AEB gấp 6,7 lần AEB tiêu chuẩn, xác suất phanh nhầm giảm xuống một lần trên 100 nghìn km.

Chip Thần Ky NX9031 thậm chí được mô tả là "sinh ra đã được thiết kế cho mô hình thế giới".

Li Auto đã đề xuất tư duy mô hình thế giới "tái tạo + sinh ra" vào nửa cuối năm 2024, và công bố DrivingSphere tại CVPR 2025.

Nó bao gồm mô hình khuếch tán OccDreamer và VideoDreamer ST-DiT, xây dựng một môi trường mô phỏng vòng kín 4D độ trung thực cao.

Mô phỏng vòng mở truyền thống chỉ có thể đánh giá mô hình "nhìn thấy gì", còn mô phỏng vòng kín có thể đánh giá mô hình "đã làm gì". Mô hình thế giới của Li giống như một phòng thi có thể tạo ra vô hạn câu hỏi khó, để hệ thống lái thông minh chạy quen các cảnh éo le trong chip trước.

Đến Livis Day tháng 6/2026, Li đã nâng cấp thêm khả năng này thành "Mach VLA", kiến trúc MoE đa phương thức nguyên bản, cảm nhận, dự đoán, quy hoạch thống nhất, sức mạnh tính toán chip kép M100 trên xe là 2560TOPS, thời gian phản ứng 0.28 giây.

Theo lộ trình công bố của Li, quý ba sẽ đẩy Mach VLA hoàn toàn mới cho người dùng AD Max, quý tư mục tiêu ngang bằng Tesla FSD V14. Li không còn chỉ là một công ty ô tô, nó đang tự định hình mình thành một nhà cung cấp hệ thống trí thông minh vật thể Livis.

Con đường của XPeng Motors thì thể hiện cảm giác tầng thứ "làm lớn trước, làm tinh sau".

Tháng 4/2025, tại buổi chia sẻ công nghệ AI ở Hồng Kông, XPeng lần đầu tiên tiết lộ đang nghiên cứu và phát triển "mô hình nền tảng thế giới" lái xe tự động siêu quy mô 72 tỷ tham số.

Một năm sau, ngày 1/4/2026, XPeng chính thức công bố báo cáo công nghệ mô hình thế giới X-World.

Nó dựa trên công nghệ sinh video khuếch tán, cải tạo trên mẫu sinh video không gian tiềm ẩn của WAN 2.2, sử dụng VAE 3D nhân quả và DiT chú ý tự thời gian - góc nhìn, hỗ trợ sinh nhất quán xuyên góc nhìn từ 7 camera vòng quanh.

X-World không phải công cụ tạo video, mà là "bộ mô phỏng thế giới thực" của VLA thế hệ thứ hai của XPeng: cảnh mô phỏng tăng từ 30 nghìn cách đây một năm lên hơn 500 nghìn, quãng đường thử nghiệm mô phỏng hàng ngày tương đương 30 triệu km thử nghiệm thực tế, và hỗ trợ học tăng cường trực tuyến và sinh dữ liệu nước ngoài.

Tại CVPR tháng 6/2026, XPeng lại lần đầu tiên trình diễn biểu đồ công nghệ mô hình thế giới hoàn chỉnh. Tham vọng của XPeng được viết trong phạm vi ứng dụng của nó: xe AI, robot AI, ô tô bay. Mục tiêu quy mô dữ liệu huấn luyện của nó là 200 triệu clips, cụm vạn card cung cấp sức mạnh tính toán 10 EFLOPS, lặp lại 5 ngày một lần.

Geely Motors trình làng WAM (World Action Model) tại CES 2026, và đặt nó vào hệ thống AI toàn cục 2.0.

Kiến trúc phân tầng của WAM rất thú vị: tầng trên là mô hình lớn đa phương thức MLLM chịu trách nhiệm hiểu, tầng dưới là Chuyên gia Hành động (Action Expert) chịu trách nhiệm động tác, ở giữa là mô hình thế giới chịu trách nhiệm suy diễn.

Mục tiêu của Geely không phải là để mô hình lái thông minh tốt hơn, mà là để toàn bộ chiếc xe trở thành "một bộ não" — lái xe thông minh, khoang lái, khung gầm, động lực điều phối thống nhất. Tháng 4/2026, ZEEKR 8X ra mắt là giao hàng ngay, trở thành siêu tác nhân thông minh tích hợp khoang-lái đầu tiên lên xe sản xuất hàng loạt trong nước, G-ASD 4.0 của nó dựa trên WAM. Mục tiêu 2026 là L3 cao tốc và L4 tốc độ thấp.

Mô hình thế giới của BYD vẫn đang trong giai đoạn nghiên cứu sớm, thông tin tiết lộ tháng 1/2025 cho thấy, nội bộ họ tham khảo con đường của Tesla, thành lập nhóm nhỏ thử sai nhanh, trọng điểm giải quyết việc sinh dữ liệu Corner Case cho lái xe tự động end-to-end.

Great Wall Motors cũng đề xuất hướng lái xe thông minh thế hệ tiếp theo VLA + mô hình thế giới, và đã đi từ "chiến lược" đến "sản xuất hàng loạt": tháng 6/2026, tại hội nghị lái xe thông minh và xuất khẩu, Great Wall chia sẻ thực tiễn VLA, trung tâm siêu tính toán Jiuzhou ở Bảo Định đạt sức mạnh tính toán 5 EFLOPS, GPU hơn 10 nghìn card, Tank 700 sẽ trở thành mẫu xe đầu tiên trang bị hệ thống Coffee Pilot 4.0 VLA, sản xuất hàng loạt lên xe trong năm 2026. Hạm đội xe hiện có hơn 2 triệu chiếc tạo ra lượng dữ liệu khổng lồ mỗi ngày, đây là gia tài dày dặn nhất của Great Wall so với các hãng xe mới.

III. Nhà cung cấp giải pháp lái xe thông minh:

Động cơ thế giới ẩn dưới gầm xe

Ngoài các hãng xe, còn có một nhóm nhà cung cấp biến mô hình thế giới thành "động cơ tàng hình".

Momenta chính thức phát hành mô hình thế giới học tăng cường R7 tại triển lãm ô tô Bắc Kinh tháng 4/2026, và thực hiện phát hành sản xuất hàng loạt đầu tiên.

Nó là một kiến trúc ba tầng: tiền huấn luyện mô hình thế giới, mô phỏng mô hình thế giới, học tăng cường. R7 dựa trên hơn 12 tỷ km quãng đường xe thực tế mà nghiệp vụ sản xuất hàng loạt của Momenta mang lại, tinh luyện từ đó hơn 100 triệu đoạn "dữ liệu vàng" để tiền huấn luyện, sau đó để mô hình trải qua lượng lớn cảnh đuôi dài trong mô phỏng, cuối cùng dùng học tăng cường để mài giũa.

Momenta trực tiếp nhúng nó vào mô hình nền tảng end-to-end, mục tiêu là đạt tiêu chuẩn L4. Dữ liệu thương mại cũng đang bùng nổ nhanh chóng: số lượng xe sản xuất hàng loạt được trang bị hệ thống của Momenta đã vượt 900 nghìn chiếc, thành công giao hơn 100 mẫu xe sản xuất hàng loạt, điểm định danh tích lũy vượt 210 mẫu, giải pháp triển khai tại hơn 10 quốc gia và khu vực bao gồm Anh, Na Uy, Singapore, Úc New Zealand.

Tháng 6/2026, Momenta thông qua thẩm tra của Sở Giao dịch Chứng khoán Hồng Kông, lao vào IPO với danh hiệu "cổ phiếu AI vật lý đầu tiên" và thị phần NOA thành phố bên thứ ba 65%. Đủ thấy sự đặt cược của họ vào mô hình thế giới.

Horizon Robotics phát hành HorizonDrive vào tháng 5/2026, một mô hình thế giới tự hồi quy, khả năng cốt lõi là tạo video lái xe dài chuỗi thời gian cấp phút.

Nó sử dụng video-VAE hoạt động trong không gian tiềm ẩn, nhập vào bản đồ HD, khung giới hạn 3D và hành động của xe tự, sau đó xuất ra cảnh tương lai liên tục.

Điểm sáng của HorizonDrive là huấn luyện "tự sửa lỗi": thông qua công nghệ SRR và TRD, để mô hình tự sửa khi sinh ra lỗi. Trên nuScenes, FID của nó giảm 52%, FVD giảm 37%, độ chính xác quỹ đạo tăng 21%; một RTX 5090 đơn có thể sinh video 256×512, tốc độ 5.6 FPS, hoặc video 384×768 1.7 FPS. Định vị của nó là mô phỏng lái xe tự động vòng kín, giúp các hãng xe xác minh hệ thống L3+ trong tình huống không lên đường.

DriveGPT của Haomo.ai là một trong những dự án đầu tiên hô to khẩu hiệu "mô hình thế giới" trong nước.

"Xuehu · Hairuo" phát hành tháng 4/2023 là một mô hình lớn lái xe tự động sinh, dùng cách dự đoán khung hình tiếp theo để xây dựng không gian biểu diễn 4D. Đằng sau nó là 10 tỷ khung hình ảnh Internet, 4,8 triệu clips 4D và 87 triệu km quãng đường hỗ trợ lái.

Con đường Haomo đi tương tự World Model của Tesla, GAIA-1 của Wayve: để mô hình lớn lái xe tự động tiến hóa từ "xem ảnh" đến "xem video", rồi đến "dự đoán video". Nó cung cấp khả năng cho các kịch bản như xe Great Wall Wey, xe tự hành nhỏ Xiao Mo Tuo.

DeepRoute (Yuanrong Qixing) phát hành nền tảng DeepRoute IO 2.0 vào ngày 26/8/2025, trang bị mô hình VLA tự nghiên cứu.

Tại triển lãm ô tô Bắc Kinh tháng 4/2026, DeepRoute lại tiếp tục phát hành công nghệ mô hình nền tảng và chiến lược AI vật lý, và trình làng dữ liệu thương mại hóa: số lượng xe sản xuất hàng loạt được trang bị giải pháp NOA thành phố của họ vượt 300 nghìn chiếc, một năm qua tổng quãng đường chạy thực tế của xe được trang bị hệ thống an toàn chủ động của DeepRoute vượt 1,3 tỷ km, tổng thời gian lái đồng hành cùng người dùng tích lũy đạt 44,8 triệu giờ.

DeepRoute không đặt tên riêng một mô hình thế giới, nhưng trong hệ thống mô phỏng và huấn luyện của DeepRoute IO 2.0, mô hình thế giới là cốt lõi ngầm định.

IV. Công ty khởi nghiệp và ông lớn:

Hai tấm bản đồ, cùng một thành phố

Và bảng bố cục các ông lớn này, là một tấm bản đồ khác.

Hai tấm bản đồ chỉ về cùng một thành phố: ai có thể khiến AI thực sự hiểu thế giới vật lý, người đó sẽ sở hữu cửa ngõ của thời đại tiếp theo.

Lợi thế của các công ty khởi nghiệp là tập trung và tốc độ.

Họ có thể đặt cược vào một tuyến đường cấp tiến, ví dụ mô hình thế giới nguyên bản, sinh không gian 3D, động cơ vật lý VLA, không bị ràng buộc bởi nghiệp vụ hiện có. Nhưng họ thiếu dữ liệu, thiếu sức mạnh tính toán, thiếu kênh sản xuất hàng loạt, càng thiếu một vòng khép kín kịch bản thực tế có thể liên tục nuôi lớn mô hình thế giới.

Nhược điểm của các ông lớn là quán tính tổ chức và sự hỗn loạn đặt tên do nhiều bộ phận chạy song song — ba dự án mô hình thế giới của Alibaba thậm chí khiến người ngoài phân vân không biết chúng có phải cùng một việc không. Nhưng các ông lớn trong tay có dữ liệu, có sức mạnh tính toán, có người dùng, có xe, còn có hệ thống kỹ thuật để chạy mô hình. Công ty khởi nghiệp tạo ra "mô hình", ông lớn tạo ra "hệ thống".

Thời khắc nguy hiểm nhất, là khi các ông lớn biến mô hình thế giới từ "dự án nghiên cứu" thành "nền tảng nghiệp vụ". Mô hình lớn Pangu của Huawei phục vụ ADS và robot, HY-World của Tencent phục vụ game và công nghiệp, DrivingSphere của Li phục vụ lặp lái thông minh, Kaiwu của SenseTime đã sản xuất hàng loạt lên xe, Momenta R7 đã chạy trên hơn 900 nghìn xe —

Đây không phải là slide trên hội nghị, mà là "năng lực" đang bước vào dây chuyền sản phẩm. Đối với các công ty khởi nghiệp, cửa sổ cơ hội của mô hình thế giới đang thu hẹp, cạnh tranh trong tương lai sẽ nhanh chóng từ "ai có thể làm ra mô hình thế giới" biến thành "mô hình thế giới của ai có thể được các ông lớn dùng nổi, dùng tốt".

V. Mô hình thế giới không phải là cơn sốt,

mà là sự nâng cấp của cuộc chiến cũ

Mô hình thế giới không phải là một câu chuyện mới.

Nó là sản phẩm tự nhiên sau khi mô hình lớn ngôn ngữ, mô hình sinh video, mô hình lái xe tự động end-to-end, mô hình VLA robot giao nhau ở thế giới vật lý.

data-check-id="634442">Các ông lớn ồ ạt vào sân, chứng tỏ việc này đã từ "đồ chơi của tín đồ công nghệ" biến thành "cơ sở hạ tầng ngành".

Alibaba, Tencent, ByteDance, Huawei, Baidu, Xiaomi, SenseTime dựng cầu giữa thế giới số và thế giới vật lý; Nio, Li, XPeng, Geely, BYD, Great Wall Motors sửa "cầu" đến tận xe ô tô; Momenta, Horizon, Haomo, DeepRoute thì lát đường ray dưới chân cầu.

Các công ty khởi nghiệp đứng ở cuối cầu, trong tay cầm bản vẽ tinh xảo hơn, nhưng lại phải đối mặt với sự thật các ông lớn đang điều động đội ngũ kỹ thuật.

Một năm tới, vấn đề cốt lõi của đường đua mô hình thế giới sẽ không phải là "ai đã làm", mà là "mô hình thế giới của ai thực sự đang thay con người hiểu thế giới".

Bài viết từ tài khoản công chúng WeChat: IT桔子 , tác giả: Judy

Tiền kỹ thuật số thịnh hành

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

ZRX（0X）ZRX

Câu hỏi Liên quan

QVì sao các công ty lớn như Alibaba, Tencent lại đặt nhiều tên khác nhau cho 'Mô hình Thế giới'?

ASự khác biệt trong cách đặt tên phản ánh sự tập trung chiến lược khác nhau. Mỗi công ty gắn mô hình này với ưu tiên kinh doanh và hệ sinh thái công nghệ của riêng họ, thay vì chấp nhận một định nghĩa chung.

QAlibaba đã phát triển những Mô hình Thế giới nào và chúng nhắm đến mục tiêu gì?

AAlibaba phát triển ba mô hình: Qwen-AgentWorld (mô phỏng môi trường ngôn ngữ), HappyOyster 1.0 (thế giới ảo tương tác) và Qwen-RobotWorld (thế giới vật lý cho robot). Mục tiêu là cùng lúc định hình cả thế giới ngôn ngữ, ảo và vật lý.

QCác hãng xe như NIO và XPeng ứng dụng Mô hình Thế giới vào lĩnh vực lái xe tự động như thế nào?

ACác hãng xe sử dụng Mô hình Thế giới như một 'trường lái xe ảo'. NIO NWM tái tạo và dự đoán cảnh tượng 3D để tối ưu đường đi. XPeng X-World tạo ra một 'mô phỏng thế giới thực' để kiểm tra hệ thống với hàng triệu km lái xe ảo mỗi ngày, giải quyết các tình huống hiếm gặp.

QNhà cung cấp công nghệ lái xe tự động (như Momenta, Horizon Robotics) đóng vai trò gì trong cuộc đua Mô hình Thế giới?

AHọ đóng vai trò là 'động cơ ẩn', phát triển các Mô hình Thế giới chuyên sâu để tích hợp vào hệ thống của các hãng xe. Momenta R7 đã được sản xuất hàng loạt, sử dụng dữ liệu thực tế khổng lồ để huấn luyện. Horizon Robotics tập trung vào mô phỏng khép kín để kiểm chứng các hệ thống cấp độ cao.

QSự khác biệt chính trong cách tiếp cận Mô hình Thế giới giữa các công ty khởi nghiệp và các tập đoàn lớn là gì?

ACông ty khởi nghiệp có lợi thế về tốc độ và sự tập trung vào các hướng đi kỹ thuật đột phá. Tuy nhiên, họ thiếu dữ liệu, năng lực tính toán và kênh triển khai thực tế. Các tập đoàn lớn có nguồn lực vượt trội (dữ liệu, phần cứng, hệ sinh thái) để biến Mô hình Thế giới thành 'nền tảng nghiệp vụ' và tích hợp trực tiếp vào sản phẩm, rút ngắn khoảng cách từ nghiên cứu đến ứng dụng.

Nội dung Liên quan

Kỹ sư từ SpaceX tái cấu trúc hệ thống thực thi tài chính từ nguyên lý đầu tiên

Dự án cơ sở hạ tầng tài chính Plan Execution Lab vừa công bố hoàn thành vòng gọi vốn thiên thần do một văn phòng gia đình nổi tiếng ở Singapore dẫn đầu, định giá sau đầu tư đạt 50 triệu USD. Người sáng lập Lex Li, cựu kỹ sư SpaceX, áp dụng tư duy nguyên lý đầu tiên (First Principles Thinking) để phân tích lại thị trường tài chính. Ông cho rằng chức năng cốt lõi của thị trường là phân bổ vốn, và quá trình then chốt biến quyết định thành hành động là "thực thi". Tuy nhiên, tầng thực thi hiện nay vẫn phụ thuộc nhiều vào quy trình làm việc thủ công của con người. Trong kỷ nguyên AI và Agent, tốc độ suy giảm chiến lược ngày càng nhanh. Thách thức lớn không còn là tiếp cận thông tin, mà là thực thi liên tục và hiệu quả. Plan Execution Lab tin rằng đơn vị cạnh tranh trong tương lai không phải là chiến lược đơn lẻ, mà là mạng lưới thực thi (Execution Network) được tạo thành từ các năng lực cơ bản như quản lý rủi ro, phân bổ vốn, phối hợp thanh khoản. Công ty đang phát triển hai sản phẩm chính: 1. **PlanX**: Một giao thức thực thi tài chính (Financial Execution Protocol), nhằm mục tiêu trở thành cơ sở hạ tầng cho làn sóng di chuyển hoạt động giao dịch từ các sàn tập trung (CEX) lên chuỗi (on-chain). 2. **Xgent**: Một thời gian chạy tài chính tự chủ (Autonomous Financial Runtime), cho phép người dùng chỉ cần xác định mục tiêu và ràng buộc, hệ thống sẽ tự động xây dựng đồ thị thực thi, xác minh và thực thi chiến lược. Tầm nhìn dài hạn của nhóm là xây dựng môi trường vận hành cho kỷ nguyên tài chính tự chủ (Autonomous Finance), tương tự như vai trò của Bloomberg Terminal trong thế giới tài chính truyền thống. Cơ sở hạ tầng tương lai sẽ được xây dựng chung bởi một mạng lưới các nút thực thi, nhà cung cấp thanh khoản và đại lý tài chính tự chủ. Sức cạnh tranh cốt lõi trong tương lai sẽ nằm ở mạng lưới thực thi mạnh mẽ và linh hoạt nhất.

链捕手11 phút trước

Kỹ sư từ SpaceX tái cấu trúc hệ thống thực thi tài chính từ nguyên lý đầu tiên

链捕手11 phút trước

Cựu kỹ sư SpaceX tái cấu trúc hệ thống thực thi tài chính bằng Nguyên lý Đầu tiên

Dự án cơ sở hạ tầng tài chính Plan Execution Lab vừa hoàn thành vòng gọi vốn thiên thần do một văn phòng gia đình nổi tiếng Singapore dẫn đầu, định giá sau đầu tư đạt 50 triệu USD. Người sáng lập Lex Li, cựu kỹ sư SpaceX, áp dụng tư duy nguyên lý đầu tiên để định hình lại hệ thống thực thi tài chính. Ông cho rằng chức năng cốt lõi của thị trường là phân bổ vốn, và thực thi là quá trình biến quyết định thành hành động. Trong khi tài sản, thanh khoản và thanh toán đã chuyển lên blockchain, thì tầng thực thi vẫn phụ thuộc nhiều vào quy trình làm việc thủ công của con người. Kỷ nguyên AI Agent đang đẩy nhanh tốc độ suy giảm hiệu quả của các chiến lược. Plan Execution Lab không xây dựng sàn giao dịch hay bot giao dịch thông minh hơn, mà tập trung vào hai sản phẩm chính: 1. **PlanX:** Một giao thức thực thi tài chính, nhằm trở thành cơ sở hạ tầng hỗ trợ dòng giao dịch di chuyển từ các sàn tập trung (CEX) lên chuỗi, cung cấp khả năng thực thi, kết nối thanh khoản và quản lý rủi ro. 2. **Xgent:** Một thời gian chạy tài chính tự chủ, cho phép người dùng chỉ cần xác định mục tiêu và ràng buộc, hệ thống sẽ tự động xây dựng đồ thị thực thi, xác minh và thực thi. Tầm nhìn dài hạn là tạo ra một mạng lưới thực thi mở, nơi các nút thực thi, nhà cung cấp thanh khoản và đại lý tài chính tự chủ cùng đóng góp và hợp tác. Lex Li ví tổ hợp PlanX + Xgent như "Bloomberg Terminal cho kỷ nguyên tài chính tự chủ". Cạnh tranh trong tương lai không nằm ở chiến lược đơn lẻ, mà ở mạng lưới thực thi mạnh mẽ và có khả năng thích ứng.

marsbit12 phút trước

Cựu kỹ sư SpaceX tái cấu trúc hệ thống thực thi tài chính bằng Nguyên lý Đầu tiên

marsbit12 phút trước

Bộ Dữ Liệu Đào Tạo Doc2Repo Dài Hạn Đầu Tiên, Code Agent Không Chỉ Sửa Lỗi, Bắt Đầu Tạo Kho Lưu Trữ

Khả năng của Code Agent đang dần vượt ra ngoài việc sửa lỗi đơn lẻ, tiến tới các nhiệm vụ dài hạn cấp repository. Nghiên cứu mới từ Đại học Nhân dân Trung Quốc giới thiệu DeNovoSWE - tập dữ liệu đào tạo đầu tiên dành riêng cho việc tạo mã cấp kho lưu trữ từ đầu. Tập dữ liệu này chứa 4.818 nhiệm vụ chất lượng cao, được xây dựng thông qua cơ chế "Chia để trị" (Divide & Conquer) và "Phê bình & Sửa chữa" (Critic & Repair), nhằm giải quyết thách thức trong việc tạo toàn bộ kho mã chức năng từ một tài liệu mô tả. Phương pháp này phân tích kho mã mục tiêu thành các "năng lực" (capabilities), sau đó sử dụng một quy trình đa tác nhân để tự động tạo tài liệu nhiệm vụ rõ ràng, có cấu trúc, vừa đủ chi tiết để đánh giá nhưng không làm lộ chi tiết triển khai. Một kỹ thuật lọc theo độ khó được áp dụng để cân bằng giữa chất lượng và tính đa dạng của dữ liệu. Kết quả thử nghiệm cho thấy hiệu quả rõ rệt: Mô hình Qwen3-30B-A3B-Instruct được huấn luyện trên DeNovoSWE đã cải thiện hiệu suất trên benchmark BeyondSWE-Doc2Repo từ 5.8% lên 47.2% và trên NL2RepoBench từ 4.3% lên 23.0%. Điều này khẳng định nhu cầu về dữ liệu được thiết kế đặc biệt cho các tác vụ dài hạn, thay vì chỉ dựa vào dữ liệu sửa lỗi thông thường. DeNovoSWE đánh dấu một bước tiến quan trọng, cung cấp môi trường đào tạo có hệ thống để phát triển các Code Agent thực sự có khả năng hiểu yêu cầu, lập kế hoạch kiến trúc và tạo ra toàn bộ kho phần mềm có thể thực thi.

marsbit30 phút trước

Bộ Dữ Liệu Đào Tạo Doc2Repo Dài Hạn Đầu Tiên, Code Agent Không Chỉ Sửa Lỗi, Bắt Đầu Tạo Kho Lưu Trữ

marsbit30 phút trước

Ngay cả CZ cũng khen Hyperliquid 'tuyệt vời', nhưng hào nước bảo vệ lớn nhất của nó, có lẽ cũng là rủi ro lớn nhất

Tác giả Liam 'Akiba' Wright trên Cryptoslate thảo luận về những đánh giá của cựu CEO Binance, CZ, đối với nền tảng giao dịch phái sinh phi tập trung Hyperliquid. Trong một podcast, CZ khen ngợi sản phẩm của Hyperliquid là "tuyệt vời" nhưng đồng thời chỉ ra rằng Binance không thể và sẽ không cạnh tranh trong phân khúc "không KYC + tường thuật phi tập trung" mà Hyperliquid đang hoạt động, do những rủi ro pháp lý và tuân thủ đi kèm. Bài viết phân tích rằng lợi thế cạnh tranh chính (hay "hào rào bảo vệ") của Hyperliquid nằm ở khả năng cung cấp trải nghiệm giao dịch hợp đồng tương lai vĩnh cửu mà không yêu cầu xác minh danh tính (KYC) nghiêm ngặt, khác biệt với các sàn giao dịch tập trung tuân thủ. Tuy nhiên, chính đặc điểm này cũng là rủi ro lớn nhất của họ. Cơ quan quản lý, như FCA của Anh (đã đưa ra cảnh báo về Hyperliquid), ngày càng chú ý và có thể xem xét mô hình này dưới góc độ một nhà cung cấp dịch vụ tài chính cần được cấp phép. Bài viết chỉ ra rằng trong khi các thị trường được quản lý chặt chẽ (như CME, Cboe) đang phát triển các sản phẩm tương tự như hợp đồng vĩnh cửu, thì lợi thế còn lại của Hyperliquid sẽ ngày càng thu hẹp vào yếu tố "truy cập mở" – yếu tố dễ bị áp lực pháp lý nhất. Nhận xét của CZ nhấn mạnh sự đánh đổi then chốt: Hyperliquid có một vị trí độc đáo vì Binance không thể sao chép mô hình của họ, nhưng thành công lâu dài phụ thuộc vào việc liệu "hào rào bảo vệ" đó có thể chịu được áp lực ngày càng tăng từ các nhà quản lý hay không.

marsbit48 phút trước

Ngay cả CZ cũng khen Hyperliquid 'tuyệt vời', nhưng hào nước bảo vệ lớn nhất của nó, có lẽ cũng là rủi ro lớn nhất

marsbit48 phút trước

Một cuộc chiến bảo vệ mệnh giá khó khăn: STRC ngày càng xa rời mốc 100 USD

STRC, cổ phiếu trả cổ tức của công ty nắm giữ Bitcoin Strategy (trước là MicroStrategy) do Michael Saylor lãnh đạo, đang giao dịch ở mức 80.84 USD, thấp hơn nhiều so với mệnh giá mục tiêu 100 USD mà công ty công bố. Với ngày chốt danh sách cổ tức chỉ còn một tuần, áp lực đưa giá trở lại 100 USD là rất lớn. Tình hình càng nghiêm trọng khi giá trung bình theo khối lượng (VWAP) trong tháng 6 của STRC là 94.09 USD, vượt qua ngưỡng 95 USD. Theo quy tắc nội bộ, điều này buộc Strategy phải tăng cổ tức lên ít nhất 0.5% cho kỳ tiếp theo, gấp đôi mức tăng thông thường 0.25%, đưa tỷ suất cổ tức hàng năm lên khoảng 12%. Tuy nhiên, cổ tức cao không đảm bảo giá sẽ phục hồi. Cổ tức được trả trong 24 kỳ nửa tháng và có thể bị công ty điều chỉnh hoặc ngừng bất cứ lúc nào. Đầu tư vào STRC chủ yếu dựa trên kỳ vọng và không có sự đảm bảo nào. Bài viết nêu ra bốn công cụ khác Strategy có thể sử dụng để hỗ trợ giá: mua lại cổ phiếu trên thị trường mở, tạm dừng phát hành cổ phiếu mới ở mức trên 100 USD, tích lũy tiền mặt bằng cách bán cổ phiếu phổ thông MSTR, hoặc công bố các phúc lợi đặc biệt cho cổ đông STRC. Tuy nhiên, khả năng thực hiện và hiệu quả của các biện pháp này đều bị hạn chế. Lịch sử cho thấy STRC từng trở lại mức 100 USD nhờ việc công ty tăng cổ tức và tạm dừng phát hành cổ phiếu mới. Câu hỏi đặt ra là Strategy sẵn sàng trả giá bao nhiêu để thu hút dòng tiền và lặp lại thành công đó.

Foresight News1 giờ trước

Một cuộc chiến bảo vệ mệnh giá khó khăn: STRC ngày càng xa rời mốc 100 USD

Foresight News1 giờ trước

Giao dịch

Giao ngay

Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua WAR

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua WAR (WAR) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua WAR (WAR) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ WAR (WAR) của BạnSau khi mua WAR (WAR), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch WAR (WAR)Giao dịch WAR (WAR) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 742Xuất bản vào 2024.12.11Cập nhật vào 2026.06.02

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến của người dùng về giá của WAR (WAR) được trình bày dưới đây.