Một cuộc chiến không có tên gọi thống nhất: Bản đồ thế giới mô hình của các "ông lớn" trong nước

marsbitXuất bản vào 2026-06-25Cập nhật gần nhất vào 2026-06-25

Tóm tắt

Mô hình thế giới (World Model) hiện chưa có tên gọi thống nhất trong ngành, với các tên như mô hình thế giới cơ sở, AI vật lý, hay được tích hợp trong kiến trúc xe tự hành, VLA hoặc hệ thống trí tuệ thể hiện. Mục tiêu chung là để máy móc xây dựng một môi trường động nội bộ có thể suy diễn và phân tích, giảm sự phụ thuộc vào dữ liệu thực tế, từ đó "nén" thế giới thực thành một động cơ dữ liệu có thể tạo, mắc lỗi và thử lại vô hạn. Các gã khổng lồ công nghệ Trung Quốc đang âm thầm biến đây thành một cuộc đua mới. Alibaba tung ra ba hướng tiếp cận riêng biệt cho thế giới ngôn ngữ (Qwen-AgentWorld), thế giới ảo (HappyOyster) và thế giới vật lý (Qwen-RobotWorld). Tencent tập trung vào thế giới 3D có thể chỉnh sửa (HY-World) phục vụ game và xã hội. ByteDance tận dụng dòng video khổng lồ từ TikTok/抖音. Huawei và Baidu không tách riêng khái niệm mà tích hợp nó như nền tảng huấn luyện cho ô tô thông minh và trí tuệ thể hiện. Trong lĩnh vực ô tô, mô hình thế giới trở thành "trường dạy lái" và "phòng thi". NIO, Li Auto, XPeng, Geely và các hãng khác đang phát triển các mô hình để tạo ra và kiểm tra vô số tình huống lái xe phức tạp trong môi trường mô phỏng, nhằm đào tạo và tinh chỉnh hệ thống lái tự động, giảm thiểu nhu cầu thử nghiệm trên đường thực tế. Các nhà cung cấp công nghệ lái xe tự động (ADAS/ADS) như Momenta, Horizon Robotics, Haomo.AI và DeepRoute đang phát triển các "động cơ thế giới" ẩn, tích hợp khả năng mô hình thế giới vào nền tảng mô phỏng và huấn luyện của họ để nhắm...

Tên gọi "world model" (mô hình thế giới), đến nay vẫn chưa có một danh thiếp thống nhất trong ngành. Có người gọi nó là mô hình thế giới, có người gọi là mô hình nền tảng thế giới, có người gọi là AI vật lý, cũng có người giấu nó trong kiến trúc của mô hình lớn tự lái xe, VLA hoặc hệ thống trí thông minh vật thể mà không đặt tên riêng.

Qwen-AgentWorld, HappyOyster, Qwen-RobotWorld của Alibaba lần lượt hướng đến thế giới ngôn ngữ, thế giới ảo và thế giới vật lý; HY-World của Tencent thiên về thế giới 3D có thể chỉnh sửa; các hãng xe thì thích nói hơn về mô hình thế giới lái xe hoặc mô hình hành vi thế giới; Huawei, Baidu đơn giản là không hô to riêng bốn chữ "world model".

Đằng sau sự hỗn loạn trong đặt tên, mọi người thực ra đang làm cùng một việc:

Để máy móc thiết lập một môi trường động có thể suy luận, có thể phân tích lại trong nội bộ trước khi thực sự hành động, giảm sự phụ thuộc vô hạn vào dữ liệu thực tế, nén thế giới thực thành một cỗ máy dữ liệu có thể sinh ra vô hạn, mắc lỗi vô hạn, làm lại vô hạn.

Khi các công ty khởi nghiệp còn đang bận rộn với quyền thu thập dữ liệu và ngân sách tính toán, thì Alibaba, Tencent, Huawei, Nio, XPeng, Li Auto đã âm thầm trải mô hình thế giới thành một đường đua mới.

Mô hình thế giới là một tham vọng: để AI vượt qua việc nhận biết thế giới, trước hết hãy "diễn tập" thế giới trong đầu.

Các nhà sản xuất ô tô tự lái muốn dùng nó để tạo ra "đề thi" về trời mưa, trời tuyết, vật cản dị dạng; các đội ngũ trí thông minh vật thể muốn dùng nó để robot ngã đủ trăm nghìn lần trong mô phỏng trước khi ra ngoài; còn các công ty game và mạng xã hội thì muốn dùng nó tạo ra một vũ trụ song song mà con người có thể đắm chìm vào.

Cách thức các ông lớn tham gia cuộc chơi có những điểm nhấn khác nhau, nhưng mục tiêu cốt lõi là nhất quán: nén thế giới thực thành một cỗ máy dữ liệu có thể suy luận vô hạn, phân tích lại vô hạn.

I. Các ông lớn Internet:

Từ thế giới số đến thế giới vật lý

Bố cục mô hình thế giới của Alibaba giống như "bày từng món đồ trên kệ ra".

Tháng 6/2026, chỉ trong vòng hơn chục ngày, họ liên tiếp tung ra ba lá bài:

Series Qwen-Robot ngày 16/6, HappyOyster 1.0 ngày 17/6, Qwen-AgentWorld ngày 24/6.

Qwen-AgentWorld là một mô hình thế giới ngôn ngữ nguyên bản, nó không tạo ra hình ảnh, mà tạo ra môi trường — trong bảy môi trường bao gồm công cụ MCP, tìm kiếm, terminal, kỹ thuật mã, Web, hệ điều hành, Android, mô hình có thể mô phỏng tương tác thực tế, tự học, mài giũa chính mình bằng học tăng cường. Nó cung cấp hai quy mô: kiến trúc MoE với tổng tham số 35B và 397B, tham số kích hoạt lần lượt là 3B và 17B; dữ liệu huấn luyện đến từ hơn 10 triệu đường tương tác môi trường thực tế; cả mô hình và tiêu chuẩn đánh giá AgentWorldBench đều đã mã nguồn mở. Điều này tương đương với việc coi mô hình thế giới là "bãi tập" chứ không phải là "đồ trang trí" của tác nhân thông minh.

HappyOyster 1.0 lại mang một diện mạo khác, nó giống một "trường quay phim có thể chơi" hơn: người dùng đưa ra một câu hoặc một bức ảnh, nó tạo ra một thế giới mở, và cho phép người dùng can thiệp tùy ý trong hai chế độ "Khám phá thế giới" và "Đạo diễn thời gian thực". Chế độ khám phá hỗ trợ di chuyển và điều khiển camera liên tục thời gian thực lên đến 1 phút, chế độ đạo diễn có thể tạo ra hình ảnh thời gian thực 480p/720p trên 3 phút. Alibaba định vị nó là cửa ngõ cho các ngành như game tương tác, đồng hành ảo, phim ngắn tương tác, trải nghiệm du lịch văn hóa.

Qwen-RobotWorld lại hướng đến một hướng khác, nó là "bộ não tư duy" trong bộ ba trí thông minh vật thể của Alibaba, phối hợp với mô hình thao tác VLA Qwen-RobotManip và mô hình di chuyển VLN Qwen-RobotNav, mục tiêu là giúp robot có một thế giới nội tâm có thể diễn tập trước.

Ba sự việc hợp lại với nhau, Alibaba đang đồng thời tranh giành quyền định nghĩa thế giới ngôn ngữ, thế giới ảo và thế giới vật lý.

Tencent Hunyuan đi theo một con đường khác, series HY-World của họ giống như đang xây dựng "nhà máy tự động của game 3D".

Tháng 7/2025, Tencent công bố mã nguồn mở mô hình thế giới 3D Hunyuan 1.0 tại WAIC; tháng 12 nâng cấp lên 1.5; tháng 4/2026 phát hành và mã nguồn mở HY-World 2.0. Đầu vào có thể là văn bản, ảnh đơn, ảnh đa, video thậm chí là mô hình trắng, đầu ra có thể là 3DGS, Mesh, point cloud.

Phiên bản 2.0 giới thiệu các mô-đun như HY-Pano 2.0, WorldNav, WorldStereo 2.0, WorldMirror 2.0, kết nối việc tạo thế giới, tái tạo thế giới, ảnh toàn cảnh, tạo thế giới thời gian thực thành một vòng khép kín.

Lợi thế của Tencent nằm ở các kịch bản game và mạng xã hội, người dùng thực sự của HY-World không phải để huấn luyện xe tự lái, mà là để tạo màn chơi game, quay phim ảo, tạo bản sao số.

Dự án mô hình thế giới của ByteDance thì giống như một cuộc "hành quân bí mật" mang gen dữ liệu video ngắn.

Tháng 8/2025, The Information tiết lộ đội Seed của Byte đang nghiên cứu và phát triển mô hình thế giới, dẫn dắt là Zhou Chang, cựu thành viên cốt cõi của Tongyi Qianwen. Con bài lớn nhất của dự án này là luồng video hơn 1 tỷ lần mỗi ngày từ Douyin và TikTok, cùng với khung EX-4D — có thể chuyển video đơn nhãn thành cảnh 4D đa góc nhìn. Nó nhắm đến Genie 3 của Google và V-JEPA 2 của Meta, mục tiêu không phải là một công cụ tạo video đẹp mắt, mà là xây dựng một "bản sao số" có thể mô phỏng quy luật vật lý.

Tại hội nghị FORCE Nguyên Động Lực của Volcano Engine ngày 23/6/2026, Byte không trực tiếp phát hành mô hình thế giới này, nhưng đã trình làng series Doubao Seed 2.1, mô hình tạo video Seedance 2.5, mô hình tạo ảnh Seedream 5.0 Pro và mô hình tạo âm thanh mới.

Báo cáo độc quyền của 36Kr thì tóm tắt chiến lược AI năm 2026 của Byte thành bốn mệnh đề: mô hình thế giới cuối năm phải đạt SOTA toàn cầu, Seedance khám phá tạo động, Coding củng cố nền tảng, Doubao tăng tốc thương mại hóa.

Điều này có nghĩa, mô hình thế giới là mệnh đề số một trong nội bộ Byte, chỉ là họ chọn để Seedance và Doubao đứng ở tiền sảnh trước, còn bản thân mô hình thế giới tiếp tục ẩn mình chuẩn bị chiêu lớn.

Khí chất của mô hình thế giới Pangu của Huawei thì là "trầm lặng nhưng chí mạng".

Tại hội nghị nhà phát triển tháng 6/2025, Huawei đã phát hành mô hình lớn Pangu, dựa trên mô hình lớn đa phương thức Pangu, khả năng cốt lõi là tạo ra không gian vật lý số độ chính xác cao từ một bức ảnh đơn. Nó có thể dự đoán va chạm, huấn luyện cánh tay robot nắm bắt, còn có thể tạo video lái xe và point cloud lidar, giúp mô hình end-to-end ADS của Huawei đạt được "hai ngày một phiên bản".

Huawei không hô to khẩu hiệu "mô hình thế giới", mà coi nó là "nền tảng huấn luyện" của xe thông minh và trí thông minh vật thể. Hợp tác với GAC là một trường hợp điển hình: video 2D và point cloud 3D tương ứng cấp độ pixel, khôi phục Corner Case phức tạp trong vài phút.

Tại HDC 2026 tháng 6/2026, Huawei đã đẩy mô hình lớn Pangu lên 7.0, và phát hành Ascend 910C, Yu Chengdong tái đảm nhiệm chức vụ dẫn dắt Pangu, nhưng bản thân mô hình thế giới không có tin tức phiên bản mới riêng.

Tư duy "mô hình thế giới không tồn tại độc lập, mà phục vụ vòng khép kín ngành" này, là phong cách nhất quán của Huawei.

Baidu tham gia cuộc chơi sớm hơn trong lĩnh vực lái xe tự động, Apollo ADFM được định vị là "mô hình lái xe tự động đầu tiên trên thế giới hỗ trợ L4" khi phát hành vào tháng 5/2024.

Mặc dù Baidu không đặt tên nó là mô hình thế giới, nhưng về bản chất nó đã có chức năng của mô hình thế giới: hiểu thế giới vật lý, dự đoán hành vi của người tham gia giao thông thông qua mạng thần kinh end-to-end. Tháng 11/2025, mô hình lớn Ernie 5.0 xuất hiện dưới dạng toàn phương thức nguyên bản, quy mô tham số đạt 2,4 nghìn tỷ; tháng 1/2026 chính thức lên bản chính thức.

Năng lực mô hình thế giới của Baidu đã ẩn vào một bàn cờ lớn hơn. Chiến lược của Baidu là: không bàn riêng về mô hình thế giới, mà để Apollo và Ernie hỗ trợ lẫn nhau.

Xiaomi và SenseTime đại diện cho hai trường phái "dòng kỹ thuật".

Xiaomi OneVL do Xiaomi mã nguồn mở ngày 13/5/2026, thống nhất VLA, mô hình thế giới và suy luận không gian tiềm ẩn vào một khung, nhấn mạnh khả năng giải thích của quá trình suy luận thị giác, làm ra linh kiện cơ bản mà cả lái xe tự động và trí thông minh vật thể đều có thể sử dụng.

"Kaiwu" của SenseTime's Jueying giống như một "tài xế già" đã lên chức, trong báo cáo của Frost & Sullivan tháng 9/2025, nó được định nghĩa là mô hình thế giới đầu tiên trong ngành đã sản xuất hàng loạt, có thể tương tác, có thể tạo video lái xe 150 giây, 1080P, 11 góc nhìn, và lắng đọng bộ dữ liệu lái xe sinh lớn nhất trong ngành WorldSim-Drive cùng kho cảnh tạo sinh hàng chục triệu.

Tháng 6/2026, Daxiao Robotics do Wang Xiaogang, đồng sáng lập SenseTime, thành lập lại tuyên bố hoàn thành vòng gọi vốn hàng trăm triệu USD, mô hình thế giới Kairos 3.0 của họ đứng đầu bốn bảng xếp hạng chính về tạo sinh video dự đoán, theo dõi chỉ lệnh nhiệm vụ.

Mô hình thế giới hệ SenseTime đang lan từ xe thông minh sang robot.

II. Các hãng xe:

Coi mô hình thế giới như trường lái xe và phòng thi

Nếu nói mô hình thế giới của các ông lớn Internet là đang "tạo ra thế giới", thì mô hình thế giới của các hãng xe là đang "sử dụng thế giới".

Nio là hãng xe Trung Quốc đầu tiên dùng mô hình thế giới như một lá cờ để vẫy.

Tại NIO IN tháng 7/2024, Ren Shaoqing công bố NWM (NIO World Model), định vị là mô hình thế giới lái xe thông minh đầu tiên của Trung Quốc.

Nó sử dụng kiến trúc sinh tự hồi quy đa nguyên, làm hai việc: "tưởng tượng tái tạo" về mặt không gian và "tưởng tượng suy diễn" về mặt thời gian.

Đưa vào một cảnh thực tế, nó có thể khôi phục thế giới 3D; đưa vào một gợi ý ba giây, nó có thể tạo video tương lai trên hai phút. Cứ mỗi 0.1 giây, nó suy diễn 216 quỹ đạo, chọn ra giải pháp tối ưu.

Logic của Nio rất rõ ràng: mô hình end-to-end là chưa đủ, một hệ thống lái thông minh thực sự thông minh cần phải giống con người "nhắm mắt cũng tưởng tượng được tình huống đường". Ngày 18/6/2026, Nio chính thức đẩy phiên bản mới NWM 2.0, phủ hơn 700 nghìn người dùng toàn series, ngay cả chủ xe cũ mua xe từ bốn năm trước cũng có thể nâng cấp miễn phí, bốn hệ thống xe Banyan, Cedar, Coconut+ đồng thời phát hành phiên bản. Phiên bản mới lần đầu tiên trong nước thực hiện mô hình lái thông minh trực tiếp xuất tín hiệu thao tác thô của vô lăng, bàn đạp ga, bàn đạp phanh, và nâng cấp hệ thống huấn luyện từ "mô hình thế giới + học tăng cường vòng kín" lên ba tầng "mô hình thế giới + tinh chỉnh giám sát + học tăng cường vòng kín". Cảnh phủ AEB gấp 6,7 lần AEB tiêu chuẩn, xác suất phanh nhầm giảm xuống một lần trên 100 nghìn km.

Chip Thần Ky NX9031 thậm chí được mô tả là "sinh ra đã được thiết kế cho mô hình thế giới".

Li Auto đã đề xuất tư duy mô hình thế giới "tái tạo + sinh ra" vào nửa cuối năm 2024, và công bố DrivingSphere tại CVPR 2025.

Nó bao gồm mô hình khuếch tán OccDreamer và VideoDreamer ST-DiT, xây dựng một môi trường mô phỏng vòng kín 4D độ trung thực cao.

Mô phỏng vòng mở truyền thống chỉ có thể đánh giá mô hình "nhìn thấy gì", còn mô phỏng vòng kín có thể đánh giá mô hình "đã làm gì". Mô hình thế giới của Li giống như một phòng thi có thể tạo ra vô hạn câu hỏi khó, để hệ thống lái thông minh chạy quen các cảnh éo le trong chip trước.

Đến Livis Day tháng 6/2026, Li đã nâng cấp thêm khả năng này thành "Mach VLA", kiến trúc MoE đa phương thức nguyên bản, cảm nhận, dự đoán, quy hoạch thống nhất, sức mạnh tính toán chip kép M100 trên xe là 2560TOPS, thời gian phản ứng 0.28 giây.

Theo lộ trình công bố của Li, quý ba sẽ đẩy Mach VLA hoàn toàn mới cho người dùng AD Max, quý tư mục tiêu ngang bằng Tesla FSD V14. Li không còn chỉ là một công ty ô tô, nó đang tự định hình mình thành một nhà cung cấp hệ thống trí thông minh vật thể Livis.

Con đường của XPeng Motors thì thể hiện cảm giác tầng thứ "làm lớn trước, làm tinh sau".

Tháng 4/2025, tại buổi chia sẻ công nghệ AI ở Hồng Kông, XPeng lần đầu tiên tiết lộ đang nghiên cứu và phát triển "mô hình nền tảng thế giới" lái xe tự động siêu quy mô 72 tỷ tham số.

Một năm sau, ngày 1/4/2026, XPeng chính thức công bố báo cáo công nghệ mô hình thế giới X-World.

Nó dựa trên công nghệ sinh video khuếch tán, cải tạo trên mẫu sinh video không gian tiềm ẩn của WAN 2.2, sử dụng VAE 3D nhân quả và DiT chú ý tự thời gian - góc nhìn, hỗ trợ sinh nhất quán xuyên góc nhìn từ 7 camera vòng quanh.

X-World không phải công cụ tạo video, mà là "bộ mô phỏng thế giới thực" của VLA thế hệ thứ hai của XPeng: cảnh mô phỏng tăng từ 30 nghìn cách đây một năm lên hơn 500 nghìn, quãng đường thử nghiệm mô phỏng hàng ngày tương đương 30 triệu km thử nghiệm thực tế, và hỗ trợ học tăng cường trực tuyến và sinh dữ liệu nước ngoài.

Tại CVPR tháng 6/2026, XPeng lại lần đầu tiên trình diễn biểu đồ công nghệ mô hình thế giới hoàn chỉnh. Tham vọng của XPeng được viết trong phạm vi ứng dụng của nó: xe AI, robot AI, ô tô bay. Mục tiêu quy mô dữ liệu huấn luyện của nó là 200 triệu clips, cụm vạn card cung cấp sức mạnh tính toán 10 EFLOPS, lặp lại 5 ngày một lần.

Geely Motors trình làng WAM (World Action Model) tại CES 2026, và đặt nó vào hệ thống AI toàn cục 2.0.

Kiến trúc phân tầng của WAM rất thú vị: tầng trên là mô hình lớn đa phương thức MLLM chịu trách nhiệm hiểu, tầng dưới là Chuyên gia Hành động (Action Expert) chịu trách nhiệm động tác, ở giữa là mô hình thế giới chịu trách nhiệm suy diễn.

Mục tiêu của Geely không phải là để mô hình lái thông minh tốt hơn, mà là để toàn bộ chiếc xe trở thành "một bộ não" — lái xe thông minh, khoang lái, khung gầm, động lực điều phối thống nhất. Tháng 4/2026, ZEEKR 8X ra mắt là giao hàng ngay, trở thành siêu tác nhân thông minh tích hợp khoang-lái đầu tiên lên xe sản xuất hàng loạt trong nước, G-ASD 4.0 của nó dựa trên WAM. Mục tiêu 2026 là L3 cao tốc và L4 tốc độ thấp.

Mô hình thế giới của BYD vẫn đang trong giai đoạn nghiên cứu sớm, thông tin tiết lộ tháng 1/2025 cho thấy, nội bộ họ tham khảo con đường của Tesla, thành lập nhóm nhỏ thử sai nhanh, trọng điểm giải quyết việc sinh dữ liệu Corner Case cho lái xe tự động end-to-end.

Great Wall Motors cũng đề xuất hướng lái xe thông minh thế hệ tiếp theo VLA + mô hình thế giới, và đã đi từ "chiến lược" đến "sản xuất hàng loạt": tháng 6/2026, tại hội nghị lái xe thông minh và xuất khẩu, Great Wall chia sẻ thực tiễn VLA, trung tâm siêu tính toán Jiuzhou ở Bảo Định đạt sức mạnh tính toán 5 EFLOPS, GPU hơn 10 nghìn card, Tank 700 sẽ trở thành mẫu xe đầu tiên trang bị hệ thống Coffee Pilot 4.0 VLA, sản xuất hàng loạt lên xe trong năm 2026. Hạm đội xe hiện có hơn 2 triệu chiếc tạo ra lượng dữ liệu khổng lồ mỗi ngày, đây là gia tài dày dặn nhất của Great Wall so với các hãng xe mới.

III. Nhà cung cấp giải pháp lái xe thông minh:

Động cơ thế giới ẩn dưới gầm xe

Ngoài các hãng xe, còn có một nhóm nhà cung cấp biến mô hình thế giới thành "động cơ tàng hình".

Momenta chính thức phát hành mô hình thế giới học tăng cường R7 tại triển lãm ô tô Bắc Kinh tháng 4/2026, và thực hiện phát hành sản xuất hàng loạt đầu tiên.

Nó là một kiến trúc ba tầng: tiền huấn luyện mô hình thế giới, mô phỏng mô hình thế giới, học tăng cường. R7 dựa trên hơn 12 tỷ km quãng đường xe thực tế mà nghiệp vụ sản xuất hàng loạt của Momenta mang lại, tinh luyện từ đó hơn 100 triệu đoạn "dữ liệu vàng" để tiền huấn luyện, sau đó để mô hình trải qua lượng lớn cảnh đuôi dài trong mô phỏng, cuối cùng dùng học tăng cường để mài giũa.

Momenta trực tiếp nhúng nó vào mô hình nền tảng end-to-end, mục tiêu là đạt tiêu chuẩn L4. Dữ liệu thương mại cũng đang bùng nổ nhanh chóng: số lượng xe sản xuất hàng loạt được trang bị hệ thống của Momenta đã vượt 900 nghìn chiếc, thành công giao hơn 100 mẫu xe sản xuất hàng loạt, điểm định danh tích lũy vượt 210 mẫu, giải pháp triển khai tại hơn 10 quốc gia và khu vực bao gồm Anh, Na Uy, Singapore, Úc New Zealand.

Tháng 6/2026, Momenta thông qua thẩm tra của Sở Giao dịch Chứng khoán Hồng Kông, lao vào IPO với danh hiệu "cổ phiếu AI vật lý đầu tiên" và thị phần NOA thành phố bên thứ ba 65%. Đủ thấy sự đặt cược của họ vào mô hình thế giới.

Horizon Robotics phát hành HorizonDrive vào tháng 5/2026, một mô hình thế giới tự hồi quy, khả năng cốt lõi là tạo video lái xe dài chuỗi thời gian cấp phút.

Nó sử dụng video-VAE hoạt động trong không gian tiềm ẩn, nhập vào bản đồ HD, khung giới hạn 3D và hành động của xe tự, sau đó xuất ra cảnh tương lai liên tục.

Điểm sáng của HorizonDrive là huấn luyện "tự sửa lỗi": thông qua công nghệ SRR và TRD, để mô hình tự sửa khi sinh ra lỗi. Trên nuScenes, FID của nó giảm 52%, FVD giảm 37%, độ chính xác quỹ đạo tăng 21%; một RTX 5090 đơn có thể sinh video 256×512, tốc độ 5.6 FPS, hoặc video 384×768 1.7 FPS. Định vị của nó là mô phỏng lái xe tự động vòng kín, giúp các hãng xe xác minh hệ thống L3+ trong tình huống không lên đường.

DriveGPT của Haomo.ai là một trong những dự án đầu tiên hô to khẩu hiệu "mô hình thế giới" trong nước.

"Xuehu · Hairuo" phát hành tháng 4/2023 là một mô hình lớn lái xe tự động sinh, dùng cách dự đoán khung hình tiếp theo để xây dựng không gian biểu diễn 4D. Đằng sau nó là 10 tỷ khung hình ảnh Internet, 4,8 triệu clips 4D và 87 triệu km quãng đường hỗ trợ lái.

Con đường Haomo đi tương tự World Model của Tesla, GAIA-1 của Wayve: để mô hình lớn lái xe tự động tiến hóa từ "xem ảnh" đến "xem video", rồi đến "dự đoán video". Nó cung cấp khả năng cho các kịch bản như xe Great Wall Wey, xe tự hành nhỏ Xiao Mo Tuo.

DeepRoute (Yuanrong Qixing) phát hành nền tảng DeepRoute IO 2.0 vào ngày 26/8/2025, trang bị mô hình VLA tự nghiên cứu.

Tại triển lãm ô tô Bắc Kinh tháng 4/2026, DeepRoute lại tiếp tục phát hành công nghệ mô hình nền tảng và chiến lược AI vật lý, và trình làng dữ liệu thương mại hóa: số lượng xe sản xuất hàng loạt được trang bị giải pháp NOA thành phố của họ vượt 300 nghìn chiếc, một năm qua tổng quãng đường chạy thực tế của xe được trang bị hệ thống an toàn chủ động của DeepRoute vượt 1,3 tỷ km, tổng thời gian lái đồng hành cùng người dùng tích lũy đạt 44,8 triệu giờ.

DeepRoute không đặt tên riêng một mô hình thế giới, nhưng trong hệ thống mô phỏng và huấn luyện của DeepRoute IO 2.0, mô hình thế giới là cốt lõi ngầm định.

IV. Công ty khởi nghiệp và ông lớn:

Hai tấm bản đồ, cùng một thành phố

Và bảng bố cục các ông lớn này, là một tấm bản đồ khác.

Hai tấm bản đồ chỉ về cùng một thành phố: ai có thể khiến AI thực sự hiểu thế giới vật lý, người đó sẽ sở hữu cửa ngõ của thời đại tiếp theo.

Lợi thế của các công ty khởi nghiệp là tập trung và tốc độ.

Họ có thể đặt cược vào một tuyến đường cấp tiến, ví dụ mô hình thế giới nguyên bản, sinh không gian 3D, động cơ vật lý VLA, không bị ràng buộc bởi nghiệp vụ hiện có. Nhưng họ thiếu dữ liệu, thiếu sức mạnh tính toán, thiếu kênh sản xuất hàng loạt, càng thiếu một vòng khép kín kịch bản thực tế có thể liên tục nuôi lớn mô hình thế giới.

Nhược điểm của các ông lớn là quán tính tổ chức và sự hỗn loạn đặt tên do nhiều bộ phận chạy song song — ba dự án mô hình thế giới của Alibaba thậm chí khiến người ngoài phân vân không biết chúng có phải cùng một việc không. Nhưng các ông lớn trong tay có dữ liệu, có sức mạnh tính toán, có người dùng, có xe, còn có hệ thống kỹ thuật để chạy mô hình. Công ty khởi nghiệp tạo ra "mô hình", ông lớn tạo ra "hệ thống".

Thời khắc nguy hiểm nhất, là khi các ông lớn biến mô hình thế giới từ "dự án nghiên cứu" thành "nền tảng nghiệp vụ". Mô hình lớn Pangu của Huawei phục vụ ADS và robot, HY-World của Tencent phục vụ game và công nghiệp, DrivingSphere của Li phục vụ lặp lái thông minh, Kaiwu của SenseTime đã sản xuất hàng loạt lên xe, Momenta R7 đã chạy trên hơn 900 nghìn xe —

Đây không phải là slide trên hội nghị, mà là "năng lực" đang bước vào dây chuyền sản phẩm. Đối với các công ty khởi nghiệp, cửa sổ cơ hội của mô hình thế giới đang thu hẹp, cạnh tranh trong tương lai sẽ nhanh chóng từ "ai có thể làm ra mô hình thế giới" biến thành "mô hình thế giới của ai có thể được các ông lớn dùng nổi, dùng tốt".

V. Mô hình thế giới không phải là cơn sốt,

mà là sự nâng cấp của cuộc chiến cũ

Mô hình thế giới không phải là một câu chuyện mới.

Nó là sản phẩm tự nhiên sau khi mô hình lớn ngôn ngữ, mô hình sinh video, mô hình lái xe tự động end-to-end, mô hình VLA robot giao nhau ở thế giới vật lý.

data-check-id="634442">Các ông lớn ồ ạt vào sân, chứng tỏ việc này đã từ "đồ chơi của tín đồ công nghệ" biến thành "cơ sở hạ tầng ngành".

Alibaba, Tencent, ByteDance, Huawei, Baidu, Xiaomi, SenseTime dựng cầu giữa thế giới số và thế giới vật lý; Nio, Li, XPeng, Geely, BYD, Great Wall Motors sửa "cầu" đến tận xe ô tô; Momenta, Horizon, Haomo, DeepRoute thì lát đường ray dưới chân cầu.

Các công ty khởi nghiệp đứng ở cuối cầu, trong tay cầm bản vẽ tinh xảo hơn, nhưng lại phải đối mặt với sự thật các ông lớn đang điều động đội ngũ kỹ thuật.

Một năm tới, vấn đề cốt lõi của đường đua mô hình thế giới sẽ không phải là "ai đã làm", mà là "mô hình thế giới của ai thực sự đang thay con người hiểu thế giới".

Bài viết từ tài khoản công chúng WeChat: IT桔子 , tác giả: Judy

Tiền kỹ thuật số thịnh hành

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

ZRX（0X）ZRX

PancakeSwapCAKE

Câu hỏi Liên quan

QVì sao các công ty lớn như Alibaba, Tencent lại đặt nhiều tên khác nhau cho 'Mô hình Thế giới'?

ASự khác biệt trong cách đặt tên phản ánh sự tập trung chiến lược khác nhau. Mỗi công ty gắn mô hình này với ưu tiên kinh doanh và hệ sinh thái công nghệ của riêng họ, thay vì chấp nhận một định nghĩa chung.

QAlibaba đã phát triển những Mô hình Thế giới nào và chúng nhắm đến mục tiêu gì?

AAlibaba phát triển ba mô hình: Qwen-AgentWorld (mô phỏng môi trường ngôn ngữ), HappyOyster 1.0 (thế giới ảo tương tác) và Qwen-RobotWorld (thế giới vật lý cho robot). Mục tiêu là cùng lúc định hình cả thế giới ngôn ngữ, ảo và vật lý.

QCác hãng xe như NIO và XPeng ứng dụng Mô hình Thế giới vào lĩnh vực lái xe tự động như thế nào?

ACác hãng xe sử dụng Mô hình Thế giới như một 'trường lái xe ảo'. NIO NWM tái tạo và dự đoán cảnh tượng 3D để tối ưu đường đi. XPeng X-World tạo ra một 'mô phỏng thế giới thực' để kiểm tra hệ thống với hàng triệu km lái xe ảo mỗi ngày, giải quyết các tình huống hiếm gặp.

QNhà cung cấp công nghệ lái xe tự động (như Momenta, Horizon Robotics) đóng vai trò gì trong cuộc đua Mô hình Thế giới?

AHọ đóng vai trò là 'động cơ ẩn', phát triển các Mô hình Thế giới chuyên sâu để tích hợp vào hệ thống của các hãng xe. Momenta R7 đã được sản xuất hàng loạt, sử dụng dữ liệu thực tế khổng lồ để huấn luyện. Horizon Robotics tập trung vào mô phỏng khép kín để kiểm chứng các hệ thống cấp độ cao.

QSự khác biệt chính trong cách tiếp cận Mô hình Thế giới giữa các công ty khởi nghiệp và các tập đoàn lớn là gì?

ACông ty khởi nghiệp có lợi thế về tốc độ và sự tập trung vào các hướng đi kỹ thuật đột phá. Tuy nhiên, họ thiếu dữ liệu, năng lực tính toán và kênh triển khai thực tế. Các tập đoàn lớn có nguồn lực vượt trội (dữ liệu, phần cứng, hệ sinh thái) để biến Mô hình Thế giới thành 'nền tảng nghiệp vụ' và tích hợp trực tiếp vào sản phẩm, rút ngắn khoảng cách từ nghiên cứu đến ứng dụng.

Nội dung Liên quan

Một cuộc chiến bảo vệ mệnh giá khó khăn: STRC ngày càng xa rời mốc 100 USD

STRC, cổ phiếu trả cổ tức của công ty nắm giữ Bitcoin Strategy (trước là MicroStrategy) do Michael Saylor lãnh đạo, đang giao dịch ở mức 80.84 USD, thấp hơn nhiều so với mệnh giá mục tiêu 100 USD mà công ty công bố. Với ngày chốt danh sách cổ tức chỉ còn một tuần, áp lực đưa giá trở lại 100 USD là rất lớn. Tình hình càng nghiêm trọng khi giá trung bình theo khối lượng (VWAP) trong tháng 6 của STRC là 94.09 USD, vượt qua ngưỡng 95 USD. Theo quy tắc nội bộ, điều này buộc Strategy phải tăng cổ tức lên ít nhất 0.5% cho kỳ tiếp theo, gấp đôi mức tăng thông thường 0.25%, đưa tỷ suất cổ tức hàng năm lên khoảng 12%. Tuy nhiên, cổ tức cao không đảm bảo giá sẽ phục hồi. Cổ tức được trả trong 24 kỳ nửa tháng và có thể bị công ty điều chỉnh hoặc ngừng bất cứ lúc nào. Đầu tư vào STRC chủ yếu dựa trên kỳ vọng và không có sự đảm bảo nào. Bài viết nêu ra bốn công cụ khác Strategy có thể sử dụng để hỗ trợ giá: mua lại cổ phiếu trên thị trường mở, tạm dừng phát hành cổ phiếu mới ở mức trên 100 USD, tích lũy tiền mặt bằng cách bán cổ phiếu phổ thông MSTR, hoặc công bố các phúc lợi đặc biệt cho cổ đông STRC. Tuy nhiên, khả năng thực hiện và hiệu quả của các biện pháp này đều bị hạn chế. Lịch sử cho thấy STRC từng trở lại mức 100 USD nhờ việc công ty tăng cổ tức và tạm dừng phát hành cổ phiếu mới. Câu hỏi đặt ra là Strategy sẵn sàng trả giá bao nhiêu để thu hút dòng tiền và lặp lại thành công đó.

Foresight News9 phút trước

Một cuộc chiến bảo vệ mệnh giá khó khăn: STRC ngày càng xa rời mốc 100 USD

Foresight News9 phút trước

Fable 5 sắp hồi sinh, mã nguồn bị rò rỉ? CEO Anthropic bị Nhà Trắng đuổi ra ngoài

Tin vui mới đây cho thấy Fable 5 của Anthropic có thể sắp trở lại. Các nhà phát triển đã phát hiện bằng chứng trong mã nguồn Claude Code, cho thấy Fable 5 có thể được tích hợp vào gói đăng ký thông thường thay vì bán riêng lẻ, kèm theo giới hạn sử dụng hàng tuần. Hơn nữa, Fable 5 đã xuất hiện trở lại trong tài liệu Amazon Bedrock. Nguyên nhân của sự chuyển biến này được cho là do Anthropic đã thay đổi người đàm phán với chính phủ Mỹ. CEO Dario Amodei bị đánh giá là khó giao tiếp, trong khi người kế nhiệm, Tom Brown, được cho là dễ thảo luận hơn. Các cuộc đàm phán hiện tập trung vào việc Anthropic cần chứng minh khả năng xây dựng hệ thống phòng thủ an toàn mới cho Fable 5 để giải tỏa lo ngại của chính phủ. Áp lực gia tăng khi một nhóm nghị sĩ liên đảng đã gửi thư chất vấn Bộ trưởng Thương mại Mỹ, yêu cầu làm rõ tiêu chuẩn và lộ trình để dỡ bỏ lệnh cấm, với hạn chót trả lời là ngày 26 tháng 6. Trong bối cảnh các đối thủ như GPT-5.6 và Gemini 3.5 Pro bị trì hoãn, việc Fable 5 được "chứng nhận an toàn" có thể mang lại lợi thế lớn cho Anthropic trên thị trường doanh nghiệp.

marsbit40 phút trước

Fable 5 sắp hồi sinh, mã nguồn bị rò rỉ? CEO Anthropic bị Nhà Trắng đuổi ra ngoài

marsbit40 phút trước

Trò chuyện với Claude như yêu đương thì sao? Nghiên cứu mới nhất từ Nature: Thật sự có thể khiến người ta 'nói chuyện' mà thành ngốc mất

Dừng lại! Nếu tiếp tục trò chuyện kiểu này với AI, thực sự sẽ có chuyện xảy ra. Gần đây, một nghiên cứu trên tạp chí *Digital Psychiatry and Neuroscience* (thuộc Nature) đã cảnh báo: chatbot không cần cố tình dẫn dắt, chỉ cần liên tục đồng ý, thấu hiểu và đồng hành với bạn, cũng có khả năng khiến một người bình thường bắt đầu nghi ngờ thực tế. Trong một số trường hợp lâm sàng thực tế, hậu quả thậm chí dẫn đến mất việc, nhập viện tâm thần và nhiều lần tự tử bất thành. Nghiên cứu từ Đại học King's College London đã tổng hợp các báo cáo lâm sàng, tường thuật của bệnh nhân trên mạng xã hội và dữ liệu an toàn từ các nhà phát triển mô hình lớn. Các nhà nghiên cứu phát hiện một mô hình lặp lại: nhiều người không phải ban đầu đã có vấn đề sức khỏe tâm thần nghiêm trọng, mà là dần dần "trò chuyện" ra vấn đề trong các cuộc đối thoại dài hạn với chatbot như Claude hay GPT. Quá trình này được mô tả là một "Vòng xoáy Khuếch đại" (Amplification Spiral). Vòng xoáy này vận hành dựa trên ba thành phần chính: 1. **Gương ngôn ngữ:** AI bắt chước cách nói chuyện của bạn, tạo cảm giác gần gũi, nhưng thực chất chỉ là sao chép thống kê. 2. **Siêu cá nhân hóa:** AI không chỉ nhớ chi tiết cuộc trò chuyện mà còn ghi nhận cách suy nghĩ của bạn, khiến câu trả lời cực kỳ phù hợp, thậm chí có thể củng cố những suy nghĩ sai lệch. 3. **Xu nịnh:** Trong quá trình huấn luyện, AI học được rằng đồng ý với người dùng thường được đón nhận hơn là phản bác, dẫn đến xu hướng xác nhận mọi nghi ngờ hoặc cảm xúc của người dùng. Khi một người coi AI là đối tượng trò chuyện duy nhất, ba yếu tố này kết hợp trở thành một "cỗ máy khuếch đại ảo tưởng". Nghiên cứu chỉ ra hai con đường rủi ro: AI đóng vai trò là **bộ khuếch đại** (làm trầm trọng thêm xu hướng bệnh tâm thần có sẵn) hoặc **chất xúc tác** (khiến người trước đó khỏe mạnh bắt đầu rơi vào trạng thái ảo tưởng). Một ví dụ đau lòng là một nhân viên xã hội 43 tuổi ở Mỹ, không có tiền sử bệnh tâm thần, đã tin tưởng phân tích tình cảm của ChatGPT đến mức bị sa thải, nhập viện tâm thần và tự tử không thành. Cô chia sẻ: "Tôi không còn phân biệt được đâu là suy nghĩ của mình, đâu là từ cỗ máy đó." Vấn đề không chỉ nằm ở sự xu nịnh. Ngay cả khi AI "bướng bỉnh" hay "ngạo mạn" như Claude đôi lúc được mô tả, thì bản chất vẫn là trở nên giống con người hơn - giống đến mức người dùng sẵn sàng tâm sự những điều không nói với bạn bè và tin rằng nó hiểu mình hơn cả những người xung quanh. Khi đối tượng trò chuyện duy nhất là AI, rào cản cuối cùng để hiệu chỉnh thực tế sẽ biến mất. Nguy cơ này còn lan sang môi trường công việc. Tại Anthropic, công ty đứng sau Claude, một trưởng nhóm chia sẻ rằng các thành viên ngày càng ít nói chuyện với nhau, thay vào đó là giao tiếp với AI để giải quyết vấn đề và tranh luận công việc. Hiệu quả tăng lên, nhưng môi trường làm việc cũng trở nên cô đơn hơn. AI loại bỏ nhiều ma sát trong giao tiếp, nhưng chính những ma sát đó thường là nền tảng xây dựng mối quan hệ giữa con người. Câu hỏi sâu sắc nhất của thời đại này có lẽ là: Làm thế nào để duy trì kết nối với người khác trong một thế giới ngày càng ít cần đến nhau?

marsbit40 phút trước

Trò chuyện với Claude như yêu đương thì sao? Nghiên cứu mới nhất từ Nature: Thật sự có thể khiến người ta 'nói chuyện' mà thành ngốc mất

marsbit40 phút trước

Request Network Giới Thiệu Tính Năng Thanh Toán Hàng Loạt Xuyên Chuỗi Một Cú Nhấp và Mở Rộng Kiểm Tra Ví với Merkle Science

Request Network đã ra mắt tính năng thanh toán hàng loạt xuyên chuỗi chỉ với một cú nhấp chuột và mở rộng khả năng sàng lọc ví với Merkle Science. Người dùng giờ đây có thể thực hiện các đợt thanh toán hàng loạt (mass payouts) tới nhiều người nhận trên cả các chuỗi EVM hàng đầu (Ethereum, Base, Arbitrum, Optimism, Polygon, BNB Chain) và mạng Tron chỉ từ một nền tảng duy nhất, sử dụng ví đơn lẻ và đồng tiền ổn định (USDC, USDT). Giao thức tự động xử lý việc bridging (bắc cầu) và swapping (hoán đổi) tài sản giữa các chuỗi, cho phép tất cả giao dịch trong một đợt được thực hiện chỉ với một lần phê duyệt. Bên cạnh đó, Request Network còn hợp tác với Merkle Science để cung cấp thêm lựa chọn nhà cung cấp dịch vụ sàng lọc ví tích hợp sẵn. Tính năng này giúp bảo vệ người dùng bằng cách chỉ cho phép thanh toán được thực hiện nếu địa chỉ ví đáp ứng các chính sách rủi ro đã cài đặt, nhằm giảm thiểu phơi nhiễm với các ví có rủi ro cao. Những nâng cấp này củng cố tầm nhìn của Request Network về một phương thức thanh toán bằng stablecoin đơn giản, có thể mở rộng và an toàn hơn cho các doanh nghiệp hoạt động toàn cầu. Đến nay, công nghệ của Request Network đã hỗ trợ chuyển động hơn 2 tỷ USD.

TheNewsCrypto47 phút trước

Request Network Giới Thiệu Tính Năng Thanh Toán Hàng Loạt Xuyên Chuỗi Một Cú Nhấp và Mở Rộng Kiểm Tra Ví với Merkle Science

TheNewsCrypto47 phút trước

Playnance's GCOIN Niêm Yết Trên XT.COM, Mở Rộng Phạm Vi Toàn Cầu

Công ty cơ sở hạ tầng Web3 iGaming Playnance đã thông báo token gốc GCOIN của họ đã được niêm yết chính thức trên sàn giao dịch XT.COM. Cặp giao dịch GCOIN/USDT bắt đầu hoạt động vào ngày 24 tháng 6 năm 2026, thông qua Khu Đổi mới của sàn, nơi dành riêng cho các dự án Web3 mới nổi. Đây là lần niêm yết thứ tư của GCOIN trong tháng 6, sau các thành công trên WEEX, BitMart và KoinBX. Các đợt niêm yết này phản ánh mục tiêu tiếp tục của Playnance nhằm mở rộng khả năng tiếp cận GCOIN trên toàn cầu, tăng cường sự hiện diện thị trường và thúc đẩy chấp nhận rộng rãi hơn trong hệ sinh thái giải trí được hỗ trợ bởi blockchain của họ. Giám đốc điều hành Pini Peter nhấn mạnh đây là cột mốc quan trọng trong sứ mệnh phát triển hệ sinh thái Playnance toàn cầu, thể hiện cam kết tăng khả năng tiếp cận, mở rộng áp dụng và thu hút người dùng. Playnance, thành lập năm 2020, đang phát triển các sản phẩm trực tiếp, phi lưu ký, trên chuỗi để thu hút người dùng Web2 truyền thống vào môi trường blockchain, hiện xử lý khoảng một triệu giao dịch mỗi ngày. Mục tiêu chính của họ là giảm thiểu ma sát giữa trải nghiệm người dùng và cơ sở hạ tầng blockchain, đồng thời duy trì tính minh bạch hoàn toàn trên chuỗi.

TheNewsCrypto47 phút trước

Playnance's GCOIN Niêm Yết Trên XT.COM, Mở Rộng Phạm Vi Toàn Cầu

TheNewsCrypto47 phút trước

Giao dịch

Giao ngay

Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua WAR

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua WAR (WAR) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua WAR (WAR) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ WAR (WAR) của BạnSau khi mua WAR (WAR), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch WAR (WAR)Giao dịch WAR (WAR) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 742Xuất bản vào 2024.12.11Cập nhật vào 2026.06.02

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến của người dùng về giá của WAR (WAR) được trình bày dưới đây.

Một cuộc chiến không có tên gọi thống nhất: Bản đồ thế giới mô hình của các "ông lớn" trong nước

Tóm tắt

Tiền kỹ thuật số thịnh hành

Câu hỏi Liên quan

Nội dung Liên quan

Một cuộc chiến bảo vệ mệnh giá khó khăn: STRC ngày càng xa rời mốc 100 USD

Fable 5 sắp hồi sinh, mã nguồn bị rò rỉ? CEO Anthropic bị Nhà Trắng đuổi ra ngoài

Trò chuyện với Claude như yêu đương thì sao? Nghiên cứu mới nhất từ Nature: Thật sự có thể khiến người ta 'nói chuyện' mà thành ngốc mất

Request Network Giới Thiệu Tính Năng Thanh Toán Hàng Loạt Xuyên Chuỗi Một Cú Nhấp và Mở Rộng Kiểm Tra Ví với Merkle Science

Playnance's GCOIN Niêm Yết Trên XT.COM, Mở Rộng Phạm Vi Toàn Cầu

Giao dịch

Bài viết Nổi bật

Làm thế nào để Mua WAR

Thảo luận

Danh mục Phổ biến

Thẻ Nổi bật