У названия "мировая модель" до сих пор нет единого обозначения в отрасли. Кто-то называет её мировой моделью, кто-то — базовой моделью мира, кто-то — физическим ИИ, а кто-то скрывает её в архитектуре больших моделей для автономного вождения, VLA или систем воплощённого интеллекта, не давая отдельного названия.
Alibaba с моделями Qwen-AgentWorld, HappyOyster, Qwen-RobotWorld указывает на языковой мир, виртуальный мир и физический мир соответственно; Tencent с HY-World ориентирован на редактируемый 3D мир; автопроизводители предпочитают говорить о моделях мира для вождения или моделях поведения в мире; Huawei и Baidu вообще не произносят отдельно слова "мировая модель".
За путаницей в названиях на самом деле скрывается одно и то же:
Заставить машину перед реальным действием сначала создать внутри себя динамическую среду, которую можно моделировать и анализировать, снижая бесконечную зависимость от реальных данных, сжимая реальный мир в движок данных, способный генерировать, ошибаться и перезапускаться бесконечно.
Пока стартапы ломают голову над правами на сбор данных и бюджетами на вычислительные мощности, Alibaba, Tencent, Huawei, Nio, Xpeng, Li Auto уже тихо превратили мировые модели в новую гоночную трассу.
Мировая модель — это амбиция: заставить ИИ выйти за рамки распознавания мира, сначала проиграв его в голове.
Производители автономного вождения хотят использовать её для создания "экзаменационных билетов" с дождём, снегом, нестандартными препятствиями; команды воплощённого интеллекта хотят с её помощью дать роботам упасть в симуляции десятки тысяч раз, прежде чем выйти в реальный мир; игровые и социальные компании хотят создать с её помощью параллельную вселенную, в которую могут погрузиться люди.
Крупные компании входят в игру с разными акцентами, но с единой ключевой целью: сжать реальный мир в движок данных, который можно бесконечно моделировать и анализировать.
I. Интернет-гиганты:
От цифрового мира к физическому
Развёртывание мировых моделей у Alibaba больше всего похоже на "расстановку товаров на полке по одному".
В июне 2026 года она за несколько недель последовательно выбросила три карты:
Серия Qwen-Robot 16 июня, HappyOyster 1.0 17 июня, Qwen-AgentWorld 24 июня.
Qwen-AgentWorld — это нативная языковая мировая модель, она генерирует не изображения, а окружение — в семи средах (MCP-инструменты, поиск, терминал, разработка кода, веб, операционная система, Android) модель может имитировать реальное взаимодействие, обучаться автономно, оттачивать себя с помощью обучения с подкреплением. Она предлагается в двух масштабах: общее количество параметров 35B и 397B (архитектура MoE), активируемые параметры 3B и 17B соответственно; данные для обучения — более 10 миллионов траекторий взаимодействия с реальной средой; модель и эталонный набор для оценки AgentWorldBench уже открыты. Это равносильно тому, чтобы сделать мировую модель "тренировочным полигоном" для агентов, а не "украшением".
HappyOyster 1.0 представляет другое лицо, оно больше похоже на "игровую киностудию": пользователь даёт фразу или изображение, оно генерирует открытый мир и позволяет пользователю произвольно вмешиваться в двух режимах: "исследование мира" и "режиссура в реальном времени". Режим исследования поддерживает непрерывное перемещение и управление камерой в реальном времени длительностью до 1 минуты, режим режиссура может генерировать видео в реальном времени 480p/720p длительностью более 3 минут. Alibaba позиционирует её как точку входа для индустрий интерактивных игр, виртуального общения, интерактивных мини-сериалов, культурного туризма и т.д.
Qwen-RobotWorld идёт в другом направлении — это "мыслящий мозг" в триаде воплощённого интеллекта Alibaba, работающий совместно с VLA-моделью управления Qwen-RobotManip и VLN-моделью перемещения Qwen-RobotNav, цель — дать роботу внутренний мир, который можно предварительно проигрывать.
Вместе эти три проекта показывают, что Alibaba одновременно борется за право определять языковой мир, виртуальный мир и физический мир.
Hunyuan от Tencent идёт другим путём, его серия HY-World больше похожа на строительство "автоматической фабрики 3D-игр".
В июле 2025 года Tencent открыла исходный код и выпустила мировую модель Hunyuan 3D 1.0 на WAIC; в декабре обновила до версии 1.5; в апреле 2026 года выпустила и открыла исходный код HY-World 2.0. Входными данными могут быть текст, одно или несколько изображений, видео или даже белая модель, выходными — 3DGS, Mesh, облако точек.
Версия 2.0 представила модули HY-Pano 2.0, WorldNav, WorldStereo 2.0, WorldMirror 2.0 и другие, объединив генерацию мира, реконструкцию мира, панорамные изображения и генерацию мира в реальном времени в замкнутый цикл.
Преимущество Tencent — в игровых и социальных сценариях, реальные пользователи HY-World — не для обучения автономному вождению, а для создания игровых уровней, виртуальных съёмок, цифровых двойников.
data-check-id="877100">Проект мировой модели ByteDance похож на "тайный поход" с генами данных коротких видео.В августе 2025 года The Information сообщил, что команда Seed ByteDance разрабатывает мировую модель, руководит Чжоу Чан, бывший ключевой участник проекта Tongyi Qianwen. Главный козырь этого проекта — ежедневный поток более 10 миллиардов видео в Douyin и TikTok, а также фреймворк EX-4D, способный преобразовывать моноскопическое видео в 4D многоперспективные сцены. Он нацелен на конкуренцию с Google Genie 3 и Meta V-JEPA 2, цель — не создать красивый генератор видео, а построить "цифрового двойника", способного имитировать физические законы.
На конференции "Изначальная сила" (FORCE) Volcano Engine 23 июня 2026 года ByteDance напрямую не выпустила эту мировую модель, но представила серию Doubao Seed 2.1, модель генерации видео Seedance 2.5, модель генерации изображений Seedream 5.0 Pro и новую модель генерации аудио.
Эксклюзивный репортаж 36Kr охарактеризовал стратегию ИИ ByteDance на 2026 год четырьмя тезисами: мировая модель должна достичь глобального уровня SOTA к концу года, Seedance исследует динамическую генерацию, Coding укрепляет базу, Doubao ускоряет коммерциализацию.
Это означает, что мировая модель внутри ByteDance является приоритетом номер один, просто она решила сначала вывести на передний план Seedance и Doubao, а сама продолжает готовить крупный козырь.
Мировая модель Pangu от Huawei имеет характер "незаметной, но смертельной".
На конференции разработчиков в июне 2025 года Huawei выпустила большую модель Pangu, основанную на мультимодальной большой модели Pangu, ключевая способность — генерировать высокоточное цифровое физическое пространство из одного изображения. Она может прогнозировать столкновения, обучать манипулятор захватывать объекты, а также генерировать видео вождения и облака точек лидара, помогая сквозной модели Huawei ADS достигать "одной версии за два дня".
Huawei не выкрикивает лозунг "мировая модель", а использует её как "тренировочную основу" для интеллектуальных автомобилей и воплощённого интеллекта. Сотрудничество с GAC — типичный случай: пиксельное соответствие 2D видео и 3D облаков точек, восстановление сложных краевых случаев за несколько минут.
На HDC 2026 в июне 2026 года Huawei продвинула большую модель Pangu до версии 7.0 и выпустила Ascend 910C, Юй Чэндун снова возглавил Pangu, но новостей об отдельной новой версии мировой модели не было.
Такой подход — "мировая модель существует не отдельно, а служит индустриальному замкнутому циклу" — это типичный стиль Huawei.
Baidu раньше вошла в область автономного вождения, выпустив в мае 2024 года Apollo ADFM, позиционируемую как "первая в мире большая модель автономного вождения, поддерживающая уровень L4".
Хотя Baidu не назвала её мировой моделью, она по сути обладает функциональностью мировой модели: через сквозную нейронную сеть понимает физический мир, прогнозирует поведение участников движения. В ноябре 2025 года большая модель Wenxin 5.0 дебютировала в нативной всеобъёмлющей модальной форме, масштаб параметров достиг 2,4 триллиона; официальная версия была запущена в январе 2026 года.
Возможности мировой модели Baidu уже скрыты в более крупной стратегии. Стратегия Baidu: не говорить отдельно о мировой модели, а заставить Apollo и Wenxin дополнять друг друга.
Xiaomi и SenseTime представляют два типа "технических подходов".
Xiaomi OneVL с открытым исходным кодом от 13 мая 2026 года объединяет VLA, мировую модель и латентное пространственное рассуждение в одну структуру, подчёркивает объяснимость процесса визуального рассуждения, создавая базовый компонент, пригодный как для автономного вождения, так и для воплощённого интеллекта.
Jueying "Kaiwu" от SenseTime больше похожа на "опытного водителя", уже вышедшего на работу: в отчёте Frost & Sullivan за сентябрь 2025 года она определена как первая в отрасли серийно производимая, интерактивная мировая модель, способная генерировать 150-секундное видео вождения разрешением 1080P с 11 точек зрения, а также создавшая крупнейший в отрасли набор данных для генеративного вождения WorldSim-Drive и библиотеку из миллионов генерируемых сценариев.
В июне 2026 года Daxiao Robot, основанная соучредителем SenseTime Ван Сяоганом, объявила о завершении раунда финансирования на сотни миллионов долларов США, её мировая модель Kairos 3.0 заняла первое место в четырёх рейтингах генерации и прогнозирования по таким параметрам, как генерация видео для воплощённого интеллекта, следование инструкциям задач.
Мировая модель от SenseTime распространяется от интеллектуальных автомобилей к роботам.
II. Автопроизводители:
Использование мировой модели как автошколы и экзаменационного полигона
Если мировые модели интернет-гигантов "создают мир", то мировые модели автопроизводителей "используют мир".
Nio стала первым китайским автопроизводителем, который развернул мировую модель как знамя.
На NIO IN в июле 2024 года Жэнь Шаоцин представил NWM (NIO World Model), позиционируемую как первая китайская мировая модель для интеллектуального вождения.
Она использует мультимодальную авторегрессионную генеративную архитектуру, делает две вещи: "воображаемую реконструкцию" в пространстве и "воображаемое моделирование" во времени.
Дав реальную сцену, она может восстановить 3D мир; дав трёхсекундную подсказку, она может сгенерировать будущее видео длительностью более двух минут. Каждые 0,1 секунды она моделирует 216 траекторий и выбирает оптимальную.
Логика Nio ясна: сквозной модели недостаточно, по-настоящему умная система интеллектуального вождения должна, как человек, "уметь представлять дорожную ситуацию с закрытыми глазами". 18 июня 2026 года Nio официально выпустила новую версию NWM 2.0, охватив более 700 000 пользователей всех серий, даже владельцы автомобилей, купленных четыре года назад, могут бесплатно обновиться, четыре основные автомобильные системы Banyan, Cedar, Coconut+ одновременно выпускают версии. Новая версия впервые в Китае реализовала прямую выдачу исходных сигналов управления рулём, педалями газа и тормоза моделью интеллектуального вождения и обновила систему обучения с "мировая модель + обучение с подкреплением в замкнутом цикле" до трёхуровневой "мировая модель + контролируемая тонкая настройка + обучение с подкреплением в замкнутом цикле". AEB охватывает в 6,7 раза больше сценариев, чем стандартный AEB, вероятность ложного срабатывания снижена до одного раза на 100 000 километров.
Чип Shenji NX9031 даже описан как "изначально разработанный для мировой модели".
Li Auto во второй половине 2024 года предложила подход к мировой модели "реконструкция + генерация" и опубликовала DrivingSphere на CVPR 2025.
Она состоит из диффузионной модели OccDreamer и VideoDreamer ST-DiT, создавая высокореалистичную 4D симуляционную среду замкнутого цикла.
Традиционная симуляция с разомкнутым циклом может оценить только "что увидела модель", а симуляция с замкнутым циклом может оценить "что сделала модель". Мировая модель Li Auto похожа на экзаменационный полигон, который может бесконечно генерировать сложные задачи, позволяя системе интеллектуального вождения сначала освоить сложные сценарии внутри чипа.
К Livis Day в июне 2026 года Li Auto ещё больше улучшила эту способность до "Mach VLA", нативная мультимодальная архитектура MoE, объединённое восприятие, прогнозирование, планирование, вычислительная мощность двух чипов M100 на борту 2560 TOPS, время реакции 0,28 секунды.
Согласно дорожной карте, опубликованной Li Auto, в третьем квартале новая Mach VLA будет распространена среди пользователей AD Max, в четвёртом квартале цель — соответствие Tesla FSD V14. Li Auto больше не просто автомобильная компания, она формирует себя как поставщика системы воплощённого интеллекта Livis.
Путь Xpeng Motors демонстрирует иерархию "сначала сделать большим, затем сделать точным".
В апреле 2025 года Xpeng на презентации технологий ИИ в Гонконге впервые раскрыла, что разрабатывает сверхкрупномасштабную "базовую модель мира" для автономного вождения с 72 миллиардами параметров.
Год спустя, 1 апреля 2026 года, Xpeng официально выпустила технический отчёт по мировой модели X-World.
Она основана на технологии генерации видео с диффузией, модифицирована на парадигме генерации видео в латентном пространстве WAN 2.2, использует 3D причинно-следственный VAE и внимание к перспективе-времени DiT, поддерживает согласованную генерацию с 7 круговых камер.
X-World — не инструмент генерации видео, а "симулятор реального мира" для второго поколения VLA от Xpeng: симулированные сценарии увеличились с 30 000 год назад до более чем 500 000, ежедневный тестовый пробег в симуляции эквивалентен 30 миллионам километров реальных дорожных испытаний, поддерживается онлайн-обучение с подкреплением и генерация данных для зарубежных рынков.
На CVPR в июне 2026 года Xpeng впервые показала полную технологическую карту мировой модели. Амбиции Xpeng написаны в сфере её применения: ИИ-автомобили, ИИ-роботы, летающие автомобили. Целевой масштаб данных для обучения — 200 миллионов клипов, кластер из 10 000 карт обеспечивает вычислительную мощность 10 EFLOPS, итерация каждые 5 дней.
Geely Auto показала WAM (World Action Model) на CES 2026 и включила её в систему всеобъемлющего ИИ 2.0.
Многоуровневая архитектура WAM интересна: верхний уровень — мультимодальная большая модель MLLM отвечает за понимание, нижний уровень — Action Expert отвечает за действие, средний — мировая модель отвечает за моделирование.
Цель Geely не в том, чтобы сделать модель интеллектуального вождения лучше, а в том, чтобы превратить автомобиль в "единый мозг" — интеллектуальное вождение, салон, шасси, двигатель управляются едино. В апреле 2026 года Zeekr 8X поступил в продажу и сразу же был поставлен, став первым в Китае суперинтеллектуальным агентом с интегрированным салоном и вождением, его G-ASD 4.0 основан на WAM. Цель на 2026 год — L3 на скоростных трассах и L4 на низких скоростях.
Мировая модель BYD находится на ранней стадии предварительных исследований, информация, раскрытая в январе 2025 года, показывает, что внутри компании изучили путь Tesla, создали небольшую команду для быстрого тестирования, основной акцент — на генерации данных для краевых случаев сквозного интеллектуального вождения.
Great Wall также предложила направление следующего поколения интеллектуального вождения VLA + мировая модель и перешла от "стратегии" к "серийному производству": в июне 2026 года на конференции по интеллектуальному вождению и экспорту Great Wall поделилась практикой VLA, вычислительная мощность центра суперкомпьютеров Jiuzhou в Баодине достигла 5 EFLOPS, GPU более 10 000, Tank 700 станет первой моделью, оснащённой системой Coffee Pilot 4.0 VLA, серийное производство и установка на автомобили запланированы на 2026 год. Более 2 миллионов существующих автомобилей ежедневно генерируют огромные объёмы данных — это самый солидный актив Great Wall по сравнению с новыми автопроизводителями.
III. Поставщики систем интеллектуального вождения:
Движок мира, скрытый под автомобилем
Помимо автозаводов, есть ряд поставщиков, которые превратили мировую модель в "невидимый движок".
Momenta официально представила мировую модель R7 с обучением с подкреплением на Пекинском автосалоне в апреле 2026 года и реализовала её первое серийное применение.
Это трёхуровневая архитектура: предварительное обучение мировой модели, симуляция мировой модели, обучение с подкреплением. R7 основана на более чем 12 миллиардах километров реального пробега, полученных от серийного бизнеса Momenta, из которых выделено более 100 миллионов сегментов "золотых данных" для предварительного обучения, затем модель проходит через множество краевых сценариев в симуляции и, наконец, оттачивается обучением с подкреплением.
Momenta напрямую внедряет её в сквозную базовую модель, цель — достижение стандарта L4. Коммерческие данные также быстро растут: количество серийных автомобилей с системами Momenta превысило 900 000, успешно поставлено более 100 моделей, заказов на более чем 210 моделей, решения внедрены в более чем 10 стран и регионов, включая Великобританию, Норвегию, Сингапур, Австралию и Новую Зеландию.
В июне 2026 года Momenta прошла слушания на Гонконгской фондовой бирже, стремясь к IPO как "первая акция физического ИИ" с долей рынка сторонних городских NOA в 65%. Это показывает, насколько сильно она делает ставку на мировую модель.
Horizon Robotics выпустила в мае 2026 года HorizonDrive, авторегрессионную мировую модель, ключевая способность — генерация длинных последовательностей видео вождения продолжительностью в минуты.
Она работает в латентном пространстве с помощью video-VAE, входные данные — HD карты, 3D ограничивающие рамки и действия собственного автомобиля, выходные — непрерывные будущие сцены.
Изюминка HorizonDrive — обучение "самоисправлению": с помощью технологий SRR и TRD модель может исправлять собственные ошибки генерации. На nuScenes её FID снизился на 52%, FVD на 37%, точность траекторий повысилась на 21%; одна карта RTX 5090 может генерировать видео 256×512 со скоростью 5,6 кадров в секунду или видео 384×768 со скоростью 1,7 кадра в секунду. Её назначение — симуляция автономного вождения в замкнутом цикле, помощь автопроизводителям в проверке систем L3+ без выезда на дорогу.
DriveGPT от Haomo.ai — один из первых проектов в Китае, громко заявивший о лозунге "мировая модель".
Выпущенная в апреле 2023 года "Сюэху · Хайжо" ("Снежное озеро · Хайжо") — это генеративная большая модель автономного вождения, которая строит 4D пространство представлений способом прогнозирования следующего кадра. За ней стоят 10 миллиардов кадров интернет-изображений, 4,8 миллиона 4D клипов и 87 миллионов километров пробега с помощью вспомогательного вождения.
Путь Haomo похож на путь Tesla World Model, Wayve GAIA-1: заставить большую модель автономного вождения эволюционировать от "просмотра изображений" к "просмотру видео", а затем к "прогнозированию видео". Она предоставляет возможности для таких сценариев, как Wey от Great Wall, беспилотный автомобиль Little Mule и т.д.
DeepRoute (Yuanrong Qixing) выпустила 26 августа 2025 года платформу DeepRoute IO 2.0 с собственной моделью VLA.
На Пекинском автосалоне в апреле 2026 года DeepRoute далее представила технологию базовой модели и стратегию физического ИИ, а также раскрыла коммерческие данные: количество серийных автомобилей с её решением городского NOA превысило 300 000, за последний год автомобили с системой активной безопасности DeepRoute набрали в общей сложности более 1,3 миллиарда километров реального дорожного пробега, накопив 44,8 миллиона часов сопровождения пользователей.
DeepRoute не дала отдельного названия мировой модели, но в системе симуляции и обучения DeepRoute IO 2.0 мировая модель является скрытым ядром.
IV. Стартапы и крупные компании:
Две карты, один город
А эта таблица развёртывания крупных компаний — это другая карта.
Две карты указывают на один город: тот, кто заставит ИИ по-настоящему понять физический мир, получит вход в следующую эпоху.
Преимущество стартапов — концентрация и скорость.
Они могут сделать ставку на радикальный путь, например, нативная мировая модель, генерация 3D пространства, физический движок VLA, не будучи связанными существующим бизнесом. Но им не хватает данных, вычислительных мощностей, каналов серийного производства и, что ещё важнее, реального сценария замкнутого цикла, который мог бы постоянно питать мировую модель.
Недостаток крупных компаний — инерция организации и путаница в названиях, вызванная параллельной работой нескольких отделов — три проекта мировой модели Alibaba даже заставляют посторонних сомневаться, одно ли это и то же. Но у крупных компаний есть данные, вычислительные мощности, пользователи, автомобили, а также инженерные системы для запуска моделей. Стартапы создают "модели", крупные компании создают "системы".
Самый опасный момент наступает, когда крупные компании превращают мировую модель из "исследовательского проекта" в "бизнес-основу". Большая модель Pangu от Huawei служит ADS и роботам, HY-World от Tencent служит играм и промышленности, DrivingSphere от Li Auto служит итерациям интеллектуального вождения, Kaiwu от SenseTime уже установлена на серийные автомобили, R7 от Momenta уже работает на более чем 900 000 автомобилях —
Это не презентации, а "возможности", входящие в производственную линию продуктов. Для стартапов окно возможностей для мировых моделей сужается, будущая конкуренция быстро сместится от "кто может сделать мировую модель" к "чью мировую модель крупные компании смогут позволить себе использовать и будут использовать эффективно".
V. Мировая модель — не тренд,
а эскалация старой войны
Мировая модель — не новая история.
Это естественный продукт слияния больших языковых моделей, моделей генерации видео, сквозных моделей автономного вождения, моделей VLA для роботов в физическом мире.
То, что крупные компании массово вступают в игру, показывает, что это уже превратилось из "игрушки для технических гиков" в "инфраструктуру индустрии".
Alibaba, Tencent, ByteDance, Huawei, Baidu, Xiaomi, SenseTime строят мост между цифровым и физическим миром; Nio, Li Auto, Xpeng, Geely, BYD, Great Wall протянули "мост" к автомобилям; Momenta, Horizon Robotics, Haomo, DeepRoute прокладывают рельсы под мостом.
Стартапы стоят в конце моста, держа в руках более изящные чертежи, но вынуждены столкнуться с фактом, что крупные компании уже мобилизуют инженерные бригады.
В следующем году ключевым вопросом на треке мировых моделей будет не "кто сделал", а "чья мировая модель действительно понимает мир вместо человека".
Эта статья из публичного аккаунта WeChat: IT桔子 , автор: Judy






