Война без единого названия: карта мира моделей различных крупных компаний в Китае

marsbitОпубликовано 2026-06-25Обновлено 2026-06-25

Введение

Модели мира (World Models) — это новая стратегическая область в сфере ИИ, где крупные китайские технологические компании и автопроизводители активно развивают свои решения, несмотря на отсутствие единой терминологии. Цель — создать у машин внутреннюю динамическую среду для прогнозирования и анализа, снижая зависимость от реальных данных. **Интернет-гиганты** фокусируются на разных аспектах. Alibaba развивает три направления: языковые (Qwen-AgentWorld), виртуальные (HappyOyster) и физические миры (Qwen-RobotWorld). Tencent концентрируется на создании 3D-миров (HY-World) для игр и соцсетей. ByteDance использует данные видео с TikTok/抖音 для разработки модели в рамках проекта Seed. Huawei и Baidu не афишируют свои «модели мира» отдельно, интегрируя их в промышленные решения (например, Pang для авто и роботов) и автономное вождение (Apollo ADFM). Xiaomi и SenseTime также разрабатывают базовые фреймворки (Xiaomi OneVL) и коммерческие решения для автомобилей и робототехники (Kairos). **Автопроизводители** используют модели мира как «симуляторы» для обучения систем автономного вождения. NIO (модель NWM), Li Auto (DrivingSphere), XPeng (X-World), Geely (WAM) и другие создают высокодетализированные симуляционные среды для генерации сложных сценариев и тестирования алгоритмов, стремясь к созданию единого «мозга» для управления транспортным средством. **Поставщики решений для автономного вождения**, такие как Momenta (R7), Horizon Robotics (HorizonDrive), Haomo.ai и DeepRoute, разраба...

У названия "мировая модель" до сих пор нет единого обозначения в отрасли. Кто-то называет её мировой моделью, кто-то — базовой моделью мира, кто-то — физическим ИИ, а кто-то скрывает её в архитектуре больших моделей для автономного вождения, VLA или систем воплощённого интеллекта, не давая отдельного названия.

Alibaba с моделями Qwen-AgentWorld, HappyOyster, Qwen-RobotWorld указывает на языковой мир, виртуальный мир и физический мир соответственно; Tencent с HY-World ориентирован на редактируемый 3D мир; автопроизводители предпочитают говорить о моделях мира для вождения или моделях поведения в мире; Huawei и Baidu вообще не произносят отдельно слова "мировая модель".

За путаницей в названиях на самом деле скрывается одно и то же:

Заставить машину перед реальным действием сначала создать внутри себя динамическую среду, которую можно моделировать и анализировать, снижая бесконечную зависимость от реальных данных, сжимая реальный мир в движок данных, способный генерировать, ошибаться и перезапускаться бесконечно.

Пока стартапы ломают голову над правами на сбор данных и бюджетами на вычислительные мощности, Alibaba, Tencent, Huawei, Nio, Xpeng, Li Auto уже тихо превратили мировые модели в новую гоночную трассу.

Мировая модель — это амбиция: заставить ИИ выйти за рамки распознавания мира, сначала проиграв его в голове.

Производители автономного вождения хотят использовать её для создания "экзаменационных билетов" с дождём, снегом, нестандартными препятствиями; команды воплощённого интеллекта хотят с её помощью дать роботам упасть в симуляции десятки тысяч раз, прежде чем выйти в реальный мир; игровые и социальные компании хотят создать с её помощью параллельную вселенную, в которую могут погрузиться люди.

Крупные компании входят в игру с разными акцентами, но с единой ключевой целью: сжать реальный мир в движок данных, который можно бесконечно моделировать и анализировать.

I. Интернет-гиганты:

От цифрового мира к физическому

Развёртывание мировых моделей у Alibaba больше всего похоже на "расстановку товаров на полке по одному".

В июне 2026 года она за несколько недель последовательно выбросила три карты:

Серия Qwen-Robot 16 июня, HappyOyster 1.0 17 июня, Qwen-AgentWorld 24 июня.

Qwen-AgentWorld — это нативная языковая мировая модель, она генерирует не изображения, а окружение — в семи средах (MCP-инструменты, поиск, терминал, разработка кода, веб, операционная система, Android) модель может имитировать реальное взаимодействие, обучаться автономно, оттачивать себя с помощью обучения с подкреплением. Она предлагается в двух масштабах: общее количество параметров 35B и 397B (архитектура MoE), активируемые параметры 3B и 17B соответственно; данные для обучения — более 10 миллионов траекторий взаимодействия с реальной средой; модель и эталонный набор для оценки AgentWorldBench уже открыты. Это равносильно тому, чтобы сделать мировую модель "тренировочным полигоном" для агентов, а не "украшением".

HappyOyster 1.0 представляет другое лицо, оно больше похоже на "игровую киностудию": пользователь даёт фразу или изображение, оно генерирует открытый мир и позволяет пользователю произвольно вмешиваться в двух режимах: "исследование мира" и "режиссура в реальном времени". Режим исследования поддерживает непрерывное перемещение и управление камерой в реальном времени длительностью до 1 минуты, режим режиссура может генерировать видео в реальном времени 480p/720p длительностью более 3 минут. Alibaba позиционирует её как точку входа для индустрий интерактивных игр, виртуального общения, интерактивных мини-сериалов, культурного туризма и т.д.

Qwen-RobotWorld идёт в другом направлении — это "мыслящий мозг" в триаде воплощённого интеллекта Alibaba, работающий совместно с VLA-моделью управления Qwen-RobotManip и VLN-моделью перемещения Qwen-RobotNav, цель — дать роботу внутренний мир, который можно предварительно проигрывать.

Вместе эти три проекта показывают, что Alibaba одновременно борется за право определять языковой мир, виртуальный мир и физический мир.

Hunyuan от Tencent идёт другим путём, его серия HY-World больше похожа на строительство "автоматической фабрики 3D-игр".

В июле 2025 года Tencent открыла исходный код и выпустила мировую модель Hunyuan 3D 1.0 на WAIC; в декабре обновила до версии 1.5; в апреле 2026 года выпустила и открыла исходный код HY-World 2.0. Входными данными могут быть текст, одно или несколько изображений, видео или даже белая модель, выходными — 3DGS, Mesh, облако точек.

Версия 2.0 представила модули HY-Pano 2.0, WorldNav, WorldStereo 2.0, WorldMirror 2.0 и другие, объединив генерацию мира, реконструкцию мира, панорамные изображения и генерацию мира в реальном времени в замкнутый цикл.

Преимущество Tencent — в игровых и социальных сценариях, реальные пользователи HY-World — не для обучения автономному вождению, а для создания игровых уровней, виртуальных съёмок, цифровых двойников.

data-check-id="877100">Проект мировой модели ByteDance похож на "тайный поход" с генами данных коротких видео.

В августе 2025 года The Information сообщил, что команда Seed ByteDance разрабатывает мировую модель, руководит Чжоу Чан, бывший ключевой участник проекта Tongyi Qianwen. Главный козырь этого проекта — ежедневный поток более 10 миллиардов видео в Douyin и TikTok, а также фреймворк EX-4D, способный преобразовывать моноскопическое видео в 4D многоперспективные сцены. Он нацелен на конкуренцию с Google Genie 3 и Meta V-JEPA 2, цель — не создать красивый генератор видео, а построить "цифрового двойника", способного имитировать физические законы.

На конференции "Изначальная сила" (FORCE) Volcano Engine 23 июня 2026 года ByteDance напрямую не выпустила эту мировую модель, но представила серию Doubao Seed 2.1, модель генерации видео Seedance 2.5, модель генерации изображений Seedream 5.0 Pro и новую модель генерации аудио.

Эксклюзивный репортаж 36Kr охарактеризовал стратегию ИИ ByteDance на 2026 год четырьмя тезисами: мировая модель должна достичь глобального уровня SOTA к концу года, Seedance исследует динамическую генерацию, Coding укрепляет базу, Doubao ускоряет коммерциализацию.

Это означает, что мировая модель внутри ByteDance является приоритетом номер один, просто она решила сначала вывести на передний план Seedance и Doubao, а сама продолжает готовить крупный козырь.

Мировая модель Pangu от Huawei имеет характер "незаметной, но смертельной".

На конференции разработчиков в июне 2025 года Huawei выпустила большую модель Pangu, основанную на мультимодальной большой модели Pangu, ключевая способность — генерировать высокоточное цифровое физическое пространство из одного изображения. Она может прогнозировать столкновения, обучать манипулятор захватывать объекты, а также генерировать видео вождения и облака точек лидара, помогая сквозной модели Huawei ADS достигать "одной версии за два дня".

Huawei не выкрикивает лозунг "мировая модель", а использует её как "тренировочную основу" для интеллектуальных автомобилей и воплощённого интеллекта. Сотрудничество с GAC — типичный случай: пиксельное соответствие 2D видео и 3D облаков точек, восстановление сложных краевых случаев за несколько минут.

На HDC 2026 в июне 2026 года Huawei продвинула большую модель Pangu до версии 7.0 и выпустила Ascend 910C, Юй Чэндун снова возглавил Pangu, но новостей об отдельной новой версии мировой модели не было.

Такой подход — "мировая модель существует не отдельно, а служит индустриальному замкнутому циклу" — это типичный стиль Huawei.

Baidu раньше вошла в область автономного вождения, выпустив в мае 2024 года Apollo ADFM, позиционируемую как "первая в мире большая модель автономного вождения, поддерживающая уровень L4".

Хотя Baidu не назвала её мировой моделью, она по сути обладает функциональностью мировой модели: через сквозную нейронную сеть понимает физический мир, прогнозирует поведение участников движения. В ноябре 2025 года большая модель Wenxin 5.0 дебютировала в нативной всеобъёмлющей модальной форме, масштаб параметров достиг 2,4 триллиона; официальная версия была запущена в январе 2026 года.

Возможности мировой модели Baidu уже скрыты в более крупной стратегии. Стратегия Baidu: не говорить отдельно о мировой модели, а заставить Apollo и Wenxin дополнять друг друга.

Xiaomi и SenseTime представляют два типа "технических подходов".

Xiaomi OneVL с открытым исходным кодом от 13 мая 2026 года объединяет VLA, мировую модель и латентное пространственное рассуждение в одну структуру, подчёркивает объяснимость процесса визуального рассуждения, создавая базовый компонент, пригодный как для автономного вождения, так и для воплощённого интеллекта.

Jueying "Kaiwu" от SenseTime больше похожа на "опытного водителя", уже вышедшего на работу: в отчёте Frost & Sullivan за сентябрь 2025 года она определена как первая в отрасли серийно производимая, интерактивная мировая модель, способная генерировать 150-секундное видео вождения разрешением 1080P с 11 точек зрения, а также создавшая крупнейший в отрасли набор данных для генеративного вождения WorldSim-Drive и библиотеку из миллионов генерируемых сценариев.

В июне 2026 года Daxiao Robot, основанная соучредителем SenseTime Ван Сяоганом, объявила о завершении раунда финансирования на сотни миллионов долларов США, её мировая модель Kairos 3.0 заняла первое место в четырёх рейтингах генерации и прогнозирования по таким параметрам, как генерация видео для воплощённого интеллекта, следование инструкциям задач.

Мировая модель от SenseTime распространяется от интеллектуальных автомобилей к роботам.

II. Автопроизводители:

Использование мировой модели как автошколы и экзаменационного полигона

Если мировые модели интернет-гигантов "создают мир", то мировые модели автопроизводителей "используют мир".

Nio стала первым китайским автопроизводителем, который развернул мировую модель как знамя.

На NIO IN в июле 2024 года Жэнь Шаоцин представил NWM (NIO World Model), позиционируемую как первая китайская мировая модель для интеллектуального вождения.

Она использует мультимодальную авторегрессионную генеративную архитектуру, делает две вещи: "воображаемую реконструкцию" в пространстве и "воображаемое моделирование" во времени.

Дав реальную сцену, она может восстановить 3D мир; дав трёхсекундную подсказку, она может сгенерировать будущее видео длительностью более двух минут. Каждые 0,1 секунды она моделирует 216 траекторий и выбирает оптимальную.

Логика Nio ясна: сквозной модели недостаточно, по-настоящему умная система интеллектуального вождения должна, как человек, "уметь представлять дорожную ситуацию с закрытыми глазами". 18 июня 2026 года Nio официально выпустила новую версию NWM 2.0, охватив более 700 000 пользователей всех серий, даже владельцы автомобилей, купленных четыре года назад, могут бесплатно обновиться, четыре основные автомобильные системы Banyan, Cedar, Coconut+ одновременно выпускают версии. Новая версия впервые в Китае реализовала прямую выдачу исходных сигналов управления рулём, педалями газа и тормоза моделью интеллектуального вождения и обновила систему обучения с "мировая модель + обучение с подкреплением в замкнутом цикле" до трёхуровневой "мировая модель + контролируемая тонкая настройка + обучение с подкреплением в замкнутом цикле". AEB охватывает в 6,7 раза больше сценариев, чем стандартный AEB, вероятность ложного срабатывания снижена до одного раза на 100 000 километров.

Чип Shenji NX9031 даже описан как "изначально разработанный для мировой модели".

Li Auto во второй половине 2024 года предложила подход к мировой модели "реконструкция + генерация" и опубликовала DrivingSphere на CVPR 2025.

Она состоит из диффузионной модели OccDreamer и VideoDreamer ST-DiT, создавая высокореалистичную 4D симуляционную среду замкнутого цикла.

Традиционная симуляция с разомкнутым циклом может оценить только "что увидела модель", а симуляция с замкнутым циклом может оценить "что сделала модель". Мировая модель Li Auto похожа на экзаменационный полигон, который может бесконечно генерировать сложные задачи, позволяя системе интеллектуального вождения сначала освоить сложные сценарии внутри чипа.

К Livis Day в июне 2026 года Li Auto ещё больше улучшила эту способность до "Mach VLA", нативная мультимодальная архитектура MoE, объединённое восприятие, прогнозирование, планирование, вычислительная мощность двух чипов M100 на борту 2560 TOPS, время реакции 0,28 секунды.

Согласно дорожной карте, опубликованной Li Auto, в третьем квартале новая Mach VLA будет распространена среди пользователей AD Max, в четвёртом квартале цель — соответствие Tesla FSD V14. Li Auto больше не просто автомобильная компания, она формирует себя как поставщика системы воплощённого интеллекта Livis.

Путь Xpeng Motors демонстрирует иерархию "сначала сделать большим, затем сделать точным".

В апреле 2025 года Xpeng на презентации технологий ИИ в Гонконге впервые раскрыла, что разрабатывает сверхкрупномасштабную "базовую модель мира" для автономного вождения с 72 миллиардами параметров.

Год спустя, 1 апреля 2026 года, Xpeng официально выпустила технический отчёт по мировой модели X-World.

Она основана на технологии генерации видео с диффузией, модифицирована на парадигме генерации видео в латентном пространстве WAN 2.2, использует 3D причинно-следственный VAE и внимание к перспективе-времени DiT, поддерживает согласованную генерацию с 7 круговых камер.

X-World — не инструмент генерации видео, а "симулятор реального мира" для второго поколения VLA от Xpeng: симулированные сценарии увеличились с 30 000 год назад до более чем 500 000, ежедневный тестовый пробег в симуляции эквивалентен 30 миллионам километров реальных дорожных испытаний, поддерживается онлайн-обучение с подкреплением и генерация данных для зарубежных рынков.

На CVPR в июне 2026 года Xpeng впервые показала полную технологическую карту мировой модели. Амбиции Xpeng написаны в сфере её применения: ИИ-автомобили, ИИ-роботы, летающие автомобили. Целевой масштаб данных для обучения — 200 миллионов клипов, кластер из 10 000 карт обеспечивает вычислительную мощность 10 EFLOPS, итерация каждые 5 дней.

Geely Auto показала WAM (World Action Model) на CES 2026 и включила её в систему всеобъемлющего ИИ 2.0.

Многоуровневая архитектура WAM интересна: верхний уровень — мультимодальная большая модель MLLM отвечает за понимание, нижний уровень — Action Expert отвечает за действие, средний — мировая модель отвечает за моделирование.

Цель Geely не в том, чтобы сделать модель интеллектуального вождения лучше, а в том, чтобы превратить автомобиль в "единый мозг" — интеллектуальное вождение, салон, шасси, двигатель управляются едино. В апреле 2026 года Zeekr 8X поступил в продажу и сразу же был поставлен, став первым в Китае суперинтеллектуальным агентом с интегрированным салоном и вождением, его G-ASD 4.0 основан на WAM. Цель на 2026 год — L3 на скоростных трассах и L4 на низких скоростях.

Мировая модель BYD находится на ранней стадии предварительных исследований, информация, раскрытая в январе 2025 года, показывает, что внутри компании изучили путь Tesla, создали небольшую команду для быстрого тестирования, основной акцент — на генерации данных для краевых случаев сквозного интеллектуального вождения.

Great Wall также предложила направление следующего поколения интеллектуального вождения VLA + мировая модель и перешла от "стратегии" к "серийному производству": в июне 2026 года на конференции по интеллектуальному вождению и экспорту Great Wall поделилась практикой VLA, вычислительная мощность центра суперкомпьютеров Jiuzhou в Баодине достигла 5 EFLOPS, GPU более 10 000, Tank 700 станет первой моделью, оснащённой системой Coffee Pilot 4.0 VLA, серийное производство и установка на автомобили запланированы на 2026 год. Более 2 миллионов существующих автомобилей ежедневно генерируют огромные объёмы данных — это самый солидный актив Great Wall по сравнению с новыми автопроизводителями.

III. Поставщики систем интеллектуального вождения:

Движок мира, скрытый под автомобилем

Помимо автозаводов, есть ряд поставщиков, которые превратили мировую модель в "невидимый движок".

Momenta официально представила мировую модель R7 с обучением с подкреплением на Пекинском автосалоне в апреле 2026 года и реализовала её первое серийное применение.

Это трёхуровневая архитектура: предварительное обучение мировой модели, симуляция мировой модели, обучение с подкреплением. R7 основана на более чем 12 миллиардах километров реального пробега, полученных от серийного бизнеса Momenta, из которых выделено более 100 миллионов сегментов "золотых данных" для предварительного обучения, затем модель проходит через множество краевых сценариев в симуляции и, наконец, оттачивается обучением с подкреплением.

Momenta напрямую внедряет её в сквозную базовую модель, цель — достижение стандарта L4. Коммерческие данные также быстро растут: количество серийных автомобилей с системами Momenta превысило 900 000, успешно поставлено более 100 моделей, заказов на более чем 210 моделей, решения внедрены в более чем 10 стран и регионов, включая Великобританию, Норвегию, Сингапур, Австралию и Новую Зеландию.

В июне 2026 года Momenta прошла слушания на Гонконгской фондовой бирже, стремясь к IPO как "первая акция физического ИИ" с долей рынка сторонних городских NOA в 65%. Это показывает, насколько сильно она делает ставку на мировую модель.

Horizon Robotics выпустила в мае 2026 года HorizonDrive, авторегрессионную мировую модель, ключевая способность — генерация длинных последовательностей видео вождения продолжительностью в минуты.

Она работает в латентном пространстве с помощью video-VAE, входные данные — HD карты, 3D ограничивающие рамки и действия собственного автомобиля, выходные — непрерывные будущие сцены.

Изюминка HorizonDrive — обучение "самоисправлению": с помощью технологий SRR и TRD модель может исправлять собственные ошибки генерации. На nuScenes её FID снизился на 52%, FVD на 37%, точность траекторий повысилась на 21%; одна карта RTX 5090 может генерировать видео 256×512 со скоростью 5,6 кадров в секунду или видео 384×768 со скоростью 1,7 кадра в секунду. Её назначение — симуляция автономного вождения в замкнутом цикле, помощь автопроизводителям в проверке систем L3+ без выезда на дорогу.

DriveGPT от Haomo.ai — один из первых проектов в Китае, громко заявивший о лозунге "мировая модель".

Выпущенная в апреле 2023 года "Сюэху · Хайжо" ("Снежное озеро · Хайжо") — это генеративная большая модель автономного вождения, которая строит 4D пространство представлений способом прогнозирования следующего кадра. За ней стоят 10 миллиардов кадров интернет-изображений, 4,8 миллиона 4D клипов и 87 миллионов километров пробега с помощью вспомогательного вождения.

Путь Haomo похож на путь Tesla World Model, Wayve GAIA-1: заставить большую модель автономного вождения эволюционировать от "просмотра изображений" к "просмотру видео", а затем к "прогнозированию видео". Она предоставляет возможности для таких сценариев, как Wey от Great Wall, беспилотный автомобиль Little Mule и т.д.

DeepRoute (Yuanrong Qixing) выпустила 26 августа 2025 года платформу DeepRoute IO 2.0 с собственной моделью VLA.

На Пекинском автосалоне в апреле 2026 года DeepRoute далее представила технологию базовой модели и стратегию физического ИИ, а также раскрыла коммерческие данные: количество серийных автомобилей с её решением городского NOA превысило 300 000, за последний год автомобили с системой активной безопасности DeepRoute набрали в общей сложности более 1,3 миллиарда километров реального дорожного пробега, накопив 44,8 миллиона часов сопровождения пользователей.

DeepRoute не дала отдельного названия мировой модели, но в системе симуляции и обучения DeepRoute IO 2.0 мировая модель является скрытым ядром.

IV. Стартапы и крупные компании:

Две карты, один город

А эта таблица развёртывания крупных компаний — это другая карта.

Две карты указывают на один город: тот, кто заставит ИИ по-настоящему понять физический мир, получит вход в следующую эпоху.

Преимущество стартапов — концентрация и скорость.

Они могут сделать ставку на радикальный путь, например, нативная мировая модель, генерация 3D пространства, физический движок VLA, не будучи связанными существующим бизнесом. Но им не хватает данных, вычислительных мощностей, каналов серийного производства и, что ещё важнее, реального сценария замкнутого цикла, который мог бы постоянно питать мировую модель.

Недостаток крупных компаний — инерция организации и путаница в названиях, вызванная параллельной работой нескольких отделов — три проекта мировой модели Alibaba даже заставляют посторонних сомневаться, одно ли это и то же. Но у крупных компаний есть данные, вычислительные мощности, пользователи, автомобили, а также инженерные системы для запуска моделей. Стартапы создают "модели", крупные компании создают "системы".

Самый опасный момент наступает, когда крупные компании превращают мировую модель из "исследовательского проекта" в "бизнес-основу". Большая модель Pangu от Huawei служит ADS и роботам, HY-World от Tencent служит играм и промышленности, DrivingSphere от Li Auto служит итерациям интеллектуального вождения, Kaiwu от SenseTime уже установлена на серийные автомобили, R7 от Momenta уже работает на более чем 900 000 автомобилях —

Это не презентации, а "возможности", входящие в производственную линию продуктов. Для стартапов окно возможностей для мировых моделей сужается, будущая конкуренция быстро сместится от "кто может сделать мировую модель" к "чью мировую модель крупные компании смогут позволить себе использовать и будут использовать эффективно".

V. Мировая модель — не тренд,

а эскалация старой войны

Мировая модель — не новая история.

Это естественный продукт слияния больших языковых моделей, моделей генерации видео, сквозных моделей автономного вождения, моделей VLA для роботов в физическом мире.

То, что крупные компании массово вступают в игру, показывает, что это уже превратилось из "игрушки для технических гиков" в "инфраструктуру индустрии".

Alibaba, Tencent, ByteDance, Huawei, Baidu, Xiaomi, SenseTime строят мост между цифровым и физическим миром; Nio, Li Auto, Xpeng, Geely, BYD, Great Wall протянули "мост" к автомобилям; Momenta, Horizon Robotics, Haomo, DeepRoute прокладывают рельсы под мостом.

Стартапы стоят в конце моста, держа в руках более изящные чертежи, но вынуждены столкнуться с фактом, что крупные компании уже мобилизуют инженерные бригады.

В следующем году ключевым вопросом на треке мировых моделей будет не "кто сделал", а "чья мировая модель действительно понимает мир вместо человека".

Эта статья из публичного аккаунта WeChat: IT桔子 , автор: Judy

Трендовые криптовалюты

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

ZRX（0X）ZRX

Связанные с этим вопросы

QЧто такое "мировая модель" (World Model) в контексте искусственного интеллекта, согласно статье?

AСогласно статье, "мировая модель" (World Model) в ИИ — это способность машины создавать внутреннюю, динамическую симуляцию среды для прогнозирования и анализа *до* реальных действий. Её цель — снизить зависимость от бесконечных реальных данных, сжимая реальный мир в «движок данных», способный бесконечно генерировать сценарии, допускать ошибки и перезапускаться. Это позволяет ИИ не просто распознавать мир, а «проигрывать» его в уме, что критически важно для автономного вождения, робототехники и создания виртуальных сред.

QКак компания Alibaba подходит к разработке мировых моделей и какие проекты она представила?

AAlibaba представила три специализированные мировые модели, охватывающие разные аспекты реальности: 1) **Qwen-AgentWorld** — языковая мировая модель, создающая симуляции различных цифровых сред (например, поиск, терминал, ОС) для тренировки ИИ-агентов. 2) **HappyOyster 1.0** — модель для генерации интерактивных открытых миров на основе текста или изображений, предназначенная для игр, виртуального общения и развлечений. 3) **Qwen-RobotWorld** — «мыслящий мозг» для робототехники, работающий в связке с другими моделями для манипуляций и навигации, позволяющий роботам предварительно проигрывать действия. Таким образом, Alibaba стремится получить определение языкового, виртуального и физического миров одновременно.

QЧем подходы к мировым моделям у интернет-гигантов (например, Tencent, ByteDance) отличаются от подходов автопроизводителей (например, NIO, Li Auto)?

AПодходы кардинально различаются по фокусу и применению: **Интернет-гиганты** (Tencent, ByteDance) концентрируются на **создании миров** для цифровых продуктов. Например, Tencent с **HY-World** фокусируется на генерации 3D-контента для игр, виртуальных съёмок и цифровых двойников, используя свои сильные стороны в игровой и социальной сферах. ByteDance использует данные видео с TikTok для построения «цифровых двойников», симулирующих физические законы. **Автопроизводители** (NIO, Li Auto, XPeng) рассматривают мировые модели как **«автошколу и экзаменационный полигон»** для беспилотного вождения. Их модели (например, NWM у NIO, DrivingSphere у Li Auto, X-World у XPeng) генерируют бесконечные сложные и редкие дорожные сценарии (дождь, снег, нестандартные препятствия), чтобы обучать и тестировать системы автономного вождения в симуляции, прежде чем выпускать их на реальные дороги.

QКакие компании из числа поставщиков решений для автономного вождения разрабатывают мировые модели и как они их используют?

AКлючевые поставщики решений для автономного вождения также активно разрабатывают мировые модели как «невидимые движки»: 1) **Momenta** — выпустила модель **R7**, использующую данные с более 120 млрд км реального пробега для предварительного обучения, симуляции и последующего обучения с подкреплением, интегрируя её непосредственно в сквозные базовые модели для достижения уровня L4. 2) **Horizon Robotics** — представила **HorizonDrive**, модель для генерации длинных последовательностей видео вождения, используемую для замкнутого моделирования и проверки систем L3+. 3) **Haomo.ai** — одна из первых с моделью **DriveGPT («Сюэху Хайжо»)** , которая предсказывает следующий кадр для построения 4D-представления пространства. 4) **DeepRoute (元戎启行)** — интегрирует возможности мировой модели в свою платформу **DeepRoute IO 2.0** и систему моделирования. Эти компании используют мировые модели для создания масштабируемых, безопасных и эффективных симуляционных сред для обучения и тестирования систем автономного вождения.

QСогласно заключению статьи, в чём заключаются основные преимущества и риски для стартапов в области мировых моделей по сравнению с крупными технологическими компаниями?

AСогласно статье, у **стартапов** есть преимущества в **фокусе и скорости**: они могут сконцентрироваться на одной прорывной технологии (например, нативная мировая модель, 3D-генерация) без бюрократических ограничений. Однако их ключевые **риски и недостатки** — нехватка данных, вычислительных мощностей (compute), каналов для массового внедрения и, что самое важное, отсутствие замкнутого цикла реальных сценариев для постоянного «кормления» и улучшения модели. **Крупные компании** (Alibaba, Tencent, автопроизводители) обладают противоположными преимуществами: огромные объёмы данных, вычислительные ресурсы, пользовательская база, инженерная инфраструктура и, в случае с автокомпаниями, миллионы автомобилей на дорогах для сбора данных. Их недостаток — организационная инерция и сложности координации. Главная опасность для стартапов наступает, когда крупные игроки превращают мировую модель из исследовательского проекта в **«базовую инфраструктуру бизнеса»** (например, в системах автономного вождения или игровых движках), интегрированную в продукты. Конкуренция тогда сместится с вопроса «кто создаст модель» на «чью модель будет дешевле и эффективнее использовать крупным компаниям», и временное окно возможностей для стартапов быстро сокращается.

Похожее

Бывший инженер SpaceX применяет принципы первого принципа для переосмысления системы финансового исполнения

Финтех-проект Plan Execution Lab, основанный бывшим инженером SpaceX Lex Li, привлек инвестиции в ходе раунда финансирования, оценив компанию в $50 млн. Команда применяет принцип «первых принципов» из SpaceX к финансовой индустрии, стремясь не просто создать более быструю биржу, а переосмыслить саму основу рынка. По их мнению, ключевая функция финансов — не торговля, а **распределение капитала**, а самым устаревшим звеном является **исполнение**, до сих пор зависящее от ручного человеческого труда. С развитием AI и агентов скорость жизни стратегий резко сокращается. Plan Execution Lab видит будущее в **сетях исполнения (Execution Networks)**, где базовыми единицами являются не цельные стратегии, а модульные компоненты: управление рисками, распределение капитала, доступ к ликвидности и т.д. Для этого компания разрабатывает два продукта: 1. **PlanX** — протокол финансового исполнения, инфраструктура для миграции потоков с централизованных (CEX) на децентрализованные (DEX) рынки. 2. **Xgent** — автономная финансовая среда выполнения, которая превращает инвестиционные намерения пользователя в исполняемый граф действий, автоматически управляя рисками, ликвидностью и оптимизацией. Их долгосрочная цель — создать для эпохи автономных финансов аналог **Bloomberg Terminal**, единую операционную среду, где участники (ноды исполнения, поставщики ликвидности, агенты) совместно строят открытую сеть. Будущее, по мнению Lex Li, принадлежит не отдельным алгоритмам, а тем, кто обладает самой мощной и адаптивной **сетью исполнения**.

marsbit13 мин. назад

Бывший инженер SpaceX применяет принципы первого принципа для переосмысления системы финансового исполнения

marsbit13 мин. назад

Бывший инженер SpaceX использует первый принцип для реструктуризации финансовой системы исполнения

Проект финансовой инфраструктуры Plan Execution Lab, основанный бывшим инженером SpaceX Lex Li, привлек ангельское финансирование с оценкой в $50 млн. Команда применяет принцип первопричин (First Principles) для переосмысления финансовых рынков, ключевая функция которых, по их мнению, — не торговля, а распределение капитала через исполнение (execution). Они отмечают, что, несмотря на цифровизацию активов и расчетов, исполнение остается фрагментированным и зависимым от ручного труда. В эпоху AI и агентов стратегии быстро теряют эффективность, и главной проблемой становится не получение информации, а непрерывное и эффективное исполнение решений. Plan Execution Lab разрабатывает два ключевых продукта: 1. **PlanX** — протокол финансового исполнения, цель которого — стать инфраструктурой для миграции торгового потока с централизованных (CEX) на децентрализованные (DEX) рынки, предоставляя возможности для исполнения, управления рисками, ликвидности и координации расчетов. 2. **Xgent** — автономная финансовая среда выполнения, которая преобразует инвестиционные намерения пользователя в исполняемый граф, автоматически управляя рисками, ликвидностью и оптимизацией. Их долгосрочная цель — создать операционную среду для автономных финансовых агентов, аналогичную Bloomberg Terminal для людей. Будущая финансовая инфраструктура, по их видению, будет представлять собой сеть исполнения, построенную совместно участниками: узлами исполнения, поставщиками ликвидности, поставщиками стратегий и автономными агентами. Конкурентное преимущество смещается с обладания лучшей стратегией на обладание самой мощной сетью исполнения.

链捕手14 мин. назад

Бывший инженер SpaceX использует первый принцип для реструктуризации финансовой системы исполнения

链捕手14 мин. назад

Первый набор данных для обучения Doc2Repo на длинных последовательностях: Code Agent не только исправляет ошибки, но и начинает создавать репозитории

С развитием LLM Code Agent исследователи начинают переходить к более сложным задачам, приближенным к реальным сценариям, таким как генерация целого репозитория кода с нуля. Команда из Института искусственного интеллекта Гаолинь Китайского народного университета представила новый набор данных DeNovoSWE, предназначенный для длительных задач в области программной инженерии, особенно для создания репозиториев на уровне кода. DeNovoSWE использует методологию «Разделяй и властвуй» (Divide & Conquer) и механизм «Критика и исправление» (Critic & Repair) для создания высококачественных данных. Набор содержит 4 818 реальных примеров задач, что предоставляет масштабные данные для обучения Code Agent выполнению длительных операций. Эксперименты показали, что модель Qwen3-30B-A3B-Instruct, обученная на DeNovoSWE, значительно улучшила свои показатели: с 5,8% до 47,2% на BeyondSWE-Doc2Repo и с 4,3% до 23,0% на NL2RepoBench. Ключевая сложность задачи заключается в том, что агент должен воссоздать весь репозиторий, начиная только с документации, в очищенной среде без исходного кода, тестов и потенциальных утечек. Это требует навыков планирования архитектуры, создания модулей, определения API и обработки зависимостей. DeNovoSWE структурирует документацию по ключевым возможностям (capabilities) репозитория, обеспечивая ясность, полноту и соответствие критериям оценки. Результаты подтверждают, что данные, ориентированные на длительные задачи генерации репозиториев, более эффективны для развития соответствующих способностей Code Agent по сравнению с данными, сфокусированными только на исправлении ошибок. DeNovoSWE закладывает основу для следующего этапа развития код-агентов, способных понимать требования, планировать и создавать целые рабочие программные проекты.

marsbit30 мин. назад

Первый набор данных для обучения Doc2Repo на длинных последовательностях: Code Agent не только исправляет ошибки, но и начинает создавать репозитории

marsbit30 мин. назад

Вектор Альткойнов #60

Краткий обзор: для доступа к полной версии статьи №60 "The Altcoin Vector" необходима подписка. Уже являетесь подписчиком? Войдите в систему, чтобы продолжить чтение.

insights.glassnode31 мин. назад

insights.glassnode31 мин. назад

Даже CZ похвалил Hyperliquid как 'отличный', но его главное преимущество может быть и главным риском

Автор статьи анализирует комментарии основателя Binance Чанпэна Чжао (CZ) о децентрализованной бирже деривативов Hyperliquid. CZ назвал продукт "отличным", но отметил, что Binance не может конкурировать в её нише из-за её модели "без KYC и с нарративом децентрализации", так как сам не стал бы управлять таким бизнесом из-за рисков. Ключевой тезис: главное конкурентное преимущество Hyperliquid — доступ к торговле без строгой проверки личности (KYC) и с меньшими барьерами — одновременно является её главным регуляторным риском. Платформа работает в иной правовой плоскости, чем регулируемые биржи, такие как Binance. Статья подчеркивает, что регулируемые площадки (например, CME, Cboe) могут улучшать свои продукты, сокращая технологический разрыв, но не могут и не хотят отказываться от KYC и соответствия глобальным нормам. Таким образом, дифференциация Hyperliquid всё больше концентрируется именно на модели доступа, что привлекает пользователей, но и делает её главной мишенью для регуляторов. В качестве примера реального риска приводится предупреждение британского регулятора FCA против Hyperliquid за возможную работу без лицензии. Также упоминается судебный прецедент в США (дело CFTC против bZeroX/Ooki DAO), где регуляторы преследовали децентрализованные структуры за предложение деривативов. Вывод: будущее Hyperliquid зависит от того, сможет ли её "ров" — преимущество в виде лёгкого доступа — устоять под растущим давлением регулирования, особенно если регулируемый рынок предложит схожие продукты. Слова CZ чётко обозначили эту дилемму: то, что Binance не может скопировать, является и самым уязвимым местом Hyperliquid.

marsbit48 мин. назад

Даже CZ похвалил Hyperliquid как 'отличный', но его главное преимущество может быть и главным риском

marsbit48 мин. назад

Торговля

Спот

Фьючерсы

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на WAR (WAR) представлены ниже.