Автор: Ли Фэйфэй
Перевод: Цзя Ян
«Модель мира» — пожалуй, самый горячий и запутанный концепт в области ИИ с 2025 года. Когда вышел Sora, OpenAI назвал его симулятором мира; Genie, который позволяет ходить по сгенерированным сценам, тоже называют моделью мира; робототехнические компании говорят, что создают модели мира, NVIDIA заявляет, что Omniverse — это инфраструктура для моделей мира, даже игровые движки вовлечены в эту нарратив. Все используют одно и то же слово, но говорят о совершенно разных вещах.
Сегодня Ли Фэйфэй опубликовала новую статью в своём Substack, проясняя этот концепт. Она сначала возвращается к классической диаграмме из учебников по обучению с подкреплением (цикл POMDP: агент → действие → состояние → наблюдение → агент), а затем указывает: то, что сейчас называется «моделью мира», на самом деле является тремя разными проекциями этого цикла. То, что выводит пиксели (наблюдение) — это рендерер; то, что выводит состояние — это симулятор; то, что выводит действие — это планировщик. Критерий классификации очень прост: смотри, что именно выводит модель из этого цикла.

(Источник: MIT Technology Review)
Она полагает, что из трёх, рендерер — наиболее коммерчески зрелый, но имеет потолок (красивый вид не означает физическую корректность); планировщик — самый захватывающий, но наиболее далёк от реального развёртывания (пропасть между лабораторной демонстрацией и практической пригодностью по-прежнему огромна); а симулятор — ключевой хаб, который серьёзно недооценён. Потому что симулятор работает на уровне геометрии, физики и динамики: он может как проецироваться вверх в пиксели для восприятия человеком, так и выводить последствия действий для использования роботами. Обладая симуляцией, ты одновременно получаешь основу и для рендеринга, и для планирования; обратное невозможно.
Эта статья, конечно же, также является продуктовым манифестом World Labs. Их Marble уже одновременно выводит гауссовы сплаты и сетки столкновений, пытаясь объединить рендерер и симулятор в одной модели. В конце статьи описывается конечная цель — единая фундаментальная модель мира, способная свободно переключаться между рендерингом, симуляцией и планированием в зависимости от потребностей. Реализуема ли эта цель — другой вопрос, но как аналитическая структура, трёхчастная классификация рендерер/симулятор/планировщик действительно может помочь пробиться сквозь часть шума, окружающего текущее понятие «модели мира».
Полный перевод статьи приведён ниже.
«Мир есть совокупность фактов, а не вещей.» — Витгенштейн, «Логико-философский трактат», 1921
Мир не состоит из слов.
В более ранней статье мы выдвинули идею, что пространственный интеллект — это следующий рубеж ИИ, а модель мира — путь к нему. Здесь команда World Labs и я хотим углубиться ещё на один уровень: среди множества вещей, которые сегодня носят название «модель мира», какие функциональные модули действительно составляют эту способность? И для чего они предназначены?
Языковые модели дали машинам мощный контроль над концепциями, лексикой и рассуждениями, но физический мир, будь то виртуальный или реальный, работает на совершенно ином фундаменте. Языковые модели изучают статистическую структуру текста, модели мира изучают статистическую структуру пространства и времени: как свет падает на поверхность, как выглядит сад под углом, который никогда не фиксировала камера, как объекты реагируют на силу и следуют законам физики.
Это делает «модель мира» одним из самых важных и одновременно наиболее злоупотребляемых терминов в современной сфере ИИ. Компьютерное зрение, робототехника, обучение с подкреплением и генеративный ИИ — все заявляют о создании моделей мира, но подразумевают под этим совершенно разные вещи. Видеомодель, генерирующая эффектное, но физически невозможное пламя, языковая модель, импровизирующая играбельную игру, физический движок, достоверно симулирующий процесс горения, — всех их называют одним и тем же именем.
Древние греки никогда не могли прийти к согласию о том, из чего состоит мир — из огня, воды или неделимых атомов, потому что «мир» никогда не был единой вещью. Это всегда было заменяющим понятием, используемым каким-то мыслителем для рассуждений о целостности. ИИ унаследовал ту же проблему, и это как раз происходит в тот момент, когда область остро нуждается в точности.
Замкнутый цикл за таксономией
Чтобы прояснить этот хаос, можно начать с диаграммы, которая старше всех упомянутых технологий. Все учебники по обучению с подкреплением, включая классический Съютона и Барто, десятилетиями используют вариации одной и той же схемы для описания взаимодействия агента с миром. Формальное название этой диаграммы — частично наблюдаемый марковский процесс принятия решений (POMDP), и именно в этой традиции первоначально определялся термин «модель мира».
Агент (человек, робот или программная система) совершает действие. Эти действия изменяют состояние мира. Но агент никогда не может непосредственно видеть само состояние; то, что он получает, — это наблюдение: фотоны, падающие на сетчатку, показания датчиков, пиксели в кадре видео. Новое наблюдение направляет новое действие, и так по кругу.
Термин «состояние» нужно разобрать, потому что в разных областях его значение смещается. Речь здесь не о состоянии химика — о различии между твёрдым, жидким и газообразным состоянием. Это состояние физика и робототехника: полное описание всего, что происходит в мире в данный момент, включая каждый объект, каждую позицию, каждую скорость, каждое свойство. Состояние — это фундаментальная реальность мира, в принципе полная, но всегда недоступная для прямого наблюдения любому агенту, находящемуся внутри. Наблюдение — это локальный взгляд агента на эту реальность. Действие — это ответ агента на его основе.
Именно этот замкнутый цикл (агент → действие → состояние → наблюдение → агент) придаёт термину «модель мира» его техническое значение. Сама фраза гораздо старше, восходя к предложению Кеннета Крейка 1943 года о том, что разум рассуждает, запуская «масштабные модели» реальности, а к концу 1980-х и началу 1990-х годов этот концепт был перенесён в область нейронных сетей. Этот же цикл объясняет то, что люди подразумевают сегодня, используя этот термин. То, что сейчас называют моделями мира, — это, по сути, разные проекции одного и того же цикла, каждая из которых выводит разные части цикла.
Три функции моделей мира
Первый тип модели мира — это рендерер. Рендерер выводит наблюдения, в частности, пиксели для человеческого глаза, и ключевой показатель качества — визуальная точность. Видеомодель, превращающая текстовый промпт в кинематографичные кадры с высоты, — это рендерер; интерактивные системы, такие как Genie 3 от Google или собственный RTFM от World Labs, тоже рендереры — они генерируют кадры в реальном времени в ответ на ввод пользователя. Такие модели не обладают явным пониманием трёхмерной структуры. Они генерируют то, что увидит зритель, а не то, как всё выглядит на самом деле. Здания на аэрофотоснимке могут выглядеть идеально с высоты, но попробуйте пройтись по улицам города под ними, и они развалятся.
Второй тип — симулятор. Симулятор выводит состояние: представление мира, точное с точки зрения геометрии, физики или динамики, с которым могут взаимодействовать и на котором могут производить вычисления как люди, так и компьютерные программы. Обязательство рендерера — чисто визуальное, обязательство симулятора — структурное: оно требует, чтобы геометрия была проверяемой, физика следовала законам Ньютона, а динамика вела себя в соответствии с предсказаниями физических законов. Симулятор обслуживает две группы пользователей. Архитекторам, дизайнерам, кинематографистам, разработчикам игр и другим профессионалам нужна точность, выходящая за рамки визуальной правдоподобности. Компьютерные программы, такие как агенты обучения с подкреплением, контроллеры роботов, автономные транспортные средства, используют симулятор как тренировочную площадку для массового взаимодействия с миром, тестируя сценарии, которые в реальности были бы либо опасны, либо дороги, либо вообще невозможны.
Третий тип — планировщик. Планировщик выводит действия. Имея наблюдение и цель, планировщик отвечает на вопрос: что агенту делать дальше. Во многих смыслах планировщик является обратным процессом рендереру. Рендерер принимает действия на вход и выдаёт наблюдения, планировщик принимает наблюдения на вход и выдаёт действия, замыкая таким образом петлю восприятие-действие. Модели «визуальный-языковой-действие» (VLA), модели, основанные на моделях, и новая волна моделей действий в мире (World Action Models) — всё это разные попытки создать планировщик: систему, способную решать, что должен делать робот в неструктурированном мире.
Вышеперечисленные три категории охватывают большую часть работы, которая фактически внедряется сегодня, и их различие полезно на практике. Но эти три категории не являются фундаментально отдельными друг от друга. Они разделяют одни и те же базовые знания о том, как устроен мир: геометрию, физику, динамику. Модель, способная отрендерить чашку с любого угла, в принципе должна также уметь симулировать, что произойдёт, если её толкнуть, и спланировать, как рука может её поднять. Всё больше самых интересных исследований намеренно стирают границы между ними.

Рис. | Три типа моделей мира (Источник: Substack)
Почему симуляция — ключевой хаб
Из трёх категорий симулятор получает наименьшее публичное внимание, но является самым важным. Эта статья призвана исправить эту асимметрию.
Рендерер — на сегодня наиболее коммерчески развитая категория. Множество продуктов для генерации изображений или видео из текста быстро распространяются на потребительском и корпоративном рынках. Модель Nano Banana от Google доводит возможности рендерер-уровня до, возможно, сотен миллионов пользователей. Технология реальна, рынок реальный. Однако рендерер оптимизируется под визуальную правдоподобность, а не под физическую точность, и этот потолок важен. Их результат красив, но его нельзя использовать для проектирования здания или обучения робота.
Планировщик — самый захватывающий и наименее зрелый, он тесно связан с быстро развивающейся областью обучения роботов. За последние два года в этой области появился ряд впечатляющих на видео демонстраций роботов, но нужно честно признать, что же на самом деле показывают эти демо. Почти все они ограничены узкими лабораторными условиями, ограниченным набором объектов и короткой продолжительностью задач. Ни одна из них не была проверена на сложность, разнообразие и продолжительность, требуемые для развёртывания в реальном мире. Пропасть между эффектным демо-видео и роботом, способным надёжно работать на кухне, на складе или в операционной, по-прежнему огромна.
Тем не менее, объёмы коммерческих ставок по-прежнему значительны. Волна хорошо финансируемых новых игроков стремится выпустить системы общего планирования, в то время как крупные инфраструктурные игроки строят возможности планирования на основе более широких стеков симуляции.
Симуляция — это мост, соединяющий их. Если язык — это абстракция мира, а пиксели — его проекция, то геометрия, физика и динамика — это сам мир. Симулятор должен работать на этом уровне: это структурный каркас, из которого могут быть выведены и визуальное представление (для рендерера), и последствия действий (для планировщика).
Модель, овладевшая симуляцией, может проецировать своё понимание как в пиксели для потребления человеком, так и в прогнозы действий для воплощённого агента. Модель, овладевшая только рендерингом или только планированием, не способна ни на то, ни на другое. Коммерческое пространство здесь чрезвычайно широко. Только одна платформа Omniverse от NVIDIA, согласно оценкам самой компании, нацелена на рынок объёмом более триллиона долларов, охватывающий фабрики, склады, цепочки поставок и цифровых двойников. Обучение роботов, тестирование автономного вождения, визуализация архитектуры, инженерное проектирование, разработка лекарств — всё зависит от той или иной формы симуляции.
Самые трудные открытые вопросы в этой области также сосредоточены здесь. Трёхмерные данные с явной геометрией, свойствами материалов и физическими аннотациями на несколько порядков менее распространены, чем интернет-видео, используемые для обучения рендереров. Пропасть «sim-to-real» (разница между поведением объектов в симуляции и в реальном мире) всё ещё существует. Генеративные симуляторы добавляют к этому новые риски: сгенерированные ИИ геометрии могут выглядеть правильно, но фактически содержать самопересечения или ошибки масштаба, ведущие к абсурдным результатам физической симуляции. Вычислительная стоимость крупномасштабной многодоменной симуляции (жесткие тела, деформируемые объекты, жидкости, ткани, взаимодействующие одновременно) по-прежнему на порядки выше, чем симуляции в одной области.
В World Labs Marble — наш первый шаг в этом направлении. Он принимает мультимодальный ввод (текст, изображение, видео или пространственный набросок), генерирует исследуемые 3D-среды и одновременно выводит гауссовы сплаты для визуального исследования и сетки столкновений для операций физического движка. Но Marble — лишь первая глава долгой истории. По мере того, как границы между рендерингом, симуляцией и планированием начинают стираться, вся область пишет эту историю.
Границы стираются и что произойдёт дальше
Важнейшая тенденция в этой области сегодня заключается в том, что три категории начинают сливаться. Лежащее в основе понимание таково: знания, необходимые для рендеринга мира, его симуляции и действий в нём, в значительной степени одинаковы. Продолжая предыдущий пример, модель, которая действительно понимает, как чашка стоит на столе (её геометрию, свойства материала, реакцию на силу и т.д.), должна уметь отрендерить эту чашку с любого угла, симулировать, что произойдёт, если её толкнуть, и спланировать, как рука может её поднять. Три категории — это три проекции одного и того же базового понимания.
Например, в последнее время появляется немногочисленная, но растущая работа из различных робототехнических лабораторий, демонстрирующая, по крайней мере концептуально, возможность того, что предварительно обученный видеорендерер может служить в качестве основы для совместного прогнозирования мира и действий, позволяя одной модели одновременно представлять «что произойдёт» и «что нужно делать», тем самым создавая мост между рендерером и планировщиком. Marble от World Labs уже может одновременно выводить гауссовы сплаты и сетки столкновений из одной модели, стирая границу между рендерером и симулятором. На каждом уровне происходит переход от пассивного вывода к интерактивным системам: рендереры начинают реагировать на условия действий, симуляторы генерируют более контролируемые и редактируемые миры, планировщики начинают продумывать действия, а не просто реагировать.
Логическим завершением является унифицированная модель мира: фундаментальная модель, способная рендерить фотореалистичные виды, генерировать физически точные структуры, планировать последовательности действий и переключаться между выходными модальностями в зависимости от потребностей конечного пользователя. Перед нами по-прежнему остаётся ряд серьёзных проблем. Ситуация с данными крайне неравномерна: у рендереров есть огромные объёмы интернет-видео, тогда как симуляторы и планировщики сталкиваются с серьёзным дефицитом 3D-ассетов и данных демонстраций роботов. Оптимизация под визуальную эстетику может идти в ущерб точности, необходимой для робототехники или высокоточной симуляции. Примирение этих противоречий в единой архитектуре — ключевая открытая проблема современных исследований моделей мира, и именно над её решением World Labs продолжает работать, развивая Marble.

(Источник: Substack)
Но общее направление уже ясно. С конца 1980-х годов и до сегодняшнего дня эта область всегда делала одну и ту же ставку: если модель мира будет достаточно богата, в ней будет содержаться всё, что нужно агенту, чтобы видеть мир, строить его и действовать в нём. Эта ставка сейчас движет исследованием целого поколения. А то, что придаёт ей вес, — это уже происходящее слияние: три линии — рендеринг, симуляция, планирование — каждая из которых уже сама по себе поддерживает индустрию стоимостью в миллиарды долларов, начинались как независимые направления исследований, а теперь сходятся вместе. Когда границы исчезнут, их объединение переопределит нечто большее: отношение машинного интеллекта к физическому миру, в котором он существует, то есть долгосрочное направление пространственного интеллекта.
Язык дал машинам способ говорить об этом мире. Модель мира — это то, посредством чего машины в конечном итоге смогут понять, представить, осмыслить и взаимодействовать с ним.
Ссылки: 1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models








