Автор: Ли Фэйфэй
Компиляция: Цзя Ян
«Мировая модель» — возможно, самый популярный и самый запутанный концепт в области ИИ с 2025 года. Когда вышел Sora, OpenAI назвал его симулятором мира; Genie, позволяющий ходить по сгенерированным сценам, тоже называют мировой моделью; робототехнические компании говорят, что создают мировые модели, NVIDIA называет Omniverse инфраструктурой для мировых моделей, даже игровые движки втянуты в эту нарративу. Все используют одно и то же слово, но подразумевают совершенно разные вещи.
Сегодня Ли Фэйфэй опубликовала новую статью в своем Substack, чтобы прояснить эту концепцию. Она начинает с классической диаграммы из учебников по обучению с подкреплением (замкнутый цикл POMDP: агент → действие → состояние → наблюдение → агент), а затем указывает: то, что сейчас называют «мировыми моделями», на самом деле является тремя разными проекциями этого цикла. То, что выводит пиксели (наблюдения) — это рендерер, что выводит состояния — симулятор, что выводит действия — планировщик. Критерий классификации очень прост — смотрите, какую часть цикла выводит модель.

(Источник: MIT Technology Review)
Она считает, что из трех рендерер наиболее коммерчески зрелый, но имеет ограничения (красивый вид не означает физическую корректность), планировщик наиболее увлекателен, но дальше всего от реального развертывания (разрыв между лабораторной демонстрацией и практической применимостью все еще огромен), а симулятор — это недооцененный ключевой хаб. Потому что симулятор работает на уровне геометрии, физики и динамики, он может как проецироваться вверх в пиксели для потребления человеком, так и выводить последствия действий вниз для использования роботами. Тот, кто овладеет симуляцией, одновременно получает основу для рендеринга и планирования; обратное неверно.
Эта статья, конечно же, также является манифестом продукта World Labs. Их Marble уже одновременно выводит гауссовские сплаты и коллизионные сетки, пытаясь объединить рендерер и симулятор в одной модели. В конце статьи описывается конечная цель — единая фундаментальная модель мира, способная свободно переключаться между рендерингом, симуляцией и планированием в зависимости от потребностей. Реализуема ли эта мечта — другой вопрос, но как аналитическая структура тройственная классификация на рендерер/симулятор/планировщик действительно может помочь проникнуть сквозь часть шума, окружающего сегодняшнее понятие «мировая модель».
Полный перевод статьи приведен ниже.
«Мир есть совокупность фактов». — Людвиг Витгенштейн, «Логико-философский трактат», 1921
Мир не состоит из слов.
В более ранней статье мы предположили, что пространственный интеллект — это следующий рубеж ИИ, а мировая модель — путь к нему. Здесь команда World Labs и я хотим углубиться еще на один уровень: среди множества вещей, которые сегодня носят название «мировая модель», какие функциональные модули действительно составляют эту способность? И для чего предназначен каждый из них?
Языковые модели дали машинам мощный контроль над концепциями, словами и рассуждениями, но физический мир, будь то виртуальный или реальный, работает на совершенно другой основе. Языковые модели изучают статистическую структуру текста, мировые модели изучают статистическую структуру пространства и времени: как свет падает на поверхность, как выглядит сад с ракурса, который никогда не захватывала камера, как объекты реагируют на силу и следуют законам физики.
Это делает «мировую модель» самым важным и одновременно самым злоупотребляемым термином в современной области ИИ. Компьютерное зрение, робототехника, обучение с подкреплением и генеративный ИИ — все заявляют о создании мировых моделей, но подразумевают совершенно разные вещи. Модель видео, генерирующая великолепное, но физически невозможное пламя, языковая модель, импровизирующая играбельную игру, физический движок, точно моделирующий процесс горения, — все они носят одно и то же имя.
Древние греки никогда не могли договориться, из чего состоит мир — из огня, воды или неделимых атомов, — потому что «мир» никогда не был чем-то единым. Это всегда был термин, который мыслитель использовал для рассуждений о некой целостности. ИИ унаследовал ту же проблему, и это происходит именно в тот момент, когда область больше всего нуждается в точности.
Замкнутый цикл, лежащий в основе таксономии
Чтобы разобраться в этой путанице, можно начать с диаграммы, которая старше всех упомянутых технологий. Все учебники по обучению с подкреплением, включая классический Сэттона и Барто, десятилетиями используют вариации одной и той же диаграммы для описания того, как агент взаимодействует с миром. Формальное название этой диаграммы — частично наблюдаемый марковский процесс принятия решений (POMDP), и первоначальное определение термина «мировая модель» принадлежит именно этой традиции.
Агент (это может быть человек, робот или программная система) выполняет действие. Эти действия меняют состояние мира. Но агент никогда не видит само состояние напрямую, он получает наблюдение: фотоны, попадающие на сетчатку, показания датчиков, пиксели в кадре видео. Новые наблюдения ведут к новым действиям, и цикл повторяется.
Слово «состояние» нужно рассмотреть подробнее, потому что в разных областях его значение смещается. Речь не о состоянии химика — не о различиях между твердым, жидким и газообразным состоянием. Здесь речь о состоянии физика и робототехника: полное описание всего, что происходит в мире в данный момент, включая каждый объект, каждое положение, каждую скорость, каждое свойство. Состояние — это лежащая в основе реальность мира, в принципе полная, но принципиально недоступная для прямого наблюдения любым находящимся в ней агентом. Наблюдение — это локальный взгляд агента на эту реальность. Действие — это ответ агента на это.
Именно этот замкнутый цикл (агент → действие → состояние → наблюдение → агент) — это структура, которая придает термину «мировая модель» его техническое значение. Сама фраза еще старше, она восходит к предложению Кеннета Крейка 1943 года о том, что разум рассуждает, запуская «модели реальности в малом масштабе», а к концу 1980-х — началу 1990-х годов эта концепция была введена в область нейронных сетей. Этот же цикл объясняет, что люди подразумевают сегодня, используя этот термин. Различные вещи, которые сейчас называются мировыми моделями, на самом деле являются разными проекциями одного и того же замкнутого цикла, каждая из которых выводит разные компоненты цикла.
Три функции мировых моделей
Первый тип мировой модели — это рендерер. Рендерер выводит наблюдения, конкретно — пиксели для человеческого глаза, и ключевым показателем качества является визуальная достоверность. Видеомодель, превращающая текстовый промпт в кинематографичные кадры с воздуха, — это рендерер; такие интерактивные системы, как Genie 3 от Google или наш собственный RTFM от World Labs, которые генерируют кадры в реальном времени в ответ на ввод пользователя, тоже рендереры. У таких моделей нет явного понимания трехмерной структуры. Они генерируют то, что увидит зритель, а не то, как выглядят вещи сами по себе. Здание на аэрофотоснимке может выглядеть безупречно с воздуха, но попробуйте пройтись по улицам города под ним — и оно рухнет.
Второй тип — симулятор. Симулятор выводит состояние: представление мира, верное в геометрическом, физическом или динамическом смысле, на котором могут вычислять и взаимодействовать и люди, и компьютерные программы. Договор рендерера чисто визуален, а договор симулятора структурен — он требует, чтобы геометрия выдерживала проверку, физика следовала законам Ньютона, а динамика вела себя в соответствии с ожиданиями от физических законов. Симулятор служит двум типам пользователей. Профессионалам, таким как архитекторы, дизайнеры, кинематографисты, разработчики игр, нужна точность, выходящая за рамки визуальной правдоподобности. Компьютерные программы, такие как агенты обучения с подкреплением, контроллеры роботов, беспилотные автомобили, используют симулятор как тренировочную площадку, где они могут массово взаимодействовать с миром, тестируя сценарии, которые в реальности были бы опасны, дороги или просто невозможны.
Третий тип — планировщик. Планировщик выводит действия. Получив наблюдение и цель, планировщик отвечает на вопрос: что агенту делать дальше. Во многих смыслах планировщик — это обратный процесс рендереру. Рендерер принимает действия на вход и выдает наблюдения, планировщик принимает наблюдения на вход и выдает действия, замыкая таким образом петлю восприятия-действия. Модели «видение-язык-действие» (VLA), основанные на моделях системы и новая волна моделей действий в мире (World Action Models) — все это попытки создать планировщик: систему, способную решать, что должен делать робот в неструктурированном мире.
Эти три категории охватывают большую часть работ, которые сегодня реально реализуются, и различие между ними полезно на практике. Но эти три категории не являются фундаментально отдельными друг от друга. Они разделяют одно и то же базовое знание о том, как устроен мир: геометрию, физику, динамику. Модель, которая может отрендерить чашку с любого угла, в принципе должна также уметь симулировать, что произойдет, если ее подтолкнуть, и спланировать, как рука должна ее поднять. Все больше самых интересных исследований намеренно стирают границы между этими тремя.

Рис. | Три типа мировых моделей (Источник: Substack)
Почему симуляция — ключевой хаб
Из трех категорий симулятор получает меньше всего публичного внимания, но является самым важным. Эта статья пытается исправить эту асимметрию.
Рендерер на сегодняшний день наиболее коммерциализирован. Множество продуктов для генерации изображений или видео из текста быстро расширяются на потребительском и корпоративном рынках. Модель Nano Banana от Google довела возможности рендеринга до, возможно, сотен миллионов пользователей. Технология реальна, рынок тоже реален. Однако рендереры оптимизированы под визуальную правдоподобность, а не под физическую точность, и этот потолок важен. Их вывод красив, но вы не можете использовать его для проектирования здания или обучения робота.
Планировщик самый захватывающий и самый незрелый, он тесно связан с быстро развивающейся областью обучения роботов. За последние два года эта область произвела немало впечатляющих на видео демонстраций роботов, но нам нужно честно взглянуть на то, что именно эти демонстрации показывают. Почти все они ограничены строго контролируемой лабораторной средой, ограниченным набором объектов и короткой продолжительностью задач. Ни одна из них не подвергалась проверке на сложность, разнообразие и продолжительность, требуемые для реального развертывания. Пропасть между впечатляющим демо-роликом и роботом, надежно работающим на кухне, складе или в операционной, по-прежнему огромна.
Тем не менее, объем коммерческих ставок по-прежнему значителен. Новая волна хорошо финансируемых новичков спешит выпустить универсальные системы планирования, а крупные инфраструктурные игроки строят возможности планирования поверх более широких симуляционных стеков.
Симуляция — это мост, соединяющий оба направления. Если язык — это абстракция мира, а пиксели — его проекция, то геометрия, физика и динамика — это сам мир. Симулятор должен работать на этом уровне: это структурный скелет, из которого можно вывести как визуальное представление (для рендерера), так и последствия действий (для планировщика).
Модель, овладевшая симуляцией, может проецировать свое понимание как в пиксели для потребления человеком, так и в прогнозы действий для воплощенного агента. А модель, овладевшая только рендерингом или только планированием, не может сделать ни того, ни другого. Коммерческое пространство здесь чрезвычайно широко. Только один Omniverse от NVIDIA, по оценкам компании, имеет общий доступный рынок (TAM) более триллиона долларов, охватывая фабрики, склады, цепочки поставок и цифровые двойники. Обучение роботов, тестирование автономного вождения, визуализация архитектуры, инженерное проектирование, открытие лекарств — все зависит от какой-либо формы симуляции.
Самые сложные открытые вопросы в этой области также сосредоточены здесь. Трехмерные данные с явной геометрией, свойствами материалов и физическими аннотациями на несколько порядков дефицитнее, чем интернет-видео, используемое для обучения рендереров. Разрыв sim-to-real (разница между поведением объектов в симуляции и в реальном мире) все еще существует. Генеративные симуляторы добавляют к этому новые риски: сгенерированные ИИ геометрии могут выглядеть правильно, но фактически содержать самопересечения или ошибки масштаба, приводящие к абсурдным результатам физического моделирования. Вычислительная стоимость крупномасштабной многодоменной симуляции (взаимодействие твердых тел, деформируемых объектов, жидкостей, тканей одновременно) по-прежнему на порядки выше, чем симуляции в одной области.
В World Labs Marble — это наш первый шаг в этом направлении. Он принимает мультимодальный ввод (текст, изображения, видео или пространственные эскизы), генерирует исследуемые 3D-окружения и одновременно выводит гауссовские сплаты для визуального исследования и коллизионные сетки для работы физического движка. Но Marble — это только первая глава долгой истории. По мере того, как границы между рендерингом, симуляцией и планированием начинают стираться, вся область пишет эту историю.
Границы стираются, и что будет дальше
Самая важная тенденция в этой области сегодня — начало слияния трех категорий. Лежащий в основе консенсус таков: знания, необходимые для рендеринга мира, его симуляции и действий в нем, в значительной степени одни и те же. Продолжая предыдущий пример, модель, которая действительно понимает, как чашка стоит на столе (ее геометрию, свойства материала, реакцию на силу и т.д.), должна уметь отрендерить эту чашку с любого угла, смоделировать, что произойдет, если ее подтолкнуть, и спланировать, как рука должна ее поднять. Три категории — это три проекции одного и того же базового понимания.
Например, в последнее время появилось немногочисленное, но растущее количество работ из разных лабораторий робототехники, демонстрирующих по крайней мере концептуальную возможность того, что предобученный видеорендерер может служить базовой сетью для совместного прогнозирования мира и действий, позволяя одной модели одновременно представлять «что произойдет» и «что делать», создавая таким образом мост между рендерером и планировщиком. Marble от World Labs уже может выводить из одной модели одновременно и гауссовские сплаты, и коллизионные сетки, стирая границу между рендерером и симулятором. На каждом уровне происходит переход от пассивного вывода к интерактивным системам: рендереры становятся отзывчивыми к условиям действий, симуляторы генерируют миры, которые становятся более управляемыми и редактируемыми, планировщики начинают осуществлять обдуманные рассуждения, а не просто реагировать.
Логическим завершением является единая мировая модель: фундаментальная модель, способная рендерить фотореалистичные виды, генерировать физически точные структуры, планировать последовательности действий и переключаться между различными выходными модальностями в зависимости от потребностей конечного пользователя. Нас по-прежнему ждет ряд серьезных проблем. Ландшафт данных крайне неравномерен: рендереры имеют доступ к огромному количеству интернет-видео, а симуляторы и планировщики сталкиваются с острым дефицитом 3D-активов и демонстрационных данных для роботов. Оптимизация под визуальную эстетику может пожертвовать точностью, необходимой для робототехники или высокоточной симуляции. Примирение этих противоречий в рамках единой архитектуры является центральной открытой проблемой современных исследований мировых моделей, и именно над ее решением работает World Labs в процессе развития Marble.

(Источник: Substack)
Но общее направление уже ясно. С конца 1980-х годов и по сей день эта область делает одну и ту же ставку: если мировая модель достаточно богата, в ней будет все, что нужно агенту, чтобы видеть мир, строить его и действовать в нем. Эта ставка сегодня движет исследованиями целого поколения. И то, что действительно придает ей вес, — это уже происходящее слияние: три линии — рендеринг, симуляция, планирование — каждая уже сама по себе поддерживает многомиллиардные индустрии, они начинались как независимые направления исследований, а теперь начинают сливаться. Когда границы исчезнут, слияние этих трех направлений переопределит нечто большее: отношения между машинным интеллектом и физическим миром, в котором он обитает, то есть долгосрочную траекторию пространственного интеллекта.
Язык дал машинам способ говорить об этом мире. Мировые модели — это путь, благодаря которому машины в конечном итоге смогут понимать, представлять, рассуждать и взаимодействовать с ним.
Источники: 1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models





