Ли Фэйфэй в новой статье: когда создание видео, робототехника и NVIDIA объявляют себя мировыми моделями, нам нужна таксономия

marsbitОпубликовано 2026-07-05Обновлено 2026-07-05

Введение

В статье Ли Фэйфэй предлагается классификация «моделей мира» в ИИ на три функциональных типа: рендереры, симуляторы и планировщики. Рендереры генерируют визуальные наблюдения (пиксели), ориентированные на человека, но без учёта физики. Симуляторы выводят состояния мира — геометрические и физически точные представления, пригодные для вычислений и тренировки роботов. Планировщики определяют действия агента на основе наблюдений и целей. Автор утверждает, что симулятор является ключевым звеном, так как работает на уровне геометрии и физики — фундаментальной реальности мира. На его основе можно строить как рендереры, так и планировщики. Хотя рендереры наиболее коммерциализированы, а планировщики наиболее амбициозны, именно симуляторы обеспечивают структурную точность, необходимую для серьёзных приложений. В статье отмечается тенденция к слиянию этих трёх категорий в единые модели, способные переключаться между режимами рендеринга, симуляции и планирования. Это направление, развиваемое в том числе в World Labs (проект Marble), рассматривается как путь к созданию машин, которые не просто обрабатывают язык, но и понимают, представляют и взаимодействуют с физическим миром.

Автор: Ли Фэйфэй

Компиляция: Цзя Ян

«Мировая модель» — возможно, самый популярный и самый запутанный концепт в области ИИ с 2025 года. Когда вышел Sora, OpenAI назвал его симулятором мира; Genie, позволяющий ходить по сгенерированным сценам, тоже называют мировой моделью; робототехнические компании говорят, что создают мировые модели, NVIDIA называет Omniverse инфраструктурой для мировых моделей, даже игровые движки втянуты в эту нарративу. Все используют одно и то же слово, но подразумевают совершенно разные вещи.

Сегодня Ли Фэйфэй опубликовала новую статью в своем Substack, чтобы прояснить эту концепцию. Она начинает с классической диаграммы из учебников по обучению с подкреплением (замкнутый цикл POMDP: агент → действие → состояние → наблюдение → агент), а затем указывает: то, что сейчас называют «мировыми моделями», на самом деле является тремя разными проекциями этого цикла. То, что выводит пиксели (наблюдения) — это рендерер, что выводит состояния — симулятор, что выводит действия — планировщик. Критерий классификации очень прост — смотрите, какую часть цикла выводит модель.

(Источник: MIT Technology Review)

Она считает, что из трех рендерер наиболее коммерчески зрелый, но имеет ограничения (красивый вид не означает физическую корректность), планировщик наиболее увлекателен, но дальше всего от реального развертывания (разрыв между лабораторной демонстрацией и практической применимостью все еще огромен), а симулятор — это недооцененный ключевой хаб. Потому что симулятор работает на уровне геометрии, физики и динамики, он может как проецироваться вверх в пиксели для потребления человеком, так и выводить последствия действий вниз для использования роботами. Тот, кто овладеет симуляцией, одновременно получает основу для рендеринга и планирования; обратное неверно.

Эта статья, конечно же, также является манифестом продукта World Labs. Их Marble уже одновременно выводит гауссовские сплаты и коллизионные сетки, пытаясь объединить рендерер и симулятор в одной модели. В конце статьи описывается конечная цель — единая фундаментальная модель мира, способная свободно переключаться между рендерингом, симуляцией и планированием в зависимости от потребностей. Реализуема ли эта мечта — другой вопрос, но как аналитическая структура тройственная классификация на рендерер/симулятор/планировщик действительно может помочь проникнуть сквозь часть шума, окружающего сегодняшнее понятие «мировая модель».

Полный перевод статьи приведен ниже.

«Мир есть совокупность фактов». — Людвиг Витгенштейн, «Логико-философский трактат», 1921

Мир не состоит из слов.

В более ранней статье мы предположили, что пространственный интеллект — это следующий рубеж ИИ, а мировая модель — путь к нему. Здесь команда World Labs и я хотим углубиться еще на один уровень: среди множества вещей, которые сегодня носят название «мировая модель», какие функциональные модули действительно составляют эту способность? И для чего предназначен каждый из них?

Языковые модели дали машинам мощный контроль над концепциями, словами и рассуждениями, но физический мир, будь то виртуальный или реальный, работает на совершенно другой основе. Языковые модели изучают статистическую структуру текста, мировые модели изучают статистическую структуру пространства и времени: как свет падает на поверхность, как выглядит сад с ракурса, который никогда не захватывала камера, как объекты реагируют на силу и следуют законам физики.

Это делает «мировую модель» самым важным и одновременно самым злоупотребляемым термином в современной области ИИ. Компьютерное зрение, робототехника, обучение с подкреплением и генеративный ИИ — все заявляют о создании мировых моделей, но подразумевают совершенно разные вещи. Модель видео, генерирующая великолепное, но физически невозможное пламя, языковая модель, импровизирующая играбельную игру, физический движок, точно моделирующий процесс горения, — все они носят одно и то же имя.

Древние греки никогда не могли договориться, из чего состоит мир — из огня, воды или неделимых атомов, — потому что «мир» никогда не был чем-то единым. Это всегда был термин, который мыслитель использовал для рассуждений о некой целостности. ИИ унаследовал ту же проблему, и это происходит именно в тот момент, когда область больше всего нуждается в точности.

Замкнутый цикл, лежащий в основе таксономии

Чтобы разобраться в этой путанице, можно начать с диаграммы, которая старше всех упомянутых технологий. Все учебники по обучению с подкреплением, включая классический Сэттона и Барто, десятилетиями используют вариации одной и той же диаграммы для описания того, как агент взаимодействует с миром. Формальное название этой диаграммы — частично наблюдаемый марковский процесс принятия решений (POMDP), и первоначальное определение термина «мировая модель» принадлежит именно этой традиции.

Агент (это может быть человек, робот или программная система) выполняет действие. Эти действия меняют состояние мира. Но агент никогда не видит само состояние напрямую, он получает наблюдение: фотоны, попадающие на сетчатку, показания датчиков, пиксели в кадре видео. Новые наблюдения ведут к новым действиям, и цикл повторяется.

Слово «состояние» нужно рассмотреть подробнее, потому что в разных областях его значение смещается. Речь не о состоянии химика — не о различиях между твердым, жидким и газообразным состоянием. Здесь речь о состоянии физика и робототехника: полное описание всего, что происходит в мире в данный момент, включая каждый объект, каждое положение, каждую скорость, каждое свойство. Состояние — это лежащая в основе реальность мира, в принципе полная, но принципиально недоступная для прямого наблюдения любым находящимся в ней агентом. Наблюдение — это локальный взгляд агента на эту реальность. Действие — это ответ агента на это.

Именно этот замкнутый цикл (агент → действие → состояние → наблюдение → агент) — это структура, которая придает термину «мировая модель» его техническое значение. Сама фраза еще старше, она восходит к предложению Кеннета Крейка 1943 года о том, что разум рассуждает, запуская «модели реальности в малом масштабе», а к концу 1980-х — началу 1990-х годов эта концепция была введена в область нейронных сетей. Этот же цикл объясняет, что люди подразумевают сегодня, используя этот термин. Различные вещи, которые сейчас называются мировыми моделями, на самом деле являются разными проекциями одного и того же замкнутого цикла, каждая из которых выводит разные компоненты цикла.

Три функции мировых моделей

Первый тип мировой модели — это рендерер. Рендерер выводит наблюдения, конкретно — пиксели для человеческого глаза, и ключевым показателем качества является визуальная достоверность. Видеомодель, превращающая текстовый промпт в кинематографичные кадры с воздуха, — это рендерер; такие интерактивные системы, как Genie 3 от Google или наш собственный RTFM от World Labs, которые генерируют кадры в реальном времени в ответ на ввод пользователя, тоже рендереры. У таких моделей нет явного понимания трехмерной структуры. Они генерируют то, что увидит зритель, а не то, как выглядят вещи сами по себе. Здание на аэрофотоснимке может выглядеть безупречно с воздуха, но попробуйте пройтись по улицам города под ним — и оно рухнет.

Второй тип — симулятор. Симулятор выводит состояние: представление мира, верное в геометрическом, физическом или динамическом смысле, на котором могут вычислять и взаимодействовать и люди, и компьютерные программы. Договор рендерера чисто визуален, а договор симулятора структурен — он требует, чтобы геометрия выдерживала проверку, физика следовала законам Ньютона, а динамика вела себя в соответствии с ожиданиями от физических законов. Симулятор служит двум типам пользователей. Профессионалам, таким как архитекторы, дизайнеры, кинематографисты, разработчики игр, нужна точность, выходящая за рамки визуальной правдоподобности. Компьютерные программы, такие как агенты обучения с подкреплением, контроллеры роботов, беспилотные автомобили, используют симулятор как тренировочную площадку, где они могут массово взаимодействовать с миром, тестируя сценарии, которые в реальности были бы опасны, дороги или просто невозможны.

Третий тип — планировщик. Планировщик выводит действия. Получив наблюдение и цель, планировщик отвечает на вопрос: что агенту делать дальше. Во многих смыслах планировщик — это обратный процесс рендереру. Рендерер принимает действия на вход и выдает наблюдения, планировщик принимает наблюдения на вход и выдает действия, замыкая таким образом петлю восприятия-действия. Модели «видение-язык-действие» (VLA), основанные на моделях системы и новая волна моделей действий в мире (World Action Models) — все это попытки создать планировщик: систему, способную решать, что должен делать робот в неструктурированном мире.

Эти три категории охватывают большую часть работ, которые сегодня реально реализуются, и различие между ними полезно на практике. Но эти три категории не являются фундаментально отдельными друг от друга. Они разделяют одно и то же базовое знание о том, как устроен мир: геометрию, физику, динамику. Модель, которая может отрендерить чашку с любого угла, в принципе должна также уметь симулировать, что произойдет, если ее подтолкнуть, и спланировать, как рука должна ее поднять. Все больше самых интересных исследований намеренно стирают границы между этими тремя.

Рис. | Три типа мировых моделей (Источник: Substack)

Почему симуляция — ключевой хаб

Из трех категорий симулятор получает меньше всего публичного внимания, но является самым важным. Эта статья пытается исправить эту асимметрию.

Рендерер на сегодняшний день наиболее коммерциализирован. Множество продуктов для генерации изображений или видео из текста быстро расширяются на потребительском и корпоративном рынках. Модель Nano Banana от Google довела возможности рендеринга до, возможно, сотен миллионов пользователей. Технология реальна, рынок тоже реален. Однако рендереры оптимизированы под визуальную правдоподобность, а не под физическую точность, и этот потолок важен. Их вывод красив, но вы не можете использовать его для проектирования здания или обучения робота.

Планировщик самый захватывающий и самый незрелый, он тесно связан с быстро развивающейся областью обучения роботов. За последние два года эта область произвела немало впечатляющих на видео демонстраций роботов, но нам нужно честно взглянуть на то, что именно эти демонстрации показывают. Почти все они ограничены строго контролируемой лабораторной средой, ограниченным набором объектов и короткой продолжительностью задач. Ни одна из них не подвергалась проверке на сложность, разнообразие и продолжительность, требуемые для реального развертывания. Пропасть между впечатляющим демо-роликом и роботом, надежно работающим на кухне, складе или в операционной, по-прежнему огромна.

Тем не менее, объем коммерческих ставок по-прежнему значителен. Новая волна хорошо финансируемых новичков спешит выпустить универсальные системы планирования, а крупные инфраструктурные игроки строят возможности планирования поверх более широких симуляционных стеков.

Симуляция — это мост, соединяющий оба направления. Если язык — это абстракция мира, а пиксели — его проекция, то геометрия, физика и динамика — это сам мир. Симулятор должен работать на этом уровне: это структурный скелет, из которого можно вывести как визуальное представление (для рендерера), так и последствия действий (для планировщика).

Модель, овладевшая симуляцией, может проецировать свое понимание как в пиксели для потребления человеком, так и в прогнозы действий для воплощенного агента. А модель, овладевшая только рендерингом или только планированием, не может сделать ни того, ни другого. Коммерческое пространство здесь чрезвычайно широко. Только один Omniverse от NVIDIA, по оценкам компании, имеет общий доступный рынок (TAM) более триллиона долларов, охватывая фабрики, склады, цепочки поставок и цифровые двойники. Обучение роботов, тестирование автономного вождения, визуализация архитектуры, инженерное проектирование, открытие лекарств — все зависит от какой-либо формы симуляции.

Самые сложные открытые вопросы в этой области также сосредоточены здесь. Трехмерные данные с явной геометрией, свойствами материалов и физическими аннотациями на несколько порядков дефицитнее, чем интернет-видео, используемое для обучения рендереров. Разрыв sim-to-real (разница между поведением объектов в симуляции и в реальном мире) все еще существует. Генеративные симуляторы добавляют к этому новые риски: сгенерированные ИИ геометрии могут выглядеть правильно, но фактически содержать самопересечения или ошибки масштаба, приводящие к абсурдным результатам физического моделирования. Вычислительная стоимость крупномасштабной многодоменной симуляции (взаимодействие твердых тел, деформируемых объектов, жидкостей, тканей одновременно) по-прежнему на порядки выше, чем симуляции в одной области.

В World Labs Marble — это наш первый шаг в этом направлении. Он принимает мультимодальный ввод (текст, изображения, видео или пространственные эскизы), генерирует исследуемые 3D-окружения и одновременно выводит гауссовские сплаты для визуального исследования и коллизионные сетки для работы физического движка. Но Marble — это только первая глава долгой истории. По мере того, как границы между рендерингом, симуляцией и планированием начинают стираться, вся область пишет эту историю.

Границы стираются, и что будет дальше

Самая важная тенденция в этой области сегодня — начало слияния трех категорий. Лежащий в основе консенсус таков: знания, необходимые для рендеринга мира, его симуляции и действий в нем, в значительной степени одни и те же. Продолжая предыдущий пример, модель, которая действительно понимает, как чашка стоит на столе (ее геометрию, свойства материала, реакцию на силу и т.д.), должна уметь отрендерить эту чашку с любого угла, смоделировать, что произойдет, если ее подтолкнуть, и спланировать, как рука должна ее поднять. Три категории — это три проекции одного и того же базового понимания.

Например, в последнее время появилось немногочисленное, но растущее количество работ из разных лабораторий робототехники, демонстрирующих по крайней мере концептуальную возможность того, что предобученный видеорендерер может служить базовой сетью для совместного прогнозирования мира и действий, позволяя одной модели одновременно представлять «что произойдет» и «что делать», создавая таким образом мост между рендерером и планировщиком. Marble от World Labs уже может выводить из одной модели одновременно и гауссовские сплаты, и коллизионные сетки, стирая границу между рендерером и симулятором. На каждом уровне происходит переход от пассивного вывода к интерактивным системам: рендереры становятся отзывчивыми к условиям действий, симуляторы генерируют миры, которые становятся более управляемыми и редактируемыми, планировщики начинают осуществлять обдуманные рассуждения, а не просто реагировать.

Логическим завершением является единая мировая модель: фундаментальная модель, способная рендерить фотореалистичные виды, генерировать физически точные структуры, планировать последовательности действий и переключаться между различными выходными модальностями в зависимости от потребностей конечного пользователя. Нас по-прежнему ждет ряд серьезных проблем. Ландшафт данных крайне неравномерен: рендереры имеют доступ к огромному количеству интернет-видео, а симуляторы и планировщики сталкиваются с острым дефицитом 3D-активов и демонстрационных данных для роботов. Оптимизация под визуальную эстетику может пожертвовать точностью, необходимой для робототехники или высокоточной симуляции. Примирение этих противоречий в рамках единой архитектуры является центральной открытой проблемой современных исследований мировых моделей, и именно над ее решением работает World Labs в процессе развития Marble.

(Источник: Substack)

Но общее направление уже ясно. С конца 1980-х годов и по сей день эта область делает одну и ту же ставку: если мировая модель достаточно богата, в ней будет все, что нужно агенту, чтобы видеть мир, строить его и действовать в нем. Эта ставка сегодня движет исследованиями целого поколения. И то, что действительно придает ей вес, — это уже происходящее слияние: три линии — рендеринг, симуляция, планирование — каждая уже сама по себе поддерживает многомиллиардные индустрии, они начинались как независимые направления исследований, а теперь начинают сливаться. Когда границы исчезнут, слияние этих трех направлений переопределит нечто большее: отношения между машинным интеллектом и физическим миром, в котором он обитает, то есть долгосрочную траекторию пространственного интеллекта.

Язык дал машинам способ говорить об этом мире. Мировые модели — это путь, благодаря которому машины в конечном итоге смогут понимать, представлять, рассуждать и взаимодействовать с ним.

Источники: 1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models

Связанные с этим вопросы

QКакие три типа функций «моделей мира» выделяет Фэй-Фэй Ли в своей статье?

AФэй-Фэй Ли предлагает классифицировать модели мира по их основной функции в рамках POMDP-цикла: 1) **Рендерер** — выводит наблюдения (пиксели для человека). 2) **Симулятор** — выводит состояния (геометрически и физически точные представления мира). 3) **Планировщик** — выводит действия (решения для интеллектуального агента о том, что делать дальше).

QПочему, по мнению автора, симулятор является ключевым звеном среди трех типов моделей мира?

AСимулятор работает на уровне геометрии, физики и динамики — фундаментальной структуры мира. Обладая этим пониманием, симулятор может: 1) Проецировать его в пиксели для человеческого восприятия (задача рендерера). 2) Предсказывать последствия действий для роботов или агентов (задача планировщика). Таким образом, симулятор служит основой для двух других функций, но обратное невозможно — рендерер или планировщик не могут вывести внутреннее состояние мира.

QКаковы основные ограничения или «потолки» для рендерера и планировщика согласно статье?

A**Рендерер**: оптимизирован для визуального правдоподобия, а не физической точности. Его вывод красив, но не может быть использован для проектирования зданий или тренировки роботов (нельзя полагаться на его физику). **Планировщик**: самые впечатляющие демонстрации происходят в узких, контролируемых лабораторных условиях. Пропасть между лабораторным демо и надежным, долгосрочным развертыванием в реальном мире (например, на кухне или складе) по-прежнему огромна.

QКакой общий тренд в области моделей мира автор называет наиболее важным, и к чему он, вероятно, приведет?

AГлавный тренд — **стирание границ и слияние** трех функций (рендеринга, симуляции, планирования) в рамках единых моделей. Это основано на понимании, что знания, необходимые для рендеринга мира, его симуляции и действия в нем, в значительной степени одинаковы. Логическим итогом станет **универсальная модель мира (world foundation model)**, способная по запросу переключаться между выводом фотореалистичных видов, генерацией физически точных структур и планированием последовательностей действий.

QКакую роль играет продукт World Labs — Marble — в контексте предложенной классификации?

AMarble — это шаг к объединению функций рендерера и симулятора в одной модели. Он принимает мультимодальные входные данные (текст, изображения и т.д.) и генерирует исследуемые 3D-среды, одновременно выводя **сплатты Гаусса** (для высококачественной визуализации) и **сетки столкновений** (для работы с физическими движками). Таким образом, Marble целенаправленно размывает границу между рендерером (визуальный вывод) и симулятором (структурный/физический вывод).

Похожее

Почему 14 336 переводов ETH взломщиком UXLINK вызывают новые вопросы к DeFi

Недавняя активность в блокчейне показывает, что злоумышленник, стоящий за эксплойтом UXLINK (сентябрь 2025 года), активно отмывает украденные средства, чтобы затруднить их отслеживание. Хакеры, воспользовавшись уязвимостью 'delegateCall', похитили активы на сумму около $4,5 млн, конвертировали их в DAI и Ethereum (ETH). За последние две недели злоумышленник перевел в миксер Tornado Cash 14 336,6 ETH, включая более $8,1 млн в ETH после конвертации миллионов DAI. Параллельно кошельки, связанные с рухнувшей схемой Mining Express (многоуровневая схема майнинга), также активизировались. Один из них конвертировал 5 004 ETH в 8,8 млн DAI, а затем перевел около $5,1 млн из $7,5 млн в Tornado Cash. Эти случаи подчеркивают системную проблему в DeFi: хотя экосистема обеспечивает беспрепятственные переводы, в ней по-прежнему отсутствуют эффективные механизмы для блокировки или отслеживания незаконных средств после их попадания в сеть. Для защиты децентрализации и приватности необходимы усиление межсетевой координации и внедрение систем обнаружения угроз в реальном времени.

ambcrypto26 мин. назад

Почему 14 336 переводов ETH взломщиком UXLINK вызывают новые вопросы к DeFi

ambcrypto26 мин. назад

Спецрепортаж Forbes: Кросс-бордерные платежи в стейблкоинах стали быстрее, но еще не дешевле

Стабильные монеты в трансграничных платежах: быстрее, но не дешевле Индустрия трансграничных платежей с использованием стейблкоинов быстро растет, о чем свидетельствовала недавняя конференция Bitso Business в Мексике. Технология готова, регулирование улучшается, объемы растут. Стейблкоины делают платежи быстрее, доступнее и надежнее, но их ключевое обещание — значительное снижение стоимости — пока не выполнено. Традиционные валютные брокеры берут 60-70 базисных пунктов за операции, а стейблкоины теоретически могут сократить это до 2-5 пунктов. Однако для реализации этого потенциала необходимы глубокие ликвидные пулы, которых пока нет в достаточном масштабе. По словам Имрана Ахмада из Bitso Business, пока крупные институциональные игроки, такие как банки, не войдут в эту сферу массово, ценовое преимущество останется теоретическим. Главным барьером для внедрения в B2B-секторе оказывается не технология, а доверие. Компании годами работают с проверенными посредниками, которые гарантируют надежность. Переход на новые решения произойдет постепенно, по мере того как разница в стоимости станет слишком существенной, а новое поколение бизнесменов будет меньше полагаться на личные связи. Успешные компании в этой области, такие как Caliza, не стремятся заменить традиционные системы вроде SWIFT, а работают вместе с ними, используя стейблкоины для скорости, а SWIFT — для надежности и стандартизации, критически важных в международных расчетах (например, для корректного указания налоговых номеров). Такой гибридный подход обеспечивает Caliza стабильный ежемесячный рост более 40%. Эксперты предсказывают, что в конечном итоге на рынке останутся только те игроки, которые смогут построить три ключевых элемента: регуляторные лицензии, надежные каналы для конвертации в фиатные валюты и глубокую ликвидность. Остальные рискуют остаться просто посредниками в конкурентной борьбе.

marsbit1 ч. назад

Спецрепортаж Forbes: Кросс-бордерные платежи в стейблкоинах стали быстрее, но еще не дешевле

marsbit1 ч. назад

Статья Forbes: Кросс-бордерные платежи через стейблкоины стали быстрее, но не дешевле

**Стабильные монеты в трансграничных платежах: быстрее, но пока не дешевле** Индустрия трансграничных платежей на основе стейблкоинов быстро растет. Технология готова, нормативная среда улучшается, объем транзакций увеличивается. По оценкам участников рынка, такие платежи стали быстрее, доступнее и надежнее. Однако, ключевое обещание о значительном снижении стоимости пока не выполнено. Традиционные форекс-брокеры берут 60-70 базисных пунктов за переводы поставщикам, а потенциал стейблкоинов — снизить эту стоимость до 2-5 пунктов. Главное препятствие — отсутствие крупных, ликвидных пулов, необходимых для масштабирования и реального снижения цены. Еще одна проблема — доверие. Многие компании десятилетиями работают с проверенными посредниками, и личные отношения часто перевешивают потенциальную экономию. Переход на новые технологии будет постепенным. Успешные компании, такие как Caliza, видят свою роль не в замене, а в дополнении традиционной системы SWIFT, которая обеспечивает необходимую стандартизацию и надежность для сложных платежей поставщикам. Их рост, превышающий 40% в месяц, демонстрирует спрос на гибридные решения. Эксперты, как Имран Ахмад из Bitso Business, считают, что для выживания в этом высокорегулируемом секторе компаниям необходимы три ключевых элемента: лицензии, надежные каналы для конвертации в фиатные деньги и глубокая ликвидность. Без этого они останутся лишь посредниками. Ожидается, что в будущем рынок ждет консолидация, но те, кто построит устойчивую инфраструктуру, останутся в игре.

链捕手1 ч. назад

Статья Forbes: Кросс-бордерные платежи через стейблкоины стали быстрее, но не дешевле

链捕手1 ч. назад

Последняя статья Ли Фэйфэй: когда генерация видео, роботы и NVIDIA называют себя моделями мира, нам нужна таксономия

В статье Ли Фэйфэй рассматривается путаницу вокруг термина «мирoвые модели» в области искусственного интеллекта. Она предлагает классификацию, основанную на классической схеме POMDP (частично наблюдаемый марковский процесс принятия решений), согласно которой все «мирoвые модели» делятся на три функциональных типа в зависимости от их вывода в цикле взаимодействия «агент → действие → состояние → наблюдение». 1. **Рендереры** (например, Sora, Genie): выводят наблюдения — пиксели, визуально правдоподобные для человека, но без гарантии физической корректности. 2. **Симуляторы**: выводят состояния мира — геометрически и физически точные представления, служащие основой для расчётов, проектирования и тренировки роботов или алгоритмов. 3. **Планировщики** (например, модели «визуальный язык-действие»): выводят действия — определяют, что агенту делать дальше на основе наблюдения и цели. Автор утверждает, что ключевым, но недооценённым звеном является симулятор, так как он работает на уровне фундаментальных свойств мира (геометрия, физика), из которых могут быть выведены как пиксели для рендеринга, так и последствия действий для планирования. В то время как рендереры наиболее коммерциализированы, а планировщики наиболее перспективны, но незрелы, именно симулятор служит мостом между ними. В заключение отмечается тенденция к слиянию этих трёх категорий в единые мировые модели, способные в зависимости от задачи переключаться между рендерингом, симуляцией и планированием. Это, по мнению Ли Фэйфэй, определяет путь к пространственному интеллекту, позволяющему машинам не только говорить о мире, но и понимать, представлять и взаимодействовать с ним.

链捕手1 ч. назад

Последняя статья Ли Фэйфэй: когда генерация видео, роботы и NVIDIA называют себя моделями мира, нам нужна таксономия

链捕手1 ч. назад

Bitcoin: Вот почему бычий рост цен в третьем квартале может столкнуться с проверкой ликвидности

Последние данные по ончейн-метрикам Биткоина и потокам ETF указывают на возможное приближение конца медвежьей фазы. Коэффициент Realized P/L достиг -0,35, минимального уровня за 43 месяца, что исторически часто совпадало с формированием дна рынка. Приток средств в американские спотовые ETF на Биткоин, составивший $223 млн, также свидетельствует о возвращении институционального спроса. Однако ключевым риском для восстановления остается слабая ликвидность. Несмотря на улучшение спроса через ETF, рыночная капитализация стейблкоинов USDT и USDC продолжает сокращаться, что указывает на отток капитала с рынка. В условиях растущего левериджа трейдеров нехватка ликвидности может привести к тому, что у рынка не хватит поддержки для устойчивого роста. Таким образом, хотя признаки формирования дна укрепляются, возможный ралли Биткоина в третьем квартале может столкнуться с трудностями из-за нехватки ликвидности и стать уязвимым для резких коррекций.

ambcrypto1 ч. назад

Bitcoin: Вот почему бычий рост цен в третьем квартале может столкнуться с проверкой ликвидности

ambcrypto1 ч. назад

Торговля

Спот

Ли Фэйфэй в новой статье: когда создание видео, робототехника и NVIDIA объявляют себя мировыми моделями, нам нужна таксономия

Введение

Замкнутый цикл, лежащий в основе таксономии

Три функции мировых моделей

Почему симуляция — ключевой хаб

Границы стираются, и что будет дальше

Связанные с этим вопросы

Похожее

Почему 14 336 переводов ETH взломщиком UXLINK вызывают новые вопросы к DeFi

Спецрепортаж Forbes: Кросс-бордерные платежи в стейблкоинах стали быстрее, но еще не дешевле

Статья Forbes: Кросс-бордерные платежи через стейблкоины стали быстрее, но не дешевле

Последняя статья Ли Фэйфэй: когда генерация видео, роботы и NVIDIA называют себя моделями мира, нам нужна таксономия

Bitcoin: Вот почему бычий рост цен в третьем квартале может столкнуться с проверкой ликвидности

Торговля

Популярные категории

Популярные теги