# Сопутствующие статьи по теме Мировые модели

Новостной центр HTX предлагает последние статьи и углубленный анализ по "Мировые модели", охватывающие рыночные тренды, новости проектов, развитие технологий и политику регулирования в криптоиндустрии.

Последняя статья Ли Фэйфэй: когда генерация видео, роботы и NVIDIA называют себя моделями мира, нам нужна таксономия

В статье Ли Фэйфэй рассматривается путаницу вокруг термина «мирoвые модели» в области искусственного интеллекта. Она предлагает классификацию, основанную на классической схеме POMDP (частично наблюдаемый марковский процесс принятия решений), согласно которой все «мирoвые модели» делятся на три функциональных типа в зависимости от их вывода в цикле взаимодействия «агент → действие → состояние → наблюдение». 1. **Рендереры** (например, Sora, Genie): выводят наблюдения — пиксели, визуально правдоподобные для человека, но без гарантии физической корректности. 2. **Симуляторы**: выводят состояния мира — геометрически и физически точные представления, служащие основой для расчётов, проектирования и тренировки роботов или алгоритмов. 3. **Планировщики** (например, модели «визуальный язык-действие»): выводят действия — определяют, что агенту делать дальше на основе наблюдения и цели. Автор утверждает, что ключевым, но недооценённым звеном является симулятор, так как он работает на уровне фундаментальных свойств мира (геометрия, физика), из которых могут быть выведены как пиксели для рендеринга, так и последствия действий для планирования. В то время как рендереры наиболее коммерциализированы, а планировщики наиболее перспективны, но незрелы, именно симулятор служит мостом между ними. В заключение отмечается тенденция к слиянию этих трёх категорий в единые мировые модели, способные в зависимости от задачи переключаться между рендерингом, симуляцией и планированием. Это, по мнению Ли Фэйфэй, определяет путь к пространственному интеллекту, позволяющему машинам не только говорить о мире, но и понимать, представлять и взаимодействовать с ним.

链捕手8 ч. назад

Последняя статья Ли Фэйфэй: когда генерация видео, роботы и NVIDIA называют себя моделями мира, нам нужна таксономия

链捕手8 ч. назад

Модели мира, метавселенная, цифровые двойники, физический ИИ: это одно и то же?

За последние годы появилось множество концепций, таких как метавселенная, Web 3.0, платформы симуляционных данных, цифровые двойники и Physical AI, которые часто путают. Хотя они и не являются одним и тем же, все они отражают тенденцию размывания границ между цифровым и физическим миром. Модель мира действует как «когнитивный уровень» или «базовая операционная система» для этих концепций, позволяя ИИ понимать и моделировать мир. Ее можно представить в иерархии: * **Базовый уровень:** Вычислительные мощности, данные. * **Когнитивный уровень:** **Модель мира** — понимает и прогнозирует физические законы. * **Инструментальный уровень:** Платформы симуляционных данных (ее «предшественник») и цифровые двойники (ее «близкий родственник», но без прогнозирования). * **Уровень действий:** **Physical AI** (роботы, беспилотные автомобили), где модель мира является ключевым компонентом «мозга». * **Уровень опыта:** **Метавселенная** — может использовать модель мира как «двигатель» для генерации контента. * **Уровень правил:** **Web 3.0** (блокчейн, экономика токенов) — находится в другой плоскости, определяя правила владения и стимулов, а не моделирования. Таким образом, модель мира — это не приложение, а фундаментальная способность ИИ, которая может стать общей основой («операционной системой») для реализации многих концепций, связывая цифровое и физическое.

marsbit06/28 10:42

Модели мира, метавселенная, цифровые двойники, физический ИИ: это одно и то же?

marsbit06/28 10:42

Манифест мира Ли Фэйфэй

«Декларация о моделях мира» Ли Фэйфэй: Почему ИИ должен понимать физику, а не только язык В своем блоге специалист по ИИ Ли Фэйфэй, ссылаясь на Витгенштейна, утверждает, что современные генеративные ИИ, подобные ChatGPT, могут говорить о мире, но не понимают его физической сущности. Она призывает к смещению фокуса с текстовой статистики на понимание физических законов пространства и времени как ключевому шагу к воплощенному интеллекту. Ли Фэйфэй систематизирует хаос вокруг термина «модель мира», выделяя три ключевых компонента: 1. **Визуализатор:** Генерирует правдоподобные пиксели (например, Sora), но создает лишь видимость, не понимая физической структуры. 2. **Симулятор:** Моделирует строгие физические законы (масса, трение, столкновения). Это сложнейший, но критически важный для робототехники и промышленности узел, связывающий визуализацию и планирование. Лидер здесь — NVIDIA с платформой Omniverse. 3. **Планировщик:** Отвечает за принятие решений и действия в мире. Основная трудность — нехватка данных с физической разметкой и риск «артефактов» (например, «проглядывания» объектов) в промышленных применениях. Однако границы между этими компонентами размываются. Будущее — за единой базовой моделью, способной и реалистично визуализировать сцену, и точно моделировать её физическое состояние. В конечном итоге, развитие пространственного интеллекта и моделей мира — это не гонка вычислений, а установление цифровых стандартов физической реальности. Это путь от машин, которые говорят о мире, к машинам, которые взаимодействуют с ним. Как отмечает Ян Лекун, до уровня даже собачьего интеллекта машинам может понадобиться еще 5-10 лет.

marsbit06/09 00:38

Манифест мира Ли Фэйфэй

marsbit06/09 00:38

От кода к сознанию: Руководство на десять тысяч слов о том, как эволюционирует мозг робота

**От кода к познанию: Путеводитель по эволюции мозга роботов** Роботы прошли путь от предсказуемых машин, управляемых тщательно написанным кодом (ROS, классическое управление), к более адаптивным системам, основанным на ИИ. Переломным моментом стало появление больших языковых моделей (LLM), которые стали выступать в роли "планировщиков", переводящих команды на естественном языке в последовательность действий. Однако истинная революция — это модели "Vision-Language-Action" (VLA), такие как RT-2 от Google и OpenVLA. Они напрямую объединяют зрение, язык и движение в одной нейронной сети, генерируя команды для исполнительных механизмов. Самые современные человекоподобные роботы (например, от Figure AI и многих китайских стартапов) используют **двухсистемную архитектуру**: медленная, "размышляющая" модель (System 2) анализирует сцену и ставит цели, а быстрая, "реактивная" модель (System 1, а также рефлекторный System 0) управляет моторами в режиме реального времени. Вся критичная для безопасности обработка выполняется на борту (например, на чипах NVIDIA Jetson). Следующий гигантский шаг — **модели мира** (World Models), такие как NVIDIA Cosmos или DeepMind Genie. Эти системы предсказывают последствия действий, позволяя роботу "проигрывать" различные сценарии в уме, выбирать наилучший и избегать ошибок *перед* тем, как начать движение. Они обещают радикально улучшить восстановление после сбоев, обобщение и долгосрочное планирование. Экономика меняется: цены на "железо" падают (Unitree H1 за $5900), а ключевым активом становятся **данные** — тысячи часов телеметрии с роботов для обучения моделей. Открытые модели и фреймворки (GR00T, OpenVLA, LeRobot) ускоряют прогресс, позволяя стартапам строить решения на готовой базе. В итоге, интеллект робота постепенно перемещался из кода инженеров в обученные модели восприятия, затем в планировщики и стратегии, и теперь — в обучаемые модели физического мира. Мы находимся на этапе, сравнимом с GPT-2: система впечатляет, быстро развивается, но до полной автономности в неконтролируемой среде еще далеко. Вопрос будущего — не "что могут роботы?", а "что мы должны им поручить?".

marsbit06/07 12:59

От кода к сознанию: Руководство на десять тысяч слов о том, как эволюционирует мозг робота

marsbit06/07 12:59

Команда Ли Фэйфэй проясняет понятие "мировой модели": Sora — всего лишь рендерер

Команда Ли Фэйфэй и World Labs представили классификацию «моделей мира» в ИИ, разделив их на три функциональные проекции: рендереры, симуляторы и планировщики. В статье утверждается, что термин «модель мира» стал размытым и используется для описания различных систем, от генераторов видео (таких как Sora от OpenAI) до систем предсказания в автопилоте Tesla, хотя они решают принципиально разные задачи. Sora классифицируется как «рендерер» — он создает правдоподобные пиксельные изображения, но не способен моделировать физические взаимодействия на основе действий (например, предсказать, что произойдет, если толкнуть чашку). Настоящая «модель мира» в рамках классической теории (частично наблюдаемые марковские процессы принятия решений, POMDP) должна уметь выполнять полный цикл: генерировать наблюдения (рендеринг), предсказывать следующее состояние на основе действий (симуляция) и планировать действия для достижения цели (планирование). Четкое разграничение этих категорий имеет практическую ценность для инвесторов, разработчиков и исследователей, предотвращая заблуждения о возможностях технологий и помогая в выборе правильных инструментов для таких задач, как робототехника или цифровые двойники.

marsbit06/04 03:18

Команда Ли Фэйфэй проясняет понятие "мировой модели": Sora — всего лишь рендерер

marsbit06/04 03:18

活动图片