# Сопутствующие статьи по теме Пространственный интеллект

Новостной центр HTX предлагает последние статьи и углубленный анализ по "Пространственный интеллект", охватывающие рыночные тренды, новости проектов, развитие технологий и политику регулирования в криптоиндустрии.

Ли Фэйфэй в новой статье: когда создание видео, робототехника и NVIDIA объявляют себя мировыми моделями, нам нужна таксономия

В статье Ли Фэйфэй предлагается классификация «моделей мира» в ИИ на три функциональных типа: рендереры, симуляторы и планировщики. Рендереры генерируют визуальные наблюдения (пиксели), ориентированные на человека, но без учёта физики. Симуляторы выводят состояния мира — геометрические и физически точные представления, пригодные для вычислений и тренировки роботов. Планировщики определяют действия агента на основе наблюдений и целей. Автор утверждает, что симулятор является ключевым звеном, так как работает на уровне геометрии и физики — фундаментальной реальности мира. На его основе можно строить как рендереры, так и планировщики. Хотя рендереры наиболее коммерциализированы, а планировщики наиболее амбициозны, именно симуляторы обеспечивают структурную точность, необходимую для серьёзных приложений. В статье отмечается тенденция к слиянию этих трёх категорий в единые модели, способные переключаться между режимами рендеринга, симуляции и планирования. Это направление, развиваемое в том числе в World Labs (проект Marble), рассматривается как путь к созданию машин, которые не просто обрабатывают язык, но и понимают, представляют и взаимодействуют с физическим миром.

marsbit8 ч. назад

Ли Фэйфэй в новой статье: когда создание видео, робототехника и NVIDIA объявляют себя мировыми моделями, нам нужна таксономия

marsbit8 ч. назад

Последняя статья Ли Фэйфэй: когда генерация видео, роботы и NVIDIA называют себя моделями мира, нам нужна таксономия

В статье Ли Фэйфэй рассматривается путаницу вокруг термина «мирoвые модели» в области искусственного интеллекта. Она предлагает классификацию, основанную на классической схеме POMDP (частично наблюдаемый марковский процесс принятия решений), согласно которой все «мирoвые модели» делятся на три функциональных типа в зависимости от их вывода в цикле взаимодействия «агент → действие → состояние → наблюдение». 1. **Рендереры** (например, Sora, Genie): выводят наблюдения — пиксели, визуально правдоподобные для человека, но без гарантии физической корректности. 2. **Симуляторы**: выводят состояния мира — геометрически и физически точные представления, служащие основой для расчётов, проектирования и тренировки роботов или алгоритмов. 3. **Планировщики** (например, модели «визуальный язык-действие»): выводят действия — определяют, что агенту делать дальше на основе наблюдения и цели. Автор утверждает, что ключевым, но недооценённым звеном является симулятор, так как он работает на уровне фундаментальных свойств мира (геометрия, физика), из которых могут быть выведены как пиксели для рендеринга, так и последствия действий для планирования. В то время как рендереры наиболее коммерциализированы, а планировщики наиболее перспективны, но незрелы, именно симулятор служит мостом между ними. В заключение отмечается тенденция к слиянию этих трёх категорий в единые мировые модели, способные в зависимости от задачи переключаться между рендерингом, симуляцией и планированием. Это, по мнению Ли Фэйфэй, определяет путь к пространственному интеллекту, позволяющему машинам не только говорить о мире, но и понимать, представлять и взаимодействовать с ним.

链捕手9 ч. назад

Последняя статья Ли Фэйфэй: когда генерация видео, роботы и NVIDIA называют себя моделями мира, нам нужна таксономия

链捕手9 ч. назад

Манифест мира Ли Фэйфэй

«Декларация о моделях мира» Ли Фэйфэй: Почему ИИ должен понимать физику, а не только язык В своем блоге специалист по ИИ Ли Фэйфэй, ссылаясь на Витгенштейна, утверждает, что современные генеративные ИИ, подобные ChatGPT, могут говорить о мире, но не понимают его физической сущности. Она призывает к смещению фокуса с текстовой статистики на понимание физических законов пространства и времени как ключевому шагу к воплощенному интеллекту. Ли Фэйфэй систематизирует хаос вокруг термина «модель мира», выделяя три ключевых компонента: 1. **Визуализатор:** Генерирует правдоподобные пиксели (например, Sora), но создает лишь видимость, не понимая физической структуры. 2. **Симулятор:** Моделирует строгие физические законы (масса, трение, столкновения). Это сложнейший, но критически важный для робототехники и промышленности узел, связывающий визуализацию и планирование. Лидер здесь — NVIDIA с платформой Omniverse. 3. **Планировщик:** Отвечает за принятие решений и действия в мире. Основная трудность — нехватка данных с физической разметкой и риск «артефактов» (например, «проглядывания» объектов) в промышленных применениях. Однако границы между этими компонентами размываются. Будущее — за единой базовой моделью, способной и реалистично визуализировать сцену, и точно моделировать её физическое состояние. В конечном итоге, развитие пространственного интеллекта и моделей мира — это не гонка вычислений, а установление цифровых стандартов физической реальности. Это путь от машин, которые говорят о мире, к машинам, которые взаимодействуют с ним. Как отмечает Ян Лекун, до уровня даже собачьего интеллекта машинам может понадобиться еще 5-10 лет.

marsbit06/09 00:38

Манифест мира Ли Фэйфэй

marsbit06/09 00:38

От одного обеденного стола до бесконечной вселенной: Ли Фэйфэй делает ставку на следующее измерение ИИ

**Ли Фэйфэй делает ставку на пространственный интеллект как новое измерение ИИ** Профессор Стэнфорда и основатель World Labs Ли Фэйфэй утверждает, что пространственный интеллект (Spatial Intelligence), а не только языковые модели, является следующим рубежом для искусственного интеллекта. Она подчеркивает, что эволюционно восприятие пространства и зрения, насчитывающее сотни миллионов лет, является более фундаментальным для понимания мира, чем относительно молодая человеческая речь. По ее мнению, языковые модели работают с «сжатой с потерей информации» версией реальности, в то время как истинное понимание требует способности воспринимать, рассуждать и взаимодействовать в трехмерном физическом мире. В качестве примера она приводит неспособность современных ИИ подсчитать стулья в видео или вывести законы физики из наблюдений, что легко дается человеку. Ее компания World Labs разрабатывает модель Marble, которая из текста, изображений или видео генерирует целые навигационные и интерактивные 3D-миры, а не просто видеоизображения. Хотя Marble значительно меньше по масштабу, чем крупнейшие языковые модели, она находит применение в игровой индустрии, кинопроизводстве (сокращая сроки в 40 раз), дизайне, тренировке роботов и даже создании терапевтических сред для лечения фобий. Ли Фэйфэй верит, что эта технология позволит создавать «бесконечные вселенные» для разных целей. Однако она призывает к взвешенному обсуждению будущего ИИ, избегая крайностей утопизма и апокалиптики, и считает, что успех технологии должен измеряться тем, делает ли она цивилизацию и жизнь каждого человека лучше, сохраняя человеческое достоинство.

marsbit05/27 00:15

От одного обеденного стола до бесконечной вселенной: Ли Фэйфэй делает ставку на следующее измерение ИИ

marsbit05/27 00:15

Понять Physical AI Хуана Жэньсуня: Почему возможности Crypto также скрыты в «труднодоступных уголках»?

На форуме в Давосе глава NVIDIA Дженсен Хуан заявил о переходе от эры обучения ИИ к эпохе инференции и Physical AI (физический ИИ). Это означает смещение фокуса с создания больших моделей на их практическое применение. Physical AI решает задачу «единства знаний и действий» — например, научить ИИ открывать бутылку или ходить по лестнице. Ключевые вызовы Physical AI: 1. Пространственный интеллект: понимание трёхмерного мира; 2. Виртуальные тренировочные среды (например, Omniverse) для обучения в симуляциях; 3. Электронная кожа: сбор тактильных данных с помощью сенсоров. Для крипто-индустрии здесь открываются возможности: - DePIN-сети могут собирать данные из «укромных мест» с помощью краудсорсинга; - Распределённые вычисления обеспечат edge-инференцию для роботов; - Токенизация и право собственности на данные стимулируют共享 тактильной информации. Physical AI — это следующий этап для ИИ, а для крипто-сектора — шанс занять нишу в децентрализованных данных и вычислениях.

marsbit01/23 00:36

Понять Physical AI Хуана Жэньсуня: Почему возможности Crypto также скрыты в «труднодоступных уголках»?

marsbit01/23 00:36

活动图片