Ли Фэйфэй в новой статье: когда создание видео, робототехника и NVIDIA объявляют себя мировыми моделями, нам нужна таксономия
В статье Ли Фэйфэй предлагается классификация «моделей мира» в ИИ на три функциональных типа: рендереры, симуляторы и планировщики. Рендереры генерируют визуальные наблюдения (пиксели), ориентированные на человека, но без учёта физики. Симуляторы выводят состояния мира — геометрические и физически точные представления, пригодные для вычислений и тренировки роботов. Планировщики определяют действия агента на основе наблюдений и целей.
Автор утверждает, что симулятор является ключевым звеном, так как работает на уровне геометрии и физики — фундаментальной реальности мира. На его основе можно строить как рендереры, так и планировщики. Хотя рендереры наиболее коммерциализированы, а планировщики наиболее амбициозны, именно симуляторы обеспечивают структурную точность, необходимую для серьёзных приложений.
В статье отмечается тенденция к слиянию этих трёх категорий в единые модели, способные переключаться между режимами рендеринга, симуляции и планирования. Это направление, развиваемое в том числе в World Labs (проект Marble), рассматривается как путь к созданию машин, которые не просто обрабатывают язык, но и понимают, представляют и взаимодействуют с физическим миром.
marsbit6 ч. назад