Последняя статья Ли Фэйфэй: когда генерация видео, роботы и NVIDIA называют себя моделями мира, нам нужна таксономия
В статье Ли Фэйфэй рассматривается путаницу вокруг термина «мирoвые модели» в области искусственного интеллекта. Она предлагает классификацию, основанную на классической схеме POMDP (частично наблюдаемый марковский процесс принятия решений), согласно которой все «мирoвые модели» делятся на три функциональных типа в зависимости от их вывода в цикле взаимодействия «агент → действие → состояние → наблюдение».
1. **Рендереры** (например, Sora, Genie): выводят наблюдения — пиксели, визуально правдоподобные для человека, но без гарантии физической корректности.
2. **Симуляторы**: выводят состояния мира — геометрически и физически точные представления, служащие основой для расчётов, проектирования и тренировки роботов или алгоритмов.
3. **Планировщики** (например, модели «визуальный язык-действие»): выводят действия — определяют, что агенту делать дальше на основе наблюдения и цели.
Автор утверждает, что ключевым, но недооценённым звеном является симулятор, так как он работает на уровне фундаментальных свойств мира (геометрия, физика), из которых могут быть выведены как пиксели для рендеринга, так и последствия действий для планирования. В то время как рендереры наиболее коммерциализированы, а планировщики наиболее перспективны, но незрелы, именно симулятор служит мостом между ними.
В заключение отмечается тенденция к слиянию этих трёх категорий в единые мировые модели, способные в зависимости от задачи переключаться между рендерингом, симуляцией и планированием. Это, по мнению Ли Фэйфэй, определяет путь к пространственному интеллекту, позволяющему машинам не только говорить о мире, но и понимать, представлять и взаимодействовать с ним.
链捕手17 мин. назад