Как определить, является ли видео сгенерированным ИИ? Обзор динамической, прослеживаемой и объяснимой системы детекции
**Как определить, является ли видео созданным ИИ? Обзор динамической, отслеживаемой и объяснимой системы обнаружения**
За последние два года модели генерации видео, такие как Sora, Google Veo и Kling, достигли кинематографического качества, создавая многосекундные сложные сцены. Это создает растущий разрыв с областью обнаружения, которая отстает, в то время как количество и качество поддельных видео в социальных сетях стремительно растет.
В обзоре, принятом на ACL 2026, исследователи переосмысливают цель обнаружения: от простой бинарной классификации («поддельное/настоящее») к **верификации фактологической достоверности**. Задача — проверить, соответствует ли содержание видео (кто, что, где, когда) восприятию и знаниям о реальном мире, включая физические законы и здравый смысл.
Авторы выделяют три парадигмы AI-видео:
1. **Локальная манипуляция (LMV):** Изменение части реального видео (например, Deepfake).
2. **Аудиовизуальное редактирование (AVE):** Изменение синхронизации между звуком, речью и видео.
3. **Генеративный синтез видео (GVS):** Полная генерация видео «с нуля» (например, Sora), что представляет наибольшую сложность.
Для обнаружения предлагается **четырехуровневая система с двойным визуально-языковым подходом**:
* **Уровень 1: Низкоуровневые визуальные сигналы** (артефакты, шум, физиологические сигналы).
* **Уровень 2: Пространственно-временная согласованность** (плавность движений, физическая непрерывность).
* **Уровень 3: Межмодальная согласованность** (проверка соответствия видео, звука и текста).
* **Уровень 4: Рассуждение на уровне знаний о мире** (проверка соответствия фактам, законам физики и здравому смыслу).
Фокус методов смещается от первых двух уровней (визуальных) к третьему и четвертому (языковым и смысловым).
Обзор подчеркивает, что будущие системы обнаружения должны быть **динамическими, объяснимыми и отслеживаемыми**. Они должны не просто классифицировать, а предоставлять доказательства, связывать выводы с конкретными элементами видео (объектами, событиями) и оставаться устойчивыми к новым генеративным моделям. Это требует объединения усилий компьютерного зрения, обработки естественного языка и исследований многомодальных моделей для создания надежной системы проверки достоверности видео в эпоху продвинутого ИИ.
marsbit30 мин. назад