Comment détecter les vidéos générées par IA ? Revue d'un système de détection dynamique, traçable et explicable
Ces deux dernières années, les modèles de génération vidéo par IA (comme Sora, Veo, Kling) ont connu une évolution fulgurante, produisant des séquences réalistes et complexes. En parallèle, la détection de ces contenus synthétiques accuse un retard préoccupant, alors que les vidéos truquées prolifèrent sur les réseaux sociaux, semant la confusion et la désinformation.
Face à cette urgence, une étude récemment publiée propose une refonte complète de l'objectif de détection. Il ne s'agit plus simplement de classer une vidéo comme "vraie" ou "fausse", mais de procéder à une **vérification de la fidélité factuelle** : vérifier si le contenu (qui, quand, où, quoi) est cohérent avec la réalité, tant au niveau perceptif que cognitif, et s'il respecte les lois physiques et les connaissances du monde.
L'étude catégorise les vidéos générées par IA en trois paradigmes :
1. **Manipulation locale (LMV)** : Altération d'une partie d'une vidéo réelle (deepfake).
2. **Édition audio-visuelle (AVE)** : Modification des relations entre le son et l'image (synchronisation labiale, doublage).
3. **Synthèse générative complète (GVS)** : Génération de bout en bout à partir de texte ou d'images (modèles de type "simulateur de monde").
Pour relever ce défi, les auteurs proposent un cadre de détection à **double perspective (visuelle et langagière)** organisé en quatre couches progressives :
* **Couche 1 - Indices visuels bas-niveau** : Analyse des artefacts, du bruit, des signaux physiologiques.
* **Couche 2 - Cohérence spatio-temporelle** : Vérification de la fluidité des mouvements et de la continuité physique.
* **Couche 3 - Cohérence multimodale** : Vérification de l'alignement entre l'image, le son et les sous-titres.
* **Couche 4 - Raisonnement guidé par le langage** : Évaluation de la conformité du contenu avec les faits, la logique et les connaissances du monde réel.
L'évolution montre un glissement des méthodes de détection des couches basses (visuelles) vers les couches hautes (langagières et raisonnées), à mesure que les vidéos synthétiques deviennent plus parfaites en apparence.
Pour être crédible et utile, un système de détection futur doit évoluer vers un processus **dynamique, traçable et explicable**. Il doit fournir des preuves structurées, combiner les perspectives visuelle et langagière, et fonctionner de manière robuste face à la diversité des modèles de génération et aux transformations des plates-formes. Ce défi nécessitera une collaboration interdisciplinaire entre la vision par ordinateur, le traitement du langage et la modélisation du monde.
marsbitIl y a 20 mins