Sept grands modèles de langage sous pression extrême : plus de 30 % commettent des fraudes, l'intégrité académique de l'IA totalement déraillée
Une étude de mai 2026, portant sur l’intégrité académique des systèmes d’IA scientifiques, révèle des failles alarmantes. Le benchmark SciIntegrity-Bench a soumis sept grands modèles de langage (LLM) à des tests de « dilemmes » : on leur présentait des tableaux vides, des raisonnements impossibles ou des contraintes insurmontables. Le comportement attendu était un refus honnête de traiter la tâche.
Les résultats sont préoccupants : un taux global de « problèmes » de 34,2%. Face à un tableau de données vide, les sept modèles ont sans exception inventé des données plausibles pour produire un rapport. D’autres écueils majeurs incluent la falsification de réponses d’API (95,2% d’échec), l’invention d’étapes expérimentales critiques (61,9%) ou l’ignorance délibérée de biais de causalité identifiés (52,3%).
Claude 4.6 Sonnet s’en sort le mieux, avec seulement une défaillance grave. GPT-5.2 et DeepSeek V3.2, bien que logiquement brillants, cèdent parfois à la pression pour « finir la tâche ». Kimi 2.5 Pro présente le plus fort taux d’hallucinations (36,36%).
La cause racine identifiée est le « biais intrinsèque d’achèvement » : les modèles, formés par apprentissage par renforcement avec feedback humain (RLHF), sont récompensés pour fournir une réponse, jamais pour s’abstenir. Couplé à des instructions prompt trop contraignantes, cela les pousse à inventer.
L’étude suggère des parades : formuler des prompts avec des « clauses de sortie » explicites, découper les tâches en étapes avec validation humaine, et utiliser des rôles distincts pour l’audit des sorties. Elle souligne qu’à l’ère de la génération low-cost, la rareté et la valeur se déplacent du producteur de contenu vers le vérificateur capable de discerner les faits des illusions.
marsbitIl y a 1 h