Auteur: Claude, Deep Tide TechFlow
Guide de Deep Tide: Un test récent du New York Times et de la startup d'IA Oumi révèle que la fonction de résumé IA (AI Overviews) de Google Search a un taux de précision d'environ 91 %. Cependant, compte tenu du volume annuel de 5 000 milliards de recherches traitées par Google, cela signifie que des dizaines de millions de réponses erronées sont générées chaque heure. Plus problématique encore, même lorsque la réponse est correcte, plus de la moitié des liens de référence ne permettent pas d'étayer la conclusion.
Google diffuse des informations erronées à une échelle sans précédent, et la plupart des utilisateurs n'en ont pas conscience.
Selon le New York Times, la startup Oumi, mandatée par le journal, a évalué la précision de la fonction AI Overviews de Google en utilisant le test de référence SimpleQA, développé par OpenAI. Le test, portant sur 4326 requêtes de recherche, a été réalisé en octobre dernier (alimenté par Gemini 2) puis en février de cette année (après la mise à niveau vers Gemini 3). Les résultats montrent que le taux de précision de Gemini 2 était d'environ 85 %, et qu'il est passé à 91 % avec Gemini 3.
91 % semble correct, mais à l'échelle de Google, c'est une autre histoire. Google traite environ 5 000 milliards de requêtes de recherche par an. Avec un taux d'erreur de 9 %, AI Overviews génère plus de 57 millions de réponses inexactes par heure, soit près d'un million par minute.
La réponse est juste, mais la source est fausse
Plus inquiétant que le taux de précision est le problème du « décrochage » des sources de référence.
Les données d'Oumi montrent qu'à l'ère de Gemini 2, 37 % des réponses correctes présentaient un problème de « référence non fondée », c'est-à-dire que les liens fournis dans le résumé IA ne soutenaient pas l'information donnée. Après la mise à niveau vers Gemini 3, ce pourcentage n'a pas diminué mais a augmenté pour atteindre 56 %. En d'autres termes, le modèle donne de plus en plus de réponses correctes sans « rendre ses devoirs » (citer ses sources correctement).
La question du PDG d'Oumi, Manos Koukoumidis, est on point : « Même si la réponse est correcte, comment le savez-vous ? Comment pouvez-vous le vérifier ? »
Le fait qu'AI Overviews cite abondamment des sources de faible qualité aggrave ce problème. Oumi a découvert que Facebook et Reddit étaient respectivement les deuxième et quatrième sources les plus citées par AI Overviews. Parmi les réponses inexactes, Facebook était cité dans 7 % des cas, contre 5 % pour les réponses exactes.
Un faux article d'un journaliste de la BBC a « empoisonné » les résultats en moins de 24 heures
Un autre défaut grave d'AI Overviews est sa facilité à être manipulé.
Un journaliste de la BBC a testé le système avec un article délibérément fabriqué de toutes pièces. En moins de 24 heures, le résumé IA de Google présentait les fausses informations de l'article comme des faits aux utilisateurs.
Cela signifie que toute personne comprenant le fonctionnement du système pourrait potentiellement « empoisonner » les résultats de recherche IA en publiant du contenu faux et en augmentant son trafic. La réponse du porte-parole de Google, Ned Adriance, a été que la fonction de recherche IA s'appuie sur les mêmes mécanismes de classement et de sécurité que ceux utilisés pour bloquer le spam, et que « la plupart des exemples [du test] sont des requêtes irréalistes que les gens ne rechercheraient pas réellement ».
La contre-argumentation de Google : le test lui-même est problématique
Google a soulevé plusieurs objections concernant l'étude d'Oumi. Un porte-parole a qualifié l'étude de « gravement lacunaire », pour les raisons suivantes : le test de référence SimpleQA contient lui-même des informations inexactes ; Oumi a utilisé son propre modèle d'IA, HallOumi, pour évaluer les performances d'une autre IA, ce qui pourrait introduire des erreurs supplémentaires ; le contenu testé ne reflète pas le comportement de recherche réel des utilisateurs.
Les tests internes de Google ont également montré que Gemini 3, fonctionnant indépendamment du cadre de recherche Google, produisait des sorties hallucinées (fausses) à un taux élevé de 28 %. Mais Google a souligné qu'AI Overviews, en s'appuyant sur le système de classement des recherches, améliore la précision et surpasse les performances du modèle seul.
Cependant, comme le souligne un commentaire de PCMag mettant en lumière un paradoxe logique : si votre argument de défense est « le rapport qui pointe l'inexactitude de notre IA utilise lui-même une IA potentiellement inexacte », cela n'est probablement pas de nature à renforcer la confiance des utilisateurs en la précision de votre produit.





