Автор: Клод, Deep Chao TechFlow
Глубинный обзор: Совместное тестирование The New York Times и AI-стартапа Oumi показало, что точность функции AI-анонсов (AI Overviews) в поиске Google составляет около 91%. Однако с учётом масштаба Google, обрабатывающего 5 триллионов поисковых запросов в год, это означает, что ежечасно генерируются десятки миллионов ошибочных ответов. Что ещё серьёзнее, даже при правильных ответах более половины ссылок на источники не подтверждают выводы.
Google в беспрецедентных масштабах поставляет пользователям недостоверную информацию, и большинство об этом даже не подозревает.
Согласно The New York Times, AI-стартап Oumi по её заказу провёл оценку точности функции AI Overviews от Google с использованием отраслевого стандартного теста SimpleQA, разработанного OpenAI. Тестирование охватило 4326 поисковых запросов и проводилось в два этапа: в октябре прошлого года (на движке Gemini 2) и в феврале этого года (после обновления до Gemini 3). Результаты показали, что точность Gemini 2 составила около 85%, а Gemini 3 повысила её до 91%.
91% звучит неплохо, но в масштабах Google это выглядит иначе. Google обрабатывает около 5 триллионов поисковых запросов в год. При 9% уровне ошибок AI Overviews ежечасно генерирует более 57 миллионов неточных ответов, что приближается к 1 миллиону в минуту.
Ответ верный, но источник ошибочен
Беспокойнее, чем точность, является проблема «отрыва» источников цитирования.
Данные Oumi показывают, что во времена Gemini 2 в 37% правильных ответов существовала проблема «необоснованного цитирования», когда прикреплённые к AI-анонсу ссылки не подтверждали предоставленную информацию. После обновления до Gemini 3 этот показатель не снизился, а подскочил до 56%. Иными словами, модель, давая правильные ответы, всё хуже «делает домашнюю работу».
Вопрос генерального директора Oumi Маноса Кукумидиса бьёт в самую суть: «Даже если ответ правильный, откуда ты знаешь, что он правильный? Как ты это проверишь?»
Массовое цитирование AI Overviews низкокачественных источников усугубляет эту проблему. Oumi обнаружила, что Facebook и Reddit являются вторым и четвёртым по частоте источниками цитирования для AI Overviews. Среди неточных ответов Facebook цитировался в 7% случаев, что выше, чем 5% в точных ответах.
Фальшивая статья журналиста BBC «отравила» систему за 24 часа
Ещё один серьёзный недостаток AI Overviews — чрезвычайная лёгкость манипулирования.
Один журналист BBC провёл тест с помощью намеренно сфабрикованной фальшивой статьи, и менее чем за 24 часа AI-анонс Google начал представлять содержащуюся в ней ложную информацию как факт для пользователей.
Это означает, что любой, кто понимает механизм работы системы, может «отравить» AI-результаты поиска, публикуя ложный контент и накручивая его трафик. Пресс-секретарь Google Нед Адрианс в ответ на это заявил, что AI-функция поиска построена на тех же механизмах ранжирования и безопасности, что и блокировка спама, и что «большинство примеров в тесте — это нереалистичные запросы, которые люди на самом деле не ищут».
Возражение Google: проблемы в самом тесте
Google выдвинула ряд претензий к исследованию Oumi. Пресс-секретарь компании назвал это исследование «имеющим серьёзные недостатки»,理由包括: сам эталонный тест SimpleQA содержит неточную информацию; Oumi использовала собственную AI-модель HallOumi для оценки другой AI, что могло внести дополнительную погрешность; содержание теста не отражает реальное поведение пользователей при поиске.
Внутреннее тестирование Google также показало, что при самостоятельной работе Gemini 3 вне框架 поиска Google доля ложных выводов достигает 28%. Но Google подчеркивает, что AI Overviews, используя систему поискового ранжирования, повышает точность и работает лучше, чем модель сама по себе.
Однако, как указывает PCMag, возникает логический парадокс: если ваш довод в защиту — «отчёт, указывающий на неточность нашего AI, сам использует возможно неточный AI», то это вряд ли усилит доверие пользователей к точности вашего продукта.





