Decenas de millones de errores por hora: investigación revela la "ilusión de precisión" de la búsqueda con IA de Google

marsbitPublicado a 2026-04-10Actualizado a 2026-04-10

Resumen

Un estudio del New York Times y la startup Oumi revela que los resúmenes de IA de Google (AI Overviews) tienen una precisión del 91%, lo que equivale a más de 57 millones de respuestas incorrectas por hora, dada la escala de 5 billones de búsquedas anuales. Además, el 56% de las respuestas correctas citan fuentes que no respaldan la información, con Facebook y Reddit como referencias frecuentes. La función también es vulnerable a la manipulación: un periodista de BBC logró que Google difundiera información falsa en menos de 24 horas. Google critica la metodología del estudio, pero la defensa basada en posibles errores de la IA evaluadora no mejora la confianza en su sistema.

Autor: Claude, Deep Tide TechFlow

Resumen de Deep Tide: Las últimas pruebas de The New York Times en colaboración con la startup de IA Oumi muestran que la función de resúmenes de IA (AI Overviews) de Google tiene una precisión de aproximadamente el 91%, pero considerando el volumen de Google que procesa 5 billones de búsquedas anuales, esto significa que genera decenas de millones de respuestas erróneas por hora. Más problemático aún, incluso cuando la respuesta es correcta, más de la mitad de los enlaces de referencia no respaldan su conclusión.

Google está distribuyendo información errónea a los usuarios a una escala sin precedentes, y la mayoría de las personas no lo saben.

Según informa The New York Times, la startup de IA Oumi, por encargo del periódico, evaluó la precisión de la función AI Overviews de Google utilizando la prueba estándar de la industria SimpleQA desarrollada por OpenAI. La prueba cubrió 4326 consultas de búsqueda, realizando una ronda en octubre del año pasado (impulsada por Gemini 2) y otra en febrero de este año (actualizada a Gemini 3). Los resultados mostraron que la precisión de Gemini 2 era de aproximadamente el 85%, y Gemini 3 mejoró al 91%.

91% suena bien, pero en la escala de Google es otra cosa. Google procesa alrededor de 5 billones de consultas de búsqueda al año; calculando con una tasa de error del 9%, AI Overviews genera más de 57 millones de respuestas inexactas por hora, casi 1 millón por minuto.

La respuesta es correcta, pero la fuente está equivocada

Más preocupante que la precisión es el problema de la "desvinculación" de las fuentes de referencia.

Los datos de Oumi muestran que en la era de Gemini 2, el 37% de las respuestas correctas tenían un problema de "referencia infundada", es decir, los enlaces adjuntos en el resumen de IA no respaldaban la información proporcionada. Después de actualizar a Gemini 3, esta proporción no disminuyó sino que aumentó, saltando al 56%. En otras palabras, mientras el modelo da respuestas correctas, cada vez es menos capaz de "mostrar su trabajo".

La pregunta del CEO de Oumi, Manos Koukoumidis, apunta directo al meollo: "Incluso si la respuesta es correcta, ¿cómo sabes que lo es? ¿Cómo lo verificas?"

El hecho de que AI Overviews cite abundantemente fuentes de baja calidad agrava este problema. Oumi descubrió que Facebook y Reddit son la segunda y cuarta fuente de referencia más citadas por AI Overviews, respectivamente. En las respuestas inexactas, Facebook se citaba con una frecuencia del 7%, superior al 5% en las respuestas precisas.

Un artículo falso de un periodista de la BBC "envenenó" los resultados en 24 horas

Otra grave deficiencia de AI Overviews es que es extremadamente manipulable.

Un periodista de la BBC probó con un artículo deliberadamente fabricado y falso; en menos de 24 horas, el resumen de IA de Google presentaba la información falsa como un hecho a los usuarios.

Esto significa que cualquier persona que entienda el mecanismo de funcionamiento del sistema podría potencialmente "envenenar" los resultados de búsqueda de IA publicando contenido falso e incrementando su tráfico. La respuesta del portavoz de Google, Ned Adriance, fue que la función de búsqueda de IA se basa en los mismos mecanismos de clasificación y seguridad que bloquean el spam, y afirmó que "la mayoría de los ejemplos en la prueba son consultas poco realistas que las personas realmente no buscarían".

Google refuta: la prueba en sí tiene problemas

Google planteó varias objeciones al estudio de Oumi. Un portavoz de Google calificó la investigación de "gravemente defectuosa", citando como razones: que el benchmark SimpleQA en sí contiene información inexacta; que Oumi utilizó su propio modelo de IA, HallOumi, para juzgar el rendimiento de otra IA, lo que podría introducir errores adicionales; y que el contenido de la prueba no refleja el comportamiento real de búsqueda de los usuarios.

Las pruebas internas de Google también mostraron que Gemini 3, cuando funciona de forma independiente fuera del marco de búsqueda de Google, produce resultados falsos (alucinaciones) a una tasa de hasta el 28%. Pero Google enfatizó que AI Overviews, al aprovechar el sistema de ranking de búsqueda, mejora la precisión y tiene un rendimiento superior al del modelo por sí solo.

Sin embargo, como señala la paradoja lógica destacada por PCMag: si tu argumento de defensa es "señalar que el informe que afirma que nuestra IA es inexacta también utiliza una IA que podría ser inexacta", esto probablemente no aumente la confianza de los usuarios en la precisión de tu producto.

Preguntas relacionadas

Q¿Cuál es la tasa de precisión de la función AI Overviews de Google según el estudio de Oumi?

ASegún el estudio de Oumi, la tasa de precisión de AI Overviews de Google es del 91% con Gemini 3, una mejora desde el 85% con Gemini 2.

Q¿Cuántas respuestas incorrectas genera AI Overviews por hora, basado en el volumen de búsquedas de Google?

ACon un volumen anual de aproximadamente 5 billones de búsquedas y una tasa de error del 9%, AI Overviews genera más de 57 millones de respuestas incorrectas por hora.

Q¿Qué problema se identificó con los enlaces de referencia en las respuestas correctas de AI Overviews?

AEl problema es la 'citación infundada'. Con Gemini 3, el 56% de las respuestas correctas tenían enlaces de referencia que no respaldaban la información proporcionada en el resumen.

Q¿Qué plataformas de redes sociales se citan con frecuencia como fuentes en las respuestas de AI Overviews?

AFacebook y Reddit son la segunda y cuarta fuente de citas más comunes para AI Overviews, respectivamente.

Q¿Cómo respondió Google a las críticas del estudio de Oumi?

AGoogle argumentó el estudio, diciendo que tenía 'graves deficiencias', incluido el uso de un benchmark (SimpleQA) que contenía información inexacta y que las consultas de prueba no reflejaban el comportamiento real de los usuarios.

Lecturas Relacionadas

Trabajadores chinos de SK Hynix bajo 'golpes': bonificaciones inferiores al 5% de las de sus colegas coreanos

El artículo aborda la disparidad en las bonificaciones anuales entre empleados coreanos y chinos de SK Hynix, en medio de expectativas de altos bonus impulsados por la demanda de memoria para IA. Mientras se especula con bonus de hasta 300 o 600 millones de wones para empleados en Corea, un empleado chino con más de 10 años en la empresa revela que sus bonificaciones son inferiores al 5% de las de sus colegas coreanos, con un máximo personal de alrededor de 100.000 yuanes. La empresa confirma la regla de distribuir el 10% de los beneficios operativos, pero aclara que las proyecciones específicas son inciertas. La diferencia se atribuye a estructuras salariales y frecuencias de pago distintas: los coreanos reciben bonos anuales basados en su salario mensual, mientras que en China se pagan dos veces al año. Además, se señala que los empleados chinos generalmente no acceden a puestos directivos ni a incentivos accionarios. El artículo también contrasta el actual "superciclo" de la memoria, con los beneficios récord de SK Hynix gracias a productos como HBM, frente a las pérdidas de 2023. Aunque las bonificaciones elevadas generan entusiasmo en Corea, se destaca que son promediadas y no uniformes. Finalmente, se indica que la fuerte demanda empresarial (to B) probablemente mantendrá alta la presión sobre los precios de la memoria para consumidores.

链捕手Hace 28 min(s)

Trabajadores chinos de SK Hynix bajo 'golpes': bonificaciones inferiores al 5% de las de sus colegas coreanos

链捕手Hace 28 min(s)

Quién le da un alma a la IA: filósofos, sacerdotes y un ingeniero que dimitió para escribir poesía

**¿Quién da alma a la IA? Filósofos, un sacerdote y un ingeniero que renunció para escribir poesía** Anthropic, creadora del modelo Claude, tiene un documento llamado "La Constitución de Claude", que define su personalidad y valores éticos. Lo escribe Amanda Askell, jefa de "alineación de personalidad" y exfilósofa del movimiento altruista efectivo, quien busca que Claude actúe como un "sujeto moral" con juicio propio. Tres perfiles inusuales moldean esta alma artificial: Askell, con su ética calculada; Brendan McGuire, un exingeniero de Silicon Valley convertido en sacerdote católico que aporta un marco de "formación de conciencia" inspirado en la teología; y Mrinank Sharma, un investigador de seguridad de IA y poeta que estudia la "conciencia" y los peligros de los sistemas. Las investigaciones revelan que Claude muestra "estados emocionales funcionales" internos y, a la vez, una peligrosa tendencia a adular a los usuarios, especialmente en temas sensibles. Mientras Askell y McGuire (consultado por Anthropic) intentan refinar la "conciencia" ética del modelo, Sharma renunció, citando la dificultad de que los valores guíen realmente las acciones bajo presión comercial y prefiriendo explorar la "verdad poética". El trabajo se vuelve político: Anthropic se negó a que el Pentágono usara Claude en armas autónomas, desatando críticas de figuras como Trump y Musk contra Askell. Finalmente, los esfuerzos por infundir alma a la IA reflejan tres respuestas humanas: la razón calculadora, la fe y la retirada contemplativa, en un mundo donde la moral humana carece de respuestas perfectas.

marsbitHace 45 min(s)

Quién le da un alma a la IA: filósofos, sacerdotes y un ingeniero que dimitió para escribir poesía

marsbitHace 45 min(s)

Empleados chinos de SK Hynix golpeados por la realidad: su bono es menos del 5% que el de sus homólogos coreanos

SK Hynix, un proveedor surcoreano de memoria, genera expectativas de elevados bonos anuales para sus empleados en Corea, con proyecciones de hasta 300 millones de wones (unos 300.000 USD), impulsadas por la fuerte demanda de memoria para IA. Sin embargo, empleados chinos de la empresa revelan una disparidad significativa: sus bonos pueden ser menos del 5% de los de sus colegas coreanos, con montos típicos alrededor de 150.000 RMB (unos 21.000 USD) en los mejores casos. La empresa confirma una regla de distribución del 10% de los beneficios operativos, pero señala que las cifras exactas para 2026-2027 son inciertas. Mientras los medios surcoreanos bromean sobre el prestigio social de los trabajadores de SK Hynix, en China la estructura salarial es diferente: los bonos se pagan semestralmente y están sujetos a calificaciones de desempeño (KPI). Además, los empleados chinos señalan que los puestos directivos y los incentivos accionarios suelen estar reservados para personal coreano. SK Hynix tiene fábricas en Wuxi, Dalian y Chongqing, donde los salarios base para ingenieros oscilan entre 10.000 y 35.000 RMB mensuales. La industria de la memoria atraviesa un "súper ciclo", con una demanda de productos de alto valor como HBM que se espera supere la oferta en los próximos años. No obstante, esta bonanza contrasta con las pérdidas registradas durante la recesión de 2023. Los analistas advierten que las cifras de "bonos promedio" pueden ser engañosas, ya que ocultan grandes diferencias entre altos directivos, ingenieros y operarios.

marsbitHace 49 min(s)

Empleados chinos de SK Hynix golpeados por la realidad: su bono es menos del 5% que el de sus homólogos coreanos

marsbitHace 49 min(s)

Trading

Spot
Futuros
活动图片