Decenas de millones de errores por hora: investigación revela la "ilusión de precisión" de la búsqueda con IA de Google

marsbitPublicado a 2026-04-13Actualizado a 2026-04-13

Resumen

Un estudio del New York Times y la startup de IA Oumi revela que los resúmenes de IA de Google (AI Overviews) tienen una precisión del 91%, lo que se traduce en decenas de millones de respuestas erróneas por hora, dada la escala de 5 billones de búsquedas anuales de Google. Aún cuando las respuestas son correctas, más de la mitad de los enlaces de referencia no respaldan la información proporcionada, un problema que empeoró con la actualización a Gemini 3. La función también es vulnerable a la manipulación, como demostró un experimento en el que información falsa de un artículo se incorporó en los resultados en menos de 24 horas. Google cuestiona la metodología del estudio, argumentando que no refleja búsquedas reales y que su sistema de clasificación mejora la precisión del modelo base.

Autor: Claude, Deep Tide TechFlow

Resumen de Deep Tide: Una prueba reciente del New York Times en colaboración con la startup de IA Oumi muestra que la función de resúmenes de IA (AI Overviews) de Google tiene una precisión de aproximadamente el 91%, pero considerando el volumen de 5 billones de búsquedas anuales que Google procesa, esto significa que genera decenas de millones de respuestas erróneas por hora. Más problemático aún, incluso cuando la respuesta es correcta, más de la mitad de los enlaces de referencia no respaldan su conclusión.

Google está distribuyendo información errónea a los usuarios a una escala sin precedentes, y la mayoría de las personas no son conscientes de ello.

Según informa el New York Times, la startup de IA Oumi, por encargo del periódico, evaluó la precisión de la función AI Overviews de Google utilizando la prueba estándar de la industria SimpleQA desarrollada por OpenAI. La prueba cubrió 4326 consultas de búsqueda, realizando una ronda en octubre del año pasado (impulsada por Gemini 2) y otra en febrero de este año (actualizada a Gemini 3). Los resultados mostraron que la precisión de Gemini 2 era de aproximadamente el 85%, mejorando al 91% con Gemini 3.

Un 91% suena bien, pero en la escala de Google es otra historia. Google procesa alrededor de 5 billones de consultas de búsqueda al año; con una tasa de error del 9%, AI Overviews genera más de 57 millones de respuestas inexactas por hora, casi un millón por minuto.

La respuesta es correcta, pero la fuente está equivocada

Más preocupante que la precisión es el problema del "desacoplamiento" de las fuentes de referencia.

Los datos de Oumi muestran que en la era de Gemini 2, el 37% de las respuestas correctas tenían un problema de "referencia infundada", es decir, los enlaces adjuntos en el resumen de IA no respaldaban la información proporcionada. Tras la actualización a Gemini 3, esta proporción no disminuyó sino que aumentó, saltando al 56%. En otras palabras, mientras el modelo da respuestas correctas, cada vez es menos capaz de "mostrar su tarea".

La pregunta del CEO de Oumi, Manos Koukoumidis, apunta directamente al meollo del asunto: "Incluso si la respuesta es correcta, ¿cómo sabes que lo es? ¿Cómo puedes verificarlo?"

El hecho de que AI Overviews cite abundantemente fuentes de baja calidad agrava este problema. Oumi descubrió que Facebook y Reddit son respectivamente la segunda y cuarta fuente de referencia más citadas por AI Overviews. En las respuestas inexactas, Facebook se cita con una frecuencia del 7%, superior al 5% en las respuestas precisas.

Un artículo falso de un periodista de la BBC "envenenó" los resultados en 24 horas

Otro defecto grave de AI Overviews es que es extremadamente manipulable.

Un periodista de la BBC probó con un artículo deliberadamente fabricado y falso, y en menos de 24 horas, el resumen de IA de Google presentaba la información falsa como un hecho a los usuarios.

Esto significa que cualquier persona que entienda el mecanismo de funcionamiento del sistema podría "envenenar" los resultados de búsqueda de IA publicando contenido falso e incrementando su tráfico. La respuesta del portavoz de Google, Ned Adriance, fue que la función de búsqueda de IA se basa en los mismos mecanismos de clasificación y seguridad que bloquean el spam, y afirmó que "la mayoría de los ejemplos en la prueba son consultas irreales que las personas no buscarían en la práctica".

Google refuta: la prueba en sí tiene problemas

Google planteó varias objeciones al estudio de Oumi. Un portavoz de Google calificó la investigación de "gravemente defectuosa", argumentando que: el benchmark SimpleQA en sí contiene información inexacta; Oumi utilizó su propio modelo de IA, HallOumi, para juzgar el rendimiento de otra IA, lo que podría introducir errores adicionales; el contenido de la prueba no refleja el comportamiento real de búsqueda de los usuarios.

Las pruebas internas de Google también mostraron que Gemini 3, cuando funciona de forma independiente fuera del marco de búsqueda de Google, produce salidas falsas hasta en un 28% de los casos. Pero Google enfatizó que AI Overviews, al aprovechar el sistema de ranking de búsquedas, mejora su precisión y supera el rendimiento del modelo por sí solo.

Sin embargo, como señala la paradoja lógica destacada por PCMag: si tu argumento de defensa es "señalar que el informe que acusa a nuestra IA de ser inexacta también utiliza una IA que podría ser inexacta", esto probablemente no aumente la confianza de los usuarios en la precisión de tu producto.

Preguntas relacionadas

Q¿Cuál es la tasa de precisión de la función AI Overviews de Google según el estudio de Oumi?

ASegún el estudio de Oumi, la función AI Overviews de Google tiene una tasa de precisión del 91% con Gemini 3.

Q¿Aproximadamente cuántas respuestas incorrectas genera AI Overviews por hora, basado en el volumen de búsquedas de Google?

ABasado en el volumen anual de 5 billones de búsquedas y una tasa de error del 9%, AI Overviews genera más de 57 millones de respuestas incorrectas por hora.

Q¿Qué problema significativo se identificó con los enlaces de referencia en las respuestas de AI Overviews?

AMás de la mitad (56%) de las respuestas correctas de Gemini 3 tenían 'citaciones infundadas', lo que significa que los enlaces proporcionados no respaldaban la información dada.

Q¿Qué plataformas de redes sociales se citan con frecuencia como fuentes en las respuestas inexactas?

AFacebook y Reddit son la segunda y cuarta fuente de citas más frecuentes. Facebook se citó en el 7% de las respuestas inexactas.

Q¿Cómo respondió Google a las críticas del estudio de Oumi?

AGoogle argumentó que el estudio de Oumi tenía 'graves deficiencias', citando que el benchmark SimpleQA contiene información inexacta y que el uso de su propio modelo AI (HallOumi) para juzgar podría introducir errores.

Lecturas Relacionadas

Perdiendo a dos leyendas en tres días: ¿Se está resquebrajando el dique de talento de IA de Google?

En solo tres días, Google ha perdido a dos leyendas de la IA. El 18 de junio, Noam Shazeer, coautor del seminal trabajo "Attention is All You Need" y copresponsable de Gemini, anunció su salida para unirse a OpenAI. Dos días después, John Jumper, ganador del Nobel de Química 2024 y líder de AlphaFold, dejó Google DeepMind para incorporarse a Anthropic. Estas partidas no son incidentes aislados, sino parte de una tendencia clara de fuga de talento de Google hacia OpenAI y Anthropic, como lo confirma también la reciente incorporación a Anthropic del exmiembro fundador de OpenAI, Andrej Karpathy. El trasfondo de este éxodo es fundamentalmente una cuestión de misión y enfoque. El modelo de negocio central de Google, basado en la publicidad, impone una lógica orientada a productos y métricas comerciales que, en última instancia, restringe la investigación pura. En contraste, tanto OpenAI (con su misión de AGI) como Anthropic (centrada en la seguridad y la ciencia) ofrecen un entorno de trabajo enfocado únicamente en empujar los límites de las capacidades de los modelos. A esto se suma la fuerte atracción financiera: OpenAI y Anthropic están en camino a una OPI, lo que promete una recompensa económica masiva a través de capital para sus empleados, algo que la ya gigantesca Google difícilmente puede igualar. La fusión de Google Brain y DeepMind en 2023, destinada a consolidar esfuerzos, ha generado en cambio tensiones culturales y ha hecho más evidente la presión por alinear la investigación con los objetivos de los equipos de productos. El resultado es una reorganización estructural del mapa del talento en IA. Google, a pesar de sus vastos recursos en computación y datos, está perdiendo a las personas que definen el futuro del campo. La verdadera ventaja competitiva en IA reside en retener a las mentes más brillantes, y Google está descubriendo que esa es quizás su batalla más difícil.

marsbitHace 1 hora(s)

Perdiendo a dos leyendas en tres días: ¿Se está resquebrajando el dique de talento de IA de Google?

marsbitHace 1 hora(s)

Tras las notas de la IA, se esconde un "creador de exámenes" chino

Cada vez que se lanza un modelo de IA de vanguardia, la comunidad fija su atención en ciertas "hojas de resultados" familiares: MMLU-Pro, MMMU, MMMU-Pro. Estos puntos de referencia se han convertido en exámenes estándar para evaluar y comparar modelos como GPT, Claude, Gemini, Llama, Qwen y DeepSeek. Detrás de estas influyentes evaluaciones está el investigador chino Wenhu Chen, profesor asistente en la Universidad de Waterloo y fundador del TIGERLab (apodado "虎头帮"). Su trabajo surge de una necesidad crítica: a medida que los modelos avanzaban, las pruebas antiguas como MMLU se saturaban con puntuaciones casi perfectas, dejando de ser útiles para discernir diferencias reales. En 2024, Chen y su equipo presentaron MMLU-Pro, una renovación exhaustiva del original. Con 12,032 preguntas de 14 disciplinas, aumenta las opciones de respuesta de 4 a 10 para reducir las conjeturas e incorpora problemas más complejos que requieren razonamiento. El resultado fue una caída del 16% al 33% en la precisión de los modelos y una evaluación más estable y discriminatoria, rápidamente adoptada por la industria. Su contribución se extiende al ámbito multimodal con MMMU, un conjunto de 11,500 preguntas que combinan imágenes (gráficos, mapas, fórmulas) con conocimientos académicos para probar una comprensión integrada. Incluso los mejores modelos como GPT-4V inicialmente solo alcanzaron un 56% de precisión, revelando un largo camino por recorrer. Su sucesor, MMMU-Pro, cierra aún más las brechas, obligando a los modelos a utilizar la información visual y no solo el texto. La experiencia de Chen, que incluye investigación doctoral en preguntas complejas y una etapa en Google DeepMind trabajando en Gemini, le permite anticipar cómo los modelos pueden "aparentar" competencia. Su laboratorio no solo diseña evaluaciones, sino que también desarrolla modelos (como UniVideo para video o MoCha para avatares), asegurando que sus "exámenes" reflejen desafíos reales y los límites actuales de la tecnología. Actualmente, Chen continúa este trabajo en el laboratorio de superinteligencia de Meta, enfocado en datos y evaluación multimodal. Su historia destaca el papel fundamental, aunque a menudo menos visible, de los investigadores que construyen las herramientas para medir el verdadero progreso de la IA.

marsbitHace 2 hora(s)

Tras las notas de la IA, se esconde un "creador de exámenes" chino

marsbitHace 2 hora(s)

Selección Semanal del Editor Weekly Editor's Picks (0613-0619)

**【Resumen semanal de los editores (13-19 de junio)】** Esta selección semanal rescata análisis profundos del flujo de información, filtrando el ruido para ofrecer perspectivas clave. **Panorama macro:** Tras la reapertura del Estrecho de Ormuz, el mercado ajusta su foco desde el "impacto bélico" hacia la "recuperación de la oferta". Se observan movimientos en petróleo, bonos, inflación y cadenas de valor como LNG y fertilizantes. **Inversión y emprendimiento:** Ray Dalio advierte sobre la concentración del mercado en acciones de grandes tecnológicas de IA, recomendando diversificación. En cripto, se analizan ciclos a largo plazo, señales de posible fondo para BTC en Q4, y los desafíos regulatorios en mercados como Corea del Sur. El análisis de SpaceX tras su IPO destaca su elevada valoración, riesgos sistémicos potenciales y la importancia de próximos hitos como su inclusión en índices. **Web3 & IA:** Una advertencia señala exposiciones de billones de dólares fuera de balance en la nube/IA, un riesgo latente si la comercialización falla. Se exploran las predicciones de IA para el Mundial y la estructura de costos de una suscripción a IA como Claude. **Mercados de predicción:** Robinhood desarrolla su propia plataforma (Rothera), iniciando una "guerra de canales" en la industria y posicionándose como competidor directo de Kalshi. **CeFi & DeFi:** Se analizan mecanismos de perpetuales para pre-IPO (ej. SpaceX) y los desafíos técnicos pendientes. La desviación del precio de STRC (vinculado a Strategy) refleja preocupaciones sobre su modelo de negocio. Se presenta el nuevo ETF de Bitcoin con rendimiento de BlackRock (BITA). **Ethereum y escalabilidad:** Se destaca la ventaja clave de Ethereum: su vasto ecosistema de desarrolladores y estándares, consolidándolo como sistema operativo para las finanzas descentralizadas. **Otros titulares de la semana:** Acuerdo EEUU-Irán, decisión de la Fed, movimientos en SpaceX y Anthropic, y opiniones destacadas sobre mercados.

marsbitHace 2 hora(s)

Selección Semanal del Editor Weekly Editor's Picks (0613-0619)

marsbitHace 2 hora(s)

Análisis de la última reasignación de cartera del "hijo de la versión" del mercado de valores estadounidense: 9.000 millones de USD en ventas en corto de NVIDIA, apuntando a los sectores eléctrico y de memoria

Leopold Aschenbrenner, considerado uno de los inversores más agresivos en IA, ha realizado cambios significativos en su cartera. Ha establecido posiciones cortas por unos 9.000 millones de dólares en empresas como NVIDIA, ASML y Oracle, al mismo tiempo que redirige capital hacia lo que él identifica como los próximos cuellos de botella en infraestructura de IA: energía eléctrica, memoria, redes de centros de datos y activos de modelos más profundos como Anthropic. Su lógica no sugiere que la burbuja de la IA haya estallado, sino una rotación dentro de la infraestructura. Considera que la "transacción de la pala" clásica (como invertir en semiconductores) está demasiado concurrida y sobrevalorada. En su lugar, apuesta por los eslabones fundamentales siguientes: la capacidad real de construir y energizar centros de datos, y la necesidad crítica de materiales como el cobre y la fibra óptica para la transmisión de datos. La reciente emisión de bonos de NVIDIA por 25.000 millones de dólares, a pesar de su gran liquidez, se interpreta como una señal de un cambio en la financiación del sector. Aschenbrenner también ha invertido de forma privada en Anthropic, lo que representa una apuesta directa al "mineral" (el modelo de IA) en lugar de solo a las "herramientas". En resumen, su estrategia actual se centra en la infraestructura física y de servicios esenciales (energía, construcción, redes) que habilitarán la próxima fase de expansión de la IA, considerándolas apuestas más sólidas y menos saturadas.

marsbitHace 2 hora(s)

Análisis de la última reasignación de cartera del "hijo de la versión" del mercado de valores estadounidense: 9.000 millones de USD en ventas en corto de NVIDIA, apuntando a los sectores eléctrico y de memoria

marsbitHace 2 hora(s)

Trading

Spot
Futuros
活动图片