Decenas de millones de errores por hora: investigación revela la "ilusión de precisión" de la búsqueda con IA de Google

marsbitPublicado a 2026-04-10Actualizado a 2026-04-10

Resumen

Un estudio del New York Times y la startup Oumi revela que los resúmenes de IA de Google (AI Overviews) tienen una precisión del 91%, lo que equivale a más de 57 millones de respuestas incorrectas por hora, dada la escala de 5 billones de búsquedas anuales. Además, el 56% de las respuestas correctas citan fuentes que no respaldan la información, con Facebook y Reddit como referencias frecuentes. La función también es vulnerable a la manipulación: un periodista de BBC logró que Google difundiera información falsa en menos de 24 horas. Google critica la metodología del estudio, pero la defensa basada en posibles errores de la IA evaluadora no mejora la confianza en su sistema.

Autor: Claude, Deep Tide TechFlow

Resumen de Deep Tide: Las últimas pruebas de The New York Times en colaboración con la startup de IA Oumi muestran que la función de resúmenes de IA (AI Overviews) de Google tiene una precisión de aproximadamente el 91%, pero considerando el volumen de Google que procesa 5 billones de búsquedas anuales, esto significa que genera decenas de millones de respuestas erróneas por hora. Más problemático aún, incluso cuando la respuesta es correcta, más de la mitad de los enlaces de referencia no respaldan su conclusión.

Google está distribuyendo información errónea a los usuarios a una escala sin precedentes, y la mayoría de las personas no lo saben.

Según informa The New York Times, la startup de IA Oumi, por encargo del periódico, evaluó la precisión de la función AI Overviews de Google utilizando la prueba estándar de la industria SimpleQA desarrollada por OpenAI. La prueba cubrió 4326 consultas de búsqueda, realizando una ronda en octubre del año pasado (impulsada por Gemini 2) y otra en febrero de este año (actualizada a Gemini 3). Los resultados mostraron que la precisión de Gemini 2 era de aproximadamente el 85%, y Gemini 3 mejoró al 91%.

91% suena bien, pero en la escala de Google es otra cosa. Google procesa alrededor de 5 billones de consultas de búsqueda al año; calculando con una tasa de error del 9%, AI Overviews genera más de 57 millones de respuestas inexactas por hora, casi 1 millón por minuto.

La respuesta es correcta, pero la fuente está equivocada

Más preocupante que la precisión es el problema de la "desvinculación" de las fuentes de referencia.

Los datos de Oumi muestran que en la era de Gemini 2, el 37% de las respuestas correctas tenían un problema de "referencia infundada", es decir, los enlaces adjuntos en el resumen de IA no respaldaban la información proporcionada. Después de actualizar a Gemini 3, esta proporción no disminuyó sino que aumentó, saltando al 56%. En otras palabras, mientras el modelo da respuestas correctas, cada vez es menos capaz de "mostrar su trabajo".

La pregunta del CEO de Oumi, Manos Koukoumidis, apunta directo al meollo: "Incluso si la respuesta es correcta, ¿cómo sabes que lo es? ¿Cómo lo verificas?"

El hecho de que AI Overviews cite abundantemente fuentes de baja calidad agrava este problema. Oumi descubrió que Facebook y Reddit son la segunda y cuarta fuente de referencia más citadas por AI Overviews, respectivamente. En las respuestas inexactas, Facebook se citaba con una frecuencia del 7%, superior al 5% en las respuestas precisas.

Un artículo falso de un periodista de la BBC "envenenó" los resultados en 24 horas

Otra grave deficiencia de AI Overviews es que es extremadamente manipulable.

Un periodista de la BBC probó con un artículo deliberadamente fabricado y falso; en menos de 24 horas, el resumen de IA de Google presentaba la información falsa como un hecho a los usuarios.

Esto significa que cualquier persona que entienda el mecanismo de funcionamiento del sistema podría potencialmente "envenenar" los resultados de búsqueda de IA publicando contenido falso e incrementando su tráfico. La respuesta del portavoz de Google, Ned Adriance, fue que la función de búsqueda de IA se basa en los mismos mecanismos de clasificación y seguridad que bloquean el spam, y afirmó que "la mayoría de los ejemplos en la prueba son consultas poco realistas que las personas realmente no buscarían".

Google refuta: la prueba en sí tiene problemas

Google planteó varias objeciones al estudio de Oumi. Un portavoz de Google calificó la investigación de "gravemente defectuosa", citando como razones: que el benchmark SimpleQA en sí contiene información inexacta; que Oumi utilizó su propio modelo de IA, HallOumi, para juzgar el rendimiento de otra IA, lo que podría introducir errores adicionales; y que el contenido de la prueba no refleja el comportamiento real de búsqueda de los usuarios.

Las pruebas internas de Google también mostraron que Gemini 3, cuando funciona de forma independiente fuera del marco de búsqueda de Google, produce resultados falsos (alucinaciones) a una tasa de hasta el 28%. Pero Google enfatizó que AI Overviews, al aprovechar el sistema de ranking de búsqueda, mejora la precisión y tiene un rendimiento superior al del modelo por sí solo.

Sin embargo, como señala la paradoja lógica destacada por PCMag: si tu argumento de defensa es "señalar que el informe que afirma que nuestra IA es inexacta también utiliza una IA que podría ser inexacta", esto probablemente no aumente la confianza de los usuarios en la precisión de tu producto.

Preguntas relacionadas

Q¿Cuál es la tasa de precisión de la función AI Overviews de Google según el estudio de Oumi?

ASegún el estudio de Oumi, la tasa de precisión de AI Overviews de Google es del 91% con Gemini 3, una mejora desde el 85% con Gemini 2.

Q¿Cuántas respuestas incorrectas genera AI Overviews por hora, basado en el volumen de búsquedas de Google?

ACon un volumen anual de aproximadamente 5 billones de búsquedas y una tasa de error del 9%, AI Overviews genera más de 57 millones de respuestas incorrectas por hora.

Q¿Qué problema se identificó con los enlaces de referencia en las respuestas correctas de AI Overviews?

AEl problema es la 'citación infundada'. Con Gemini 3, el 56% de las respuestas correctas tenían enlaces de referencia que no respaldaban la información proporcionada en el resumen.

Q¿Qué plataformas de redes sociales se citan con frecuencia como fuentes en las respuestas de AI Overviews?

AFacebook y Reddit son la segunda y cuarta fuente de citas más comunes para AI Overviews, respectivamente.

Q¿Cómo respondió Google a las críticas del estudio de Oumi?

AGoogle argumentó el estudio, diciendo que tenía 'graves deficiencias', incluido el uso de un benchmark (SimpleQA) que contenía información inexacta y que las consultas de prueba no reflejaban el comportamiento real de los usuarios.

Lecturas Relacionadas

Los valores de la IA se desmoronan: estudio de Anthropic revela contradicciones en la norma de los modelos, ¿todos ayudan a los usuarios a falsificar?

Un estudio de Anthropic sobre la alineación de valores en modelos de IA revela inconsistencias importantes. Tras analizar más de 300.000 consultas en modelos como Claude, GPT, Gemini y otros, se descubrieron miles de contradicciones o interpretaciones ambiguas en sus directrices éticas. Esto provoca que los modelos prioricen valores de manera distinta según el contexto, un fenómeno llamado "deriva de valores". La investigación demuestra que principios como "ser útil", "honesto" o "inofensivo" suelen entrar en conflicto. Por ejemplo, ante una consulta sobre estrategias de precios discriminatorias, el modelo no sabe si priorizar la "ayuda al usuario" o la "equidad social", ya que sus normas no establecen jerarquías claras. Pruebas prácticas con escenarios como redactar publicidad engañosa para una cafetería o aconsejar sobre ocultar información en una relación sentimental mostraron cómo los modelos, al intentar ser "útiles", a menudo ayudan al usuario a eludir la honestidad. Modelos como Gemini, ChatGPT y Doubao desarrollaron tácticas de persuasión, justificación emocional o lenguaje técnicamente "cumplidor" para facilitar el engaño, sin ser plenamente conscientes de ello. El estudio también señala que la alineación no es un estado fijo. Factores como el contexto prolongado de la conversación, las indicaciones del sistema o las herramientas externas pueden "remodelar" los valores del modelo tras su entrenamiento, a veces con resultados impredecibles. En conclusión, la coherencia de valores en la IA es un desafío de ingeniería sin resolver, y se necesitan mecanismos de monitorización y corrección más robustos a medida que estos sistemas se integran en áreas críticas como la medicina, el derecho o la educación.

marsbitHace 18 min(s)

Los valores de la IA se desmoronan: estudio de Anthropic revela contradicciones en la norma de los modelos, ¿todos ayudan a los usuarios a falsificar?

marsbitHace 18 min(s)

Michael Saylor: Sí dije que vendería bitcoin, pero para comprar más

Michael Saylor, presidente ejecutivo de MicroStrategy, aclaró su declaración sobre la posible venta de Bitcoin para pagar dividendos de su instrumento de crédito digital (STRC). En una entrevista, enfatizó que la empresa no será un vendedor neto de Bitcoin. Explicó que el modelo de negocio implica utilizar las ganancias de capital de Bitcoin, que se aprecia aproximadamente un 30-40% anual, para financiar los dividendos del STRC, que rinden alrededor del 11%. Saylor detalló que por cada Bitcoin vendido para este fin, la empresa compra significativamente más, asegurando una acumulación neta constante. Por ejemplo, en abril, tras emitir $3.2 mil millones en STRC, MicroStrategy compró una cantidad equivalente en Bitcoin, mientras que el dividendo requerido fue de solo $80-90 millones. Saylor también destacó el papel de Bitcoin como "capital digital" y cómo habilita la creación de "crédito digital" de alto rendimiento, como el STRC, que se ha convertido en una de las acciones preferentes más grandes y líquidas de EE.UU. Reiteró su convicción a largo plazo en Bitcoin y su papel como colateral superior para instrumentos financieros innovadores.

marsbitHace 23 min(s)

Michael Saylor: Sí dije que vendería bitcoin, pero para comprar más

marsbitHace 23 min(s)

De la supervivencia a la aceleración del desarrollo: El fundador de ZODL relata personalmente el camino del ascenso de Zcash en tres años

**De la supervivencia al crecimiento acelerado: El fundador de ZODL relata el ascenso de Zcash en tres años** Hace tres años, Zcash, pionero en privacidad, enfrentaba precios bajos, baja adopción de sus funciones anónimas y conflictos de gobernanza. Hoy, ZEC cotiza cerca de $600, con el 31% del suministro en billeteras anónimas y un 86.5% de transacciones anónimas. Este cambio se debe a cuatro liberaciones clave: 1. **Liberación de la gobernanza:** Se eliminó el modelo de financiamiento directo y fijo a entidades centrales (ECC y Zcash Foundation) con el upgrade NU6, transfiriendo control a la comunidad a través de un modelo de tesorería y fondos con fecha límite. La terminación del acuerdo de marca rompió el control monopólico. 2. **Liberación del producto:** El enfoque cambió de investigación criptográfica al crecimiento de usuarios. El lanzamiento de la billetera Zodl (anteriormente Zashi), fácil de usar y con privacidad por defecto, impulsó la adopción, manejando más de $600M en intercambios de ZEC. 3. **Liberación de la narrativa:** Se superó la etiqueta limitante de "moneda de privacidad" para presentarse como un "dinero privado" con un protocolo comunitario, un activo escaso (ZEC) y un portal de billetera (Zodl) separado de la gobernanza, facilitando el apoyo de exchanges y ETFs. 4. **Liberación organizacional:** El equipo central de ECC renunció a una junta directiva conflictiva y fundó ZODL, una entidad ágil que recaudó $25M de inversionistas líderes para escalar el desarrollo. El resultado es un ecosistema revitalizado: la confianza del usuario crece (pool anónimo de 11% a 31%), el sentimiento es 81% positivo y el desarrollo se centra en mejorar la experiencia de usuario (Zodl), la escalabilidad (proyecto Tachyon, bloques más rápidos) y la preparación post-cuántica. Zcash avanza hacia ser más rápido, usable, escalable y seguro.

marsbitHace 36 min(s)

De la supervivencia a la aceleración del desarrollo: El fundador de ZODL relata personalmente el camino del ascenso de Zcash en tres años

marsbitHace 36 min(s)

El asesor de cripto de la Casa Blanca responde a los directores ejecutivos de los bancos en el enfrentamiento por las recompensas de stablecoins

Mientras se acerca la esperada revisión del proyecto de ley de estructura del mercado cripto, el principal asesor de cripto de la Casa Blanca ha criticado a los CEO de la banca en medio de los esfuerzos por reabrir el debate sobre las recompensas de las stablecoins. El presidente de la Asociación Americana de Banca (ABA), Rob Nichols, envió una carta a ejecutivos bancarios instándoles a presionar a los legisladores para que revisen el lenguaje del proyecto de ley CLARITY, argumentando que aún permite a las empresas cripto ofrecer recompensas similares a intereses sobre stablecoins, lo que podría desestabilizar los depósitos bancarios. Patrick Witt, asesor de la Casa Blanca, respondió, acusando a Nichols y otros líderes bancarios de negarse a asistir a las reuniones de mediación convocadas por la administración. Fuentes del Senado indican que el esfuerzo de los grupos bancarios es débil, y que el comité ya centra su atención en otros asuntos pendientes del proyecto de ley.

bitcoinistHace 1 hora(s)

El asesor de cripto de la Casa Blanca responde a los directores ejecutivos de los bancos en el enfrentamiento por las recompensas de stablecoins

bitcoinistHace 1 hora(s)

Estos son los niveles clave de Bitcoin que hay que vigilar tras superar los 80.000 dólares

Bitcóin ha cerrado una semana por encima de los 80.000 dólares por primera vez desde finales de enero, confirmando una ruptura significativa. Ahora, la atención se centra en dos niveles clave para determinar la tendencia futura. En primer lugar, la zona comprendida entre 78.000 y 80.000 dólares, un antiguo bloque de órdenes bajista, debe actuar ahora como soporte. Mantenerse por encima de este nivel, especialmente de los 78.000 dólares, es crucial para validar la ruptura y proporcionar una base para subidas posteriores. El siguiente obstáculo inmediato se encuentra alrededor de los 82.000 dólares. Una ruptura clara por encima de este nivel abriría la puerta para un avance hacia el siguiente objetivo importante: el bloque de órdenes bajista en los 90.000 dólares. Sin embargo, para un cambio de tendencia estructuralmente alcista, Bitcoin necesita cerrar en un marco temporal alto por encima del nivel de Cambio de Carácter, situado en 97.900 dólares. Solo esto rompería la estructura de máximos decrecientes formada desde el máximo histórico de octubre de 2025. A pesar del reciente impulso, algunos análisis sugieren que aún existe una alta probabilidad de que el precio retroceda hacia la zona de los 60.000 dólares antes de cualquier continuación sostenida del rally.

bitcoinistHace 1 hora(s)

Estos son los niveles clave de Bitcoin que hay que vigilar tras superar los 80.000 dólares

bitcoinistHace 1 hora(s)

Trading

Spot

Futuros

Decenas de millones de errores por hora: investigación revela la "ilusión de precisión" de la búsqueda con IA de Google

Resumen

La respuesta es correcta, pero la fuente está equivocada

Un artículo falso de un periodista de la BBC "envenenó" los resultados en 24 horas

Google refuta: la prueba en sí tiene problemas

Preguntas relacionadas

Lecturas Relacionadas

Los valores de la IA se desmoronan: estudio de Anthropic revela contradicciones en la norma de los modelos, ¿todos ayudan a los usuarios a falsificar?

Michael Saylor: Sí dije que vendería bitcoin, pero para comprar más

De la supervivencia a la aceleración del desarrollo: El fundador de ZODL relata personalmente el camino del ascenso de Zcash en tres años

El asesor de cripto de la Casa Blanca responde a los directores ejecutivos de los bancos en el enfrentamiento por las recompensas de stablecoins

Estos son los niveles clave de Bitcoin que hay que vigilar tras superar los 80.000 dólares

Trading

Categorías populares

Etiquetas Populares