Decenas de millones de errores por hora: investigación revela la "ilusión de precisión" de la búsqueda con IA de Google

marsbitPublicado a 2026-04-10Actualizado a 2026-04-10

Resumen

Un estudio del New York Times y la startup Oumi revela que los resúmenes de IA de Google (AI Overviews) tienen una precisión del 91%, lo que equivale a más de 57 millones de respuestas incorrectas por hora, dada la escala de 5 billones de búsquedas anuales. Además, el 56% de las respuestas correctas citan fuentes que no respaldan la información, con Facebook y Reddit como referencias frecuentes. La función también es vulnerable a la manipulación: un periodista de BBC logró que Google difundiera información falsa en menos de 24 horas. Google critica la metodología del estudio, pero la defensa basada en posibles errores de la IA evaluadora no mejora la confianza en su sistema.

Autor: Claude, Deep Tide TechFlow

Resumen de Deep Tide: Las últimas pruebas de The New York Times en colaboración con la startup de IA Oumi muestran que la función de resúmenes de IA (AI Overviews) de Google tiene una precisión de aproximadamente el 91%, pero considerando el volumen de Google que procesa 5 billones de búsquedas anuales, esto significa que genera decenas de millones de respuestas erróneas por hora. Más problemático aún, incluso cuando la respuesta es correcta, más de la mitad de los enlaces de referencia no respaldan su conclusión.

Google está distribuyendo información errónea a los usuarios a una escala sin precedentes, y la mayoría de las personas no lo saben.

Según informa The New York Times, la startup de IA Oumi, por encargo del periódico, evaluó la precisión de la función AI Overviews de Google utilizando la prueba estándar de la industria SimpleQA desarrollada por OpenAI. La prueba cubrió 4326 consultas de búsqueda, realizando una ronda en octubre del año pasado (impulsada por Gemini 2) y otra en febrero de este año (actualizada a Gemini 3). Los resultados mostraron que la precisión de Gemini 2 era de aproximadamente el 85%, y Gemini 3 mejoró al 91%.

91% suena bien, pero en la escala de Google es otra cosa. Google procesa alrededor de 5 billones de consultas de búsqueda al año; calculando con una tasa de error del 9%, AI Overviews genera más de 57 millones de respuestas inexactas por hora, casi 1 millón por minuto.

La respuesta es correcta, pero la fuente está equivocada

Más preocupante que la precisión es el problema de la "desvinculación" de las fuentes de referencia.

Los datos de Oumi muestran que en la era de Gemini 2, el 37% de las respuestas correctas tenían un problema de "referencia infundada", es decir, los enlaces adjuntos en el resumen de IA no respaldaban la información proporcionada. Después de actualizar a Gemini 3, esta proporción no disminuyó sino que aumentó, saltando al 56%. En otras palabras, mientras el modelo da respuestas correctas, cada vez es menos capaz de "mostrar su trabajo".

La pregunta del CEO de Oumi, Manos Koukoumidis, apunta directo al meollo: "Incluso si la respuesta es correcta, ¿cómo sabes que lo es? ¿Cómo lo verificas?"

El hecho de que AI Overviews cite abundantemente fuentes de baja calidad agrava este problema. Oumi descubrió que Facebook y Reddit son la segunda y cuarta fuente de referencia más citadas por AI Overviews, respectivamente. En las respuestas inexactas, Facebook se citaba con una frecuencia del 7%, superior al 5% en las respuestas precisas.

Un artículo falso de un periodista de la BBC "envenenó" los resultados en 24 horas

Otra grave deficiencia de AI Overviews es que es extremadamente manipulable.

Un periodista de la BBC probó con un artículo deliberadamente fabricado y falso; en menos de 24 horas, el resumen de IA de Google presentaba la información falsa como un hecho a los usuarios.

Esto significa que cualquier persona que entienda el mecanismo de funcionamiento del sistema podría potencialmente "envenenar" los resultados de búsqueda de IA publicando contenido falso e incrementando su tráfico. La respuesta del portavoz de Google, Ned Adriance, fue que la función de búsqueda de IA se basa en los mismos mecanismos de clasificación y seguridad que bloquean el spam, y afirmó que "la mayoría de los ejemplos en la prueba son consultas poco realistas que las personas realmente no buscarían".

Google refuta: la prueba en sí tiene problemas

Google planteó varias objeciones al estudio de Oumi. Un portavoz de Google calificó la investigación de "gravemente defectuosa", citando como razones: que el benchmark SimpleQA en sí contiene información inexacta; que Oumi utilizó su propio modelo de IA, HallOumi, para juzgar el rendimiento de otra IA, lo que podría introducir errores adicionales; y que el contenido de la prueba no refleja el comportamiento real de búsqueda de los usuarios.

Las pruebas internas de Google también mostraron que Gemini 3, cuando funciona de forma independiente fuera del marco de búsqueda de Google, produce resultados falsos (alucinaciones) a una tasa de hasta el 28%. Pero Google enfatizó que AI Overviews, al aprovechar el sistema de ranking de búsqueda, mejora la precisión y tiene un rendimiento superior al del modelo por sí solo.

Sin embargo, como señala la paradoja lógica destacada por PCMag: si tu argumento de defensa es "señalar que el informe que afirma que nuestra IA es inexacta también utiliza una IA que podría ser inexacta", esto probablemente no aumente la confianza de los usuarios en la precisión de tu producto.

Preguntas relacionadas

Q¿Cuál es la tasa de precisión de la función AI Overviews de Google según el estudio de Oumi?

ASegún el estudio de Oumi, la tasa de precisión de AI Overviews de Google es del 91% con Gemini 3, una mejora desde el 85% con Gemini 2.

Q¿Cuántas respuestas incorrectas genera AI Overviews por hora, basado en el volumen de búsquedas de Google?

ACon un volumen anual de aproximadamente 5 billones de búsquedas y una tasa de error del 9%, AI Overviews genera más de 57 millones de respuestas incorrectas por hora.

Q¿Qué problema se identificó con los enlaces de referencia en las respuestas correctas de AI Overviews?

AEl problema es la 'citación infundada'. Con Gemini 3, el 56% de las respuestas correctas tenían enlaces de referencia que no respaldaban la información proporcionada en el resumen.

Q¿Qué plataformas de redes sociales se citan con frecuencia como fuentes en las respuestas de AI Overviews?

AFacebook y Reddit son la segunda y cuarta fuente de citas más comunes para AI Overviews, respectivamente.

Q¿Cómo respondió Google a las críticas del estudio de Oumi?

AGoogle argumentó el estudio, diciendo que tenía 'graves deficiencias', incluido el uso de un benchmark (SimpleQA) que contenía información inexacta y que las consultas de prueba no reflejaban el comportamiento real de los usuarios.

Lecturas Relacionadas

Trader de Bitcoin Afirma que los Máximos y Mínimos de los Ciclos Coinciden en Conteos de Días Exactos

El trader Ryan (@DodysDD) afirma haber descubierto un patrón cíclico "perfecto" en Bitcoin, donde los periodos alcistas (de mínimo a máximo) de 2014-2017, 2018-2021 y 2022-2025 habrían durado exactamente 1.064 días cada uno. Asimismo, los periodos bajistas (de máximo a mínimo) de 2017-2018 y 2021-2022 habrían durado precisamente 364 días. Esta teoría sugiere una estructura temporal repetible que atrae a los operadores por ofrecer un marco simple para anticipar ciclos. Sin embargo, el análisis señala los riesgos de estas afirmaciones: la precisión suele depender de seleccionar puntos máximos y mínimos específicos, lo que puede llevar a una elección sesgada de datos. No existe evidencia de que Bitcoin se rija por un temporizador exacto a nivel de días, ya que factores como los halvings, condiciones macroeconómicas y la psicología del inversor también influyen. Aunque las narrativas cíclicas siguen siendo poderosas en las criptomonedas y ofrecen un relato simplificado en momentos de incertidumbre, las afirmaciones basadas en conteos de días exactos merecen escepticismo. Sirven más como un elemento de discusión en el mercado que como una predicción de precios confirmada.

bitcoinistHace 1 hora(s)

Trader de Bitcoin Afirma que los Máximos y Mínimos de los Ciclos Coinciden en Conteos de Días Exactos

bitcoinistHace 1 hora(s)

94.000 millones de yuanes, la mayor financiación de este año para robots humanoides ha aparecido

La empresa de robótica humana Neura, con sede en Múnich, ha completado una ronda de financiación Serie C de 14.000 millones de dólares (unos 94.900 millones de RMB), lo que supone la mayor inversión del año en este sector. Tras la operación, su valoración alcanza los 70.000 millones de dólares. La relevancia de esta ronda radica en la participación de inversores industriales como Schaeffler y Bosch, lo que señala un cambio estratégico: el foco pasa de la demostración tecnológica a la implementación práctica en fábricas. Neura, fundada por el experto en robótica industrial Armin Zeher, ha priorizado desde el inicio la aplicabilidad en entornos de producción real, contando ya con BMW como cliente. Otros inversores como NVIDIA, Amazon y Qualcomm aportan perspectivas complementarias en infraestructura de computación, logística y tecnología. El sector de la robótica humana está experimentando una afluencia masiva de capital, impulsada por dos factores clave: los avances en modelos de IA de gran escala, que mejoran la percepción y la toma de decisiones de los robots, y la creciente presión por la escasez y el encarecimiento de la mano de obra en la manufactura global. Actualmente, las empresas siguen dos caminos principales: los robots humanoides de propósito general (como Figure AI), con un horizonte comercial a más largo plazo, y los enfocados en escenarios industriales verticales y específicos (como Neura), que ofrecen una ruta de comercialización más rápida y definida. El campo de batalla real para estos robots ya no es el laboratorio, sino el suelo de la fábrica. Los escenarios de manufactura industrial, por su entorno estructurado y tareas repetitivas, se consideran los primeros en permitir una adopción a escala. Los entornos de trabajo peligrosos también tienen un gran potencial. Sin embargo, los principales retos para la adopción masiva ya no son puramente técnicos, sino de ingeniería y modelo comercial. Destacan los elevados costes de adaptación a cada línea de producción específica y la necesidad de desarrollar sistemas de mantenimiento y servicio locales robustos para garantizar la operación continua. La entrada de gigantes industriales históricos como inversores y la presencia inicial de robots en fábricas como las de BMW marcan un punto de inflexión: la confianza del sector se consolida y la pregunta central evoluciona de "si es posible" a "cómo hacerlo mejor, más rápido y de forma más estable".

marsbitHace 7 hora(s)

94.000 millones de yuanes, la mayor financiación de este año para robots humanoides ha aparecido

marsbitHace 7 hora(s)

Coinbase y Ethena Lanzan una Bóveda de Alto Rendimiento de USDC Impulsada por Morpho

Coinbase ha ampliado su oferta de préstamos onchain con el lanzamiento de una Bóveda de Alto Rendimiento en USDC de Steakhouse Financial, conectada a Ethena y Morpho. Este producto, el primero fruto de la colaboración entre Ethena y Coinbase, permite a los usuarios depositar USDC. Los fondos se asignan automáticamente a través de los mercados de préstamo de Morpho, impulsados por activos como USDe. La clave es el perfil de riesgo: esta bóveda acepta una mezcla de colateral más amplia que incluye activos sintéticos respaldados por Ethena, lo que puede generar rendimientos más altos pero también introduce riesgos asociados al comportamiento del colateral y a la liquidez del mercado. Los APY son dinámicos y no están garantizados. El lanzamiento marca una tendencia en la que las infraestructuras DeFi, como Morpho y Ethena, se integran en productos simplificados dentro de grandes exchanges, acercando estas estrategias a usuarios convencionales. Sin embargo, esto hace que una divulgación clara de los riesgos sea aún más crucial, ya que el acceso a través de una plataforma familiar no elimina los riesgos inherentes a los protocolos DeFi subyacentes. La bóveda está disponible para usuarios elegibles en EE.UU. (excepto Nueva York) y algunos mercados internacionales.

bitcoinistHace 11 hora(s)

Coinbase y Ethena Lanzan una Bóveda de Alto Rendimiento de USDC Impulsada por Morpho

bitcoinistHace 11 hora(s)

El Mercado Pre-IPO de Anthropic Cae Después de una Directiva de EE.UU. que Obliga al Apagado de un Modelo

Anthropic recibió una directiva del gobierno estadounidense para suspender el acceso de nacionales extranjeros a sus modelos Claude Fable 5 y Claude Mythos 5 por motivos de seguridad nacional, lo que obligó a desactivarlos globalmente. Esto provocó una caída del 3.7% en su contrato perpetuo pre-IPO, cotizado en mercados cripto. La empresa cuestiona la evidencia, alegando que la vulnerabilidad reportada (un *jailbreak* específico) era menor y conocida, y advierte que este precedente regulatorio podría paralizar los nuevos despliegues de modelos de IA avanzada. El hecho destaca cómo la regulación de la IA se ha convertido en un evento negociable en mercados cripto, donde instrumentos vinculados a empresas pre-IPO permiten reaccionar instantáneamente a noticias, aunque a veces con información incompleta, aumentando la volatilidad.

bitcoinistHace 12 hora(s)

El Mercado Pre-IPO de Anthropic Cae Después de una Directiva de EE.UU. que Obliga al Apagado de un Modelo

bitcoinistHace 12 hora(s)

Billetera de Explotación Convierte Tokens Robados en 18,510 ETH y 1,548 BNB

Una cartera vinculada a un exploit ha convertido activos comprometidos en 18.510 ETH y 1.548 BNB, según una alerta de seguimiento on-chain de WuBlockchain citando a Lookonchain. El atacante obtuvo estas sumas vendiendo tokens "H" y aún retiene 111,36 millones de dichos tokens, valorados en unos 14 millones de dólares. Esta conversión es significativa porque los activos líquidos como ETH y BNB son destinos comunes para consolidar fondos robados antes de intentar lavarlos o retirarlos. El monto en ETH tenía un valor de aproximadamente 30,83 millones de dólares al momento del intercambio, y el de BNB rondaba los 924.000 dólares. Estos movimientos on-chain, aunque visibles, ofrecen pistas sobre los próximos pasos del atacante, como el uso de puentes o mezcladores, y son monitoreados por investigadores de seguridad. Sin embargo, las etiquetas de las carteras pueden cambiar y los fondos pueden dividirse rápidamente, por lo que estas cifras son una instantánea, no un cálculo final de pérdidas. El caso subraya la utilidad del seguimiento on-chain para observar la consolidación de fondos robados en tiempo real.

bitcoinistHace 15 hora(s)

Billetera de Explotación Convierte Tokens Robados en 18,510 ETH y 1,548 BNB