Decenas de millones de errores por hora: investigación revela la "ilusión de precisión" de la búsqueda con IA de Google

marsbitPublicado a 2026-04-13Actualizado a 2026-04-13

Resumen

Un estudio del New York Times y la startup de IA Oumi revela que los resúmenes de IA de Google (AI Overviews) tienen una precisión del 91%, lo que se traduce en decenas de millones de respuestas erróneas por hora, dada la escala de 5 billones de búsquedas anuales de Google. Aún cuando las respuestas son correctas, más de la mitad de los enlaces de referencia no respaldan la información proporcionada, un problema que empeoró con la actualización a Gemini 3. La función también es vulnerable a la manipulación, como demostró un experimento en el que información falsa de un artículo se incorporó en los resultados en menos de 24 horas. Google cuestiona la metodología del estudio, argumentando que no refleja búsquedas reales y que su sistema de clasificación mejora la precisión del modelo base.

Autor: Claude, Deep Tide TechFlow

Resumen de Deep Tide: Una prueba reciente del New York Times en colaboración con la startup de IA Oumi muestra que la función de resúmenes de IA (AI Overviews) de Google tiene una precisión de aproximadamente el 91%, pero considerando el volumen de 5 billones de búsquedas anuales que Google procesa, esto significa que genera decenas de millones de respuestas erróneas por hora. Más problemático aún, incluso cuando la respuesta es correcta, más de la mitad de los enlaces de referencia no respaldan su conclusión.

Google está distribuyendo información errónea a los usuarios a una escala sin precedentes, y la mayoría de las personas no son conscientes de ello.

Según informa el New York Times, la startup de IA Oumi, por encargo del periódico, evaluó la precisión de la función AI Overviews de Google utilizando la prueba estándar de la industria SimpleQA desarrollada por OpenAI. La prueba cubrió 4326 consultas de búsqueda, realizando una ronda en octubre del año pasado (impulsada por Gemini 2) y otra en febrero de este año (actualizada a Gemini 3). Los resultados mostraron que la precisión de Gemini 2 era de aproximadamente el 85%, mejorando al 91% con Gemini 3.

Un 91% suena bien, pero en la escala de Google es otra historia. Google procesa alrededor de 5 billones de consultas de búsqueda al año; con una tasa de error del 9%, AI Overviews genera más de 57 millones de respuestas inexactas por hora, casi un millón por minuto.

La respuesta es correcta, pero la fuente está equivocada

Más preocupante que la precisión es el problema del "desacoplamiento" de las fuentes de referencia.

Los datos de Oumi muestran que en la era de Gemini 2, el 37% de las respuestas correctas tenían un problema de "referencia infundada", es decir, los enlaces adjuntos en el resumen de IA no respaldaban la información proporcionada. Tras la actualización a Gemini 3, esta proporción no disminuyó sino que aumentó, saltando al 56%. En otras palabras, mientras el modelo da respuestas correctas, cada vez es menos capaz de "mostrar su tarea".

La pregunta del CEO de Oumi, Manos Koukoumidis, apunta directamente al meollo del asunto: "Incluso si la respuesta es correcta, ¿cómo sabes que lo es? ¿Cómo puedes verificarlo?"

El hecho de que AI Overviews cite abundantemente fuentes de baja calidad agrava este problema. Oumi descubrió que Facebook y Reddit son respectivamente la segunda y cuarta fuente de referencia más citadas por AI Overviews. En las respuestas inexactas, Facebook se cita con una frecuencia del 7%, superior al 5% en las respuestas precisas.

Un artículo falso de un periodista de la BBC "envenenó" los resultados en 24 horas

Otro defecto grave de AI Overviews es que es extremadamente manipulable.

Un periodista de la BBC probó con un artículo deliberadamente fabricado y falso, y en menos de 24 horas, el resumen de IA de Google presentaba la información falsa como un hecho a los usuarios.

Esto significa que cualquier persona que entienda el mecanismo de funcionamiento del sistema podría "envenenar" los resultados de búsqueda de IA publicando contenido falso e incrementando su tráfico. La respuesta del portavoz de Google, Ned Adriance, fue que la función de búsqueda de IA se basa en los mismos mecanismos de clasificación y seguridad que bloquean el spam, y afirmó que "la mayoría de los ejemplos en la prueba son consultas irreales que las personas no buscarían en la práctica".

Google refuta: la prueba en sí tiene problemas

Google planteó varias objeciones al estudio de Oumi. Un portavoz de Google calificó la investigación de "gravemente defectuosa", argumentando que: el benchmark SimpleQA en sí contiene información inexacta; Oumi utilizó su propio modelo de IA, HallOumi, para juzgar el rendimiento de otra IA, lo que podría introducir errores adicionales; el contenido de la prueba no refleja el comportamiento real de búsqueda de los usuarios.

Las pruebas internas de Google también mostraron que Gemini 3, cuando funciona de forma independiente fuera del marco de búsqueda de Google, produce salidas falsas hasta en un 28% de los casos. Pero Google enfatizó que AI Overviews, al aprovechar el sistema de ranking de búsquedas, mejora su precisión y supera el rendimiento del modelo por sí solo.

Sin embargo, como señala la paradoja lógica destacada por PCMag: si tu argumento de defensa es "señalar que el informe que acusa a nuestra IA de ser inexacta también utiliza una IA que podría ser inexacta", esto probablemente no aumente la confianza de los usuarios en la precisión de tu producto.

Preguntas relacionadas

Q¿Cuál es la tasa de precisión de la función AI Overviews de Google según el estudio de Oumi?

ASegún el estudio de Oumi, la función AI Overviews de Google tiene una tasa de precisión del 91% con Gemini 3.

Q¿Aproximadamente cuántas respuestas incorrectas genera AI Overviews por hora, basado en el volumen de búsquedas de Google?

ABasado en el volumen anual de 5 billones de búsquedas y una tasa de error del 9%, AI Overviews genera más de 57 millones de respuestas incorrectas por hora.

Q¿Qué problema significativo se identificó con los enlaces de referencia en las respuestas de AI Overviews?

AMás de la mitad (56%) de las respuestas correctas de Gemini 3 tenían 'citaciones infundadas', lo que significa que los enlaces proporcionados no respaldaban la información dada.

Q¿Qué plataformas de redes sociales se citan con frecuencia como fuentes en las respuestas inexactas?

AFacebook y Reddit son la segunda y cuarta fuente de citas más frecuentes. Facebook se citó en el 7% de las respuestas inexactas.

Q¿Cómo respondió Google a las críticas del estudio de Oumi?

AGoogle argumentó que el estudio de Oumi tenía 'graves deficiencias', citando que el benchmark SimpleQA contiene información inexacta y que el uso de su propio modelo AI (HallOumi) para juzgar podría introducir errores.

Lecturas Relacionadas

Polymarket atascado: la verdadera prueba tras el auge de tráfico ha llegado

Polymarket, el principal mercado de predicciones, enfrenta problemas de rendimiento que afectan la experiencia del usuario, como retrasos en transacciones y fallos en órdenes. Su vicepresidente de ingeniería, Josh Stevens, reconoció que el crecimiento ha superado la capacidad de la infraestructura actual y anunció un plan de mejora que incluye una migración de cadena ("chain migration"). La plataforma, que opera actualmente en Polygon, ya no considera esta blockchain suficiente para su operación similar a un exchange, necesitando más espacio de bloques, gas más bajo y tiempos de confirmación más rápidos. El cambio no es una simple migración; implica reconstruir su sistema central de órdenes (CLOB), mejorar la API y el rendimiento del sitio, y lanzar contratos perpetuos (Perps). Varias cadenas como Solana, Sui y Algorand han mostrado interés en albergar la plataforma. Para Polygon, perder Polymarket sería un golpe significativo, ya que es una fuente importante de tarifas. El verdadero desafío para Polymarket no es solo elegir una nueva cadena, sino transformarse en una infraestructura de trading estable y confiable para retener a sus usuarios.

Odaily星球日报04/27 03:22

Polymarket atascado: la verdadera prueba tras el auge de tráfico ha llegado

Odaily星球日报04/27 03:22

El obstáculo clave para la designación de Warsh como presidente de la Fed el 15 de mayo ha sido despejado tras la concesión de un legislador clave

El obstáculo clave para la confirmación de Kevin Warsh como presidente de la Reserva Federal fue eliminado después de que el senador republicano Thom Tillis retirara su oposición. Tillis había bloqueado la nominación debido a una investigación penal contra el actual presidente, Jerome Powell, que consideraba una amenaza a la independencia de la Fed. Tras la retirada de la investigación por parte del Departamento de Justicia, Tillis acordó permitir la votación en el Comité Bancario del Senado, programada para el 29 de abril. Se espera que Warsh, quien cuenta con amplio apoyo republicano, sea confirmado cerca del fin del mandato de Powell el 15 de mayo. Su posible llegada podría significar reformas significativas, incluida la eliminación del "dot plot" (mapa de proyecciones de tasas) y una revisión de la orientación prospectiva de la Fed, lo que podría alterar los marcos de valoración de activos globales. Aunque la investigación penal contra Powell fue cerrada, persiste cierta incertidumbre sobre su futuro en la Junta de la Fed.

marsbit04/27 02:58

El obstáculo clave para la designación de Warsh como presidente de la Fed el 15 de mayo ha sido despejado tras la concesión de un legislador clave

marsbit04/27 02:58

Bajando las expectativas para el próximo ciclo alcista de BTC

**Resumen del artículo: "Bajar las expectativas para el próximo ciclo alcista de BTC" por Alex Xu** El autor, que tenía a Bitcoin como su mayor activo, ha reducido progresivamente su exposición durante el actual ciclo alcista: eliminó el apalancamiento a 70k y redujo su posición de un 100% a un 30% entre 100k-120k. Recientemente, vendió más a 78k-79k, argumentando una revisión a la baja de las expectativas para el próximo máximo alcista. Las razones principales son: 1. **Narrativa de adopción agotada:** El impulso de adopción masiva (de minorista a institucional vía ETFs) parece agotado. El siguiente paso, la adopción por bancos centrales o fondos soberanos importantes, se ve muy difícil a corto plazo. 2. **Coste de oportunidad:** El autor ha identificado otras oportunidades de inversión en empresas atractivas. 3. **Contracción del ecosistema crypto:** La mayoría de modelos de negocio Web3 (SocialFi, GameFi, DePIN) no han funcionado. Solo DeFi genera valor, pero se contrae por la falta de activos nativos de calidad, lo que reduce la base de usuarios y holders de BTC. 4. **Problemas del mayor comprador:** MicroStrategy, el mayor tenedor corporativo, enfrenta un coste de financiación creciente (11.5% para su préstamo perpetuo), lo que podría ralentizar su ritmo de compra y ejercer presión vendedora. 5. **Competencia del oro tokenizado:** El oro tokenizado ha cerrado la brecha en portabilidad y divisibilidad, erosionando la ventaja competitiva de BTC como "oro digital". 6. **Problema de seguridad:** La reducción de la recompensa por minado (halving) amenaza la seguridad de la red, ya que las nuevas fuentes de ingresos por fees (como las inscripciones) no han podido dar solución. Conclusión: El autor mantiene una posición significativa en BTC y espera que suba, pero es menos optimista sobre su potencial alcista. Vender en la reciente subida fue una decisión táctica. Si sus razones para ser bajista se invalidan, estaría abierto a recomprar, aceptando si se equivoca y el precio sube.

marsbit04/27 02:49

Bajando las expectativas para el próximo ciclo alcista de BTC

marsbit04/27 02:49

Los mercados de predicción no pueden prescindir del uso de información privilegiada, pero el uso de información privilegiada los está matando

El mercado de predicciones enfrenta una paradoja fundamental: depende de la información privilegiada (insider trading) para generar precios precisos, pero esta práctica aleja a los pequeños inversores al percibir el mercado como manipulado. Recientemente, un soldado estadounidense ganó 400.000 dólares en Polymarket usando información clasificada, lo que destaca el problema. Aunque plataformas como Polymarket y Kalshi prohíben el uso de información no pública, su valor social radica en incentivar a quienes poseen conocimientos exclusivos a compartirlos. Sin embargo, esto crea un ciclo destructivo: cuanta más información privilegiada hay, menos confianza tienen los pequeños inversores, reduciendo la liquidez. El desafío es encontrar un equilibrio entre eficiencia informativa y equidad percibida para que estos mercados sobrevivan a largo plazo.

marsbit04/27 02:38

Los mercados de predicción no pueden prescindir del uso de información privilegiada, pero el uso de información privilegiada los está matando

marsbit04/27 02:38

¿Puede Irán "controlar" el estrecho de Ormuz?

Según la agencia iraní Mehr, Irán ha elaborado un plan integral para gestionar el estrecho de Ormuz, que incluye exigir permisos y tarifas de paso a los buques, prohibir el acceso a barcos israelíes y de países "hostiles", y priorizar el pago en riales. Analistas señalan que el objetivo de Irán es presionar a EE.UU. e Israel, obtener nuevos ingresos y mantener abierta la posibilidad de negociaciones. Sin embargo, la implementación enfrenta obstáculos: dificultades operativas en un estrecho muy transitado, controversias legales internacionales, oposición global y las contramedidas de EE.UU., que bloquea puertos iraníes y amenaza con interceptar buques que paguen las tarifas. Por ello, aún es incierto si el plan se aplicará plenamente o servirá solo como moneda de cambio en las negociaciones.

marsbit04/27 01:33

¿Puede Irán "controlar" el estrecho de Ormuz?

marsbit04/27 01:33

Trading

Spot

Futuros