Decenas de millones de errores por hora: investigación revela la "ilusión de precisión" de la búsqueda con IA de Google

marsbitPublicado a 2026-04-13Actualizado a 2026-04-13

Resumen

Un estudio del New York Times y la startup de IA Oumi revela que los resúmenes de IA de Google (AI Overviews) tienen una precisión del 91%, lo que se traduce en decenas de millones de respuestas erróneas por hora, dada la escala de 5 billones de búsquedas anuales de Google. Aún cuando las respuestas son correctas, más de la mitad de los enlaces de referencia no respaldan la información proporcionada, un problema que empeoró con la actualización a Gemini 3. La función también es vulnerable a la manipulación, como demostró un experimento en el que información falsa de un artículo se incorporó en los resultados en menos de 24 horas. Google cuestiona la metodología del estudio, argumentando que no refleja búsquedas reales y que su sistema de clasificación mejora la precisión del modelo base.

Autor: Claude, Deep Tide TechFlow

Resumen de Deep Tide: Una prueba reciente del New York Times en colaboración con la startup de IA Oumi muestra que la función de resúmenes de IA (AI Overviews) de Google tiene una precisión de aproximadamente el 91%, pero considerando el volumen de 5 billones de búsquedas anuales que Google procesa, esto significa que genera decenas de millones de respuestas erróneas por hora. Más problemático aún, incluso cuando la respuesta es correcta, más de la mitad de los enlaces de referencia no respaldan su conclusión.

Google está distribuyendo información errónea a los usuarios a una escala sin precedentes, y la mayoría de las personas no son conscientes de ello.

Según informa el New York Times, la startup de IA Oumi, por encargo del periódico, evaluó la precisión de la función AI Overviews de Google utilizando la prueba estándar de la industria SimpleQA desarrollada por OpenAI. La prueba cubrió 4326 consultas de búsqueda, realizando una ronda en octubre del año pasado (impulsada por Gemini 2) y otra en febrero de este año (actualizada a Gemini 3). Los resultados mostraron que la precisión de Gemini 2 era de aproximadamente el 85%, mejorando al 91% con Gemini 3.

Un 91% suena bien, pero en la escala de Google es otra historia. Google procesa alrededor de 5 billones de consultas de búsqueda al año; con una tasa de error del 9%, AI Overviews genera más de 57 millones de respuestas inexactas por hora, casi un millón por minuto.

La respuesta es correcta, pero la fuente está equivocada

Más preocupante que la precisión es el problema del "desacoplamiento" de las fuentes de referencia.

Los datos de Oumi muestran que en la era de Gemini 2, el 37% de las respuestas correctas tenían un problema de "referencia infundada", es decir, los enlaces adjuntos en el resumen de IA no respaldaban la información proporcionada. Tras la actualización a Gemini 3, esta proporción no disminuyó sino que aumentó, saltando al 56%. En otras palabras, mientras el modelo da respuestas correctas, cada vez es menos capaz de "mostrar su tarea".

La pregunta del CEO de Oumi, Manos Koukoumidis, apunta directamente al meollo del asunto: "Incluso si la respuesta es correcta, ¿cómo sabes que lo es? ¿Cómo puedes verificarlo?"

El hecho de que AI Overviews cite abundantemente fuentes de baja calidad agrava este problema. Oumi descubrió que Facebook y Reddit son respectivamente la segunda y cuarta fuente de referencia más citadas por AI Overviews. En las respuestas inexactas, Facebook se cita con una frecuencia del 7%, superior al 5% en las respuestas precisas.

Un artículo falso de un periodista de la BBC "envenenó" los resultados en 24 horas

Otro defecto grave de AI Overviews es que es extremadamente manipulable.

Un periodista de la BBC probó con un artículo deliberadamente fabricado y falso, y en menos de 24 horas, el resumen de IA de Google presentaba la información falsa como un hecho a los usuarios.

Esto significa que cualquier persona que entienda el mecanismo de funcionamiento del sistema podría "envenenar" los resultados de búsqueda de IA publicando contenido falso e incrementando su tráfico. La respuesta del portavoz de Google, Ned Adriance, fue que la función de búsqueda de IA se basa en los mismos mecanismos de clasificación y seguridad que bloquean el spam, y afirmó que "la mayoría de los ejemplos en la prueba son consultas irreales que las personas no buscarían en la práctica".

Google refuta: la prueba en sí tiene problemas

Google planteó varias objeciones al estudio de Oumi. Un portavoz de Google calificó la investigación de "gravemente defectuosa", argumentando que: el benchmark SimpleQA en sí contiene información inexacta; Oumi utilizó su propio modelo de IA, HallOumi, para juzgar el rendimiento de otra IA, lo que podría introducir errores adicionales; el contenido de la prueba no refleja el comportamiento real de búsqueda de los usuarios.

Las pruebas internas de Google también mostraron que Gemini 3, cuando funciona de forma independiente fuera del marco de búsqueda de Google, produce salidas falsas hasta en un 28% de los casos. Pero Google enfatizó que AI Overviews, al aprovechar el sistema de ranking de búsquedas, mejora su precisión y supera el rendimiento del modelo por sí solo.

Sin embargo, como señala la paradoja lógica destacada por PCMag: si tu argumento de defensa es "señalar que el informe que acusa a nuestra IA de ser inexacta también utiliza una IA que podría ser inexacta", esto probablemente no aumente la confianza de los usuarios en la precisión de tu producto.

Preguntas relacionadas

Q¿Cuál es la tasa de precisión de la función AI Overviews de Google según el estudio de Oumi?

ASegún el estudio de Oumi, la función AI Overviews de Google tiene una tasa de precisión del 91% con Gemini 3.

Q¿Aproximadamente cuántas respuestas incorrectas genera AI Overviews por hora, basado en el volumen de búsquedas de Google?

ABasado en el volumen anual de 5 billones de búsquedas y una tasa de error del 9%, AI Overviews genera más de 57 millones de respuestas incorrectas por hora.

Q¿Qué problema significativo se identificó con los enlaces de referencia en las respuestas de AI Overviews?

AMás de la mitad (56%) de las respuestas correctas de Gemini 3 tenían 'citaciones infundadas', lo que significa que los enlaces proporcionados no respaldaban la información dada.

Q¿Qué plataformas de redes sociales se citan con frecuencia como fuentes en las respuestas inexactas?

AFacebook y Reddit son la segunda y cuarta fuente de citas más frecuentes. Facebook se citó en el 7% de las respuestas inexactas.

Q¿Cómo respondió Google a las críticas del estudio de Oumi?

AGoogle argumentó que el estudio de Oumi tenía 'graves deficiencias', citando que el benchmark SimpleQA contiene información inexacta y que el uso de su propio modelo AI (HallOumi) para juzgar podría introducir errores.

Lecturas Relacionadas

La gran apuesta de las empresas mineras por la IA: la valoración entra en una etapa de diferenciación, la lucha por el resurgimiento no será fácil

Las empresas mineras de criptomonedas están enfrentando una presión creciente debido a la debilidad del mercado. Para encontrar una nueva curva de crecimiento, cada vez más mineras están acelerando su transición hacia el campo de la IA, lo que ha captado rápidamente el interés del mercado de capitales y ha llevado a un fuerte aumento en sus precios de acciones. Esta transformación tiene ventajas naturales, ya que las mineras poseen recursos clave como energía, tierra y sistemas de enfriamiento. Solo necesitan actualizar sus instalaciones existentes para ingresar al mercado de infraestructura de IA con menor costo y ciclo más corto. Empresas como CoreWeave, Applied Digital y Bitdeer comenzaron esta transición entre 2022 y 2023, mientras que otras como Iris Energy y Hut 8 se sumaron en 2025. El mercado ha valorado positivamente esta narrativa de transformación. En lo que va del año, 11 mineras han tenido un aumento promedio del 75.97% en sus acciones, superando ampliamente el rendimiento de Bitcoin. CoreWeave, con un valor de mercado de 628.55 mil millones de dólares, se ha convertido en el nuevo referente de valoración. Sin embargo, ha comenzado una clara diferenciación entre las empresas, basada en su ventaja de ser las primeras en moverse, su capacidad de ejecución, recursos de clientes y avance en la implementación de centros de datos. A pesar del crecimiento en los ingresos trimestrales, la rentabilidad general sigue bajo presión. Los altos costos operativos y las grandes inversiones de capital necesarias para construir centros de datos de IA mantienen a la mayoría de las mineras en números rojos. El enfoque del mercado actualmente está en su potencial de crecimiento como operadores de infraestructura de cómputo, no en la rentabilidad a corto plazo. El entorno para la minería de Bitcoin es cada vez más difícil, con una rentabilidad que se ha reducido casi a la mitad en los últimos 30 días. Esto está acelerando la concentración del sector en jugadores líderes. La explosión de la demanda de centros de datos para IA, sin embargo, está revaluando los activos de las mineras, especialmente sus recursos de energía y tierra. No obstante, la transición a la IA no es fácil. Según VanEck, la lógica de valoración de la industria evolucionará desde la "capacidad de energía" hacia la "capacidad de entrega de proyectos", y finalmente se centrará en el flujo de caja y la calidad de los inquilinos. Se estima que el sector enfrenta una brecha de financiación a corto plazo de unos 50 mil millones de dólares. Para financiar esta transformación, las mineras están utilizando varios métodos, como la emisión de bonos convertibles, la venta de reservas de Bitcoin y la firma de contratos a largo plazo con grandes clientes de la nube o empresas de IA. En resumen, si bien la IA ofrece un camino de desarrollo con mayor potencial que la minería tradicional, esta transición es esencialmente una competencia a largo plazo que pone a prueba la solidez financiera, los recursos y la capacidad de ejecución de las empresas mineras.

marsbitHace 48 min(s)

La gran apuesta de las empresas mineras por la IA: la valoración entra en una etapa de diferenciación, la lucha por el resurgimiento no será fácil

marsbitHace 48 min(s)

¿Quién utiliza mejor Claude Code? La respuesta quizás no sea la que piensas

Este informe, basado en ~400.000 sesiones de Claude Code, revela cómo las herramientas de IA están transformando la relación con el código. El hallazgo principal es una clara división del trabajo: los humanos deciden **qué hacer** (planificación), mientras que Claude decide **cómo hacerlo** (ejecución), manejando tareas como escribir código o depurar. Es crucial que la eficacia no depende principalmente de ser programador. En tareas que generan código, usuarios de derecho, finanzas, gestión o investigación logran tasas de éxito similares a las de ingenieros de software. El factor determinante es la **comprensión del problema a resolver** por parte del usuario. La IA reduce la barrera de implementación, no la de criterio. Amplifica el valor del **conocimiento del dominio**: los expertos en un área guían a Claude con instrucciones más precisas, logrando más trabajo por comando y duplicando la tasa de éxito verificada respecto a principiantes. La mayoría de las ganancias se obtienen al pasar de principiante a nivel intermedio. El uso evoluciona hacia tareas más complejas y de mayor valor (despliegue, análisis de datos, documentación), mientras que las sesiones de depuración disminuyen. En resumen, estas herramientas pueden estar absorbiendo trabajo de implementación, pero recompensan a quienes poseen un profundo entendimiento de su propio campo.

marsbitHace 52 min(s)

¿Quién utiliza mejor Claude Code? La respuesta quizás no sea la que piensas

marsbitHace 52 min(s)

¿Sigue girando la máquina perpetua de Strategy? La acción preferente STRC se desancla un 11%

**Resumen: La Acción Preferente STRC de MicroStrategy se desancla un 11%, ¿sigue girando su "máquina de movimiento perpetuo"?** La acción preferente perpetua STRC de MicroStrategy, diseñada para operar cerca de su valor nominal objetivo de 100 dólares, se está negociando con un descuento significativo, superando el 11%. Este "desanclaje" pone a prueba el núcleo del modelo de capital de la empresa. STRC es el motor clave del "volante de capital" de MicroStrategy. Permite a la compañía recaudar fondos en efectivo (a través de emisiones en el mercado secundario) para comprar Bitcoin, sin diluir a los accionistas comunes (MSTR) ni asumir deuda con vencimiento. Este ciclo depende crucialmente de que STRC se mantenga cerca de los 100$. Para anclar el precio, MicroStrategy ajusta dinámicamente el dividendo. Sin embargo, a pesar de aumentar la tasa al 11.5% y pagar semanalmente, el descuento persiste. Esto sugiere que el mercado está valorando riesgos más allá del rendimiento por dividendos. Las razones incluyen: 1) Posibles ventas forzadas de fondos arbitrajistas con apalancamiento, creando una espiral de ventas. 2) Preocupaciones más profundas sobre la liquidez y la solvencia de MicroStrategy. Un informe de JPMorgan señaló que las reservas de efectivo solo cubren unos 6 meses de obligaciones de dividendos preferentes. Aunque MicroStrategy afirma que sus reservas de Bitcoin podrían cubrir décadas de pagos, esto supone vender BTC, rompiendo su narrativa clave de "acumulación a largo plazo sin ventas". La primera venta simbólica de Bitcoin por parte de MicroStrategy a principios de mayo alimentó estos temores. Si STRC sigue desanclada, la capacidad de financiación de la compañía se verá afectada. En un escenario extremo, si los flujos de efectivo se tensan, podría verse obligada a vender más Bitcoin para pagar dividendos, transformándose de un comprador clave del mercado en un vendedor, con posibles implicaciones negativas significativas para el precio de Bitcoin.

marsbitHace 1 hora(s)

¿Sigue girando la máquina perpetua de Strategy? La acción preferente STRC se desancla un 11%

marsbitHace 1 hora(s)

Apenas ahora, un ganador del Premio Nobel se convierte en nuevo empleado de Anthropic

El premio Nobel John Jumper, líder clave de AlphaFold, ha anunciado su salida de Google DeepMind tras casi 9 años para unirse a Anthropic. Este movimiento se produce apenas dos días después de que Noam Shazeer, coautor del famoso artículo 'Attention Is All You Need' y exdirector de Gemini, dejara Google por OpenAI, representando una pérdida significativa de talento para la compañía. Jumper, quien se doctoró en 2017, fue puesto al frente del equipo de AlphaFold poco después de unirse a DeepMind. Bajo su liderazgo, AlphaFold 2 resolvió en 2020 el problema del plegamiento de proteínas, un desafío de 50 años, y posteriormente generó estructuras para casi 200 millones de proteínas, multiplicando por 1000 el conocimiento anterior. En 2024, recibió el Premio Nobel de Química junto a Demis Hassabis. La partida de figuras como Jumper y Shazeer (este último reclutado por 2700 millones de dólares) plantea preguntas sobre la retención de talento en Google. Mientras tanto, Anthropic fortalece su apuesta en ciencias de la vida, tras adquirir la startup Coefficient Bio y desarrollar herramientas como Claude for Life Sciences. Este sector se ha convertido en un campo de batalla clave, con OpenAI lanzando GPT-Rosalind para biomedicina y Google DeepMind impulsando Isomorphic Labs. La contratación de Jumper marca un nuevo paso en esta carrera por revolucionar la biología con IA.

marsbitHace 1 hora(s)

Apenas ahora, un ganador del Premio Nobel se convierte en nuevo empleado de Anthropic

marsbitHace 1 hora(s)

Trading

Spot
Futuros
活动图片