Derribando el enfoque predominante contra las alucinaciones: La metacognición es la nueva solución integral para resolver las alucinaciones en los modelos de gran tamaño

marsbitPublicado a 2026-06-03Actualizado a 2026-06-03

Resumen

Una investigación de Google propone un enfoque revolucionario para combatir las alucinaciones en los modelos de lenguaje grandes (LLMs): desarrollar su metacognición, es decir, su capacidad para reconocer y expresar su propio nivel de incertidumbre, en lugar de intentar hacerlos omniscientes o que rechacen responder con frecuencia. El documento, titulado "Las alucinaciones socavan la confianza; la metacognición es el camino a seguir", argumenta que las estrategias actuales son insuficientes. Por un lado, aumentar los datos de entrenamiento no puede cubrir todo el conocimiento. Por otro, rechazar respuestas para reducir errores impone una pesada "tasa de utilidad", sacrificando muchas respuestas correctas y dañando la experiencia del usuario. La clave del problema es la falta de "discriminación" del modelo: su incapacidad para distinguir con precisión, pregunta por pregunta, si su respuesta es correcta o incorrecta, más allá de una buena "calibración" general. Los análisis muestran que con las capacidades actuales, para reducir la tasa de error al 5%, un modelo tendría que rechazar más del 52% de las preguntas que podría responder correctamente. La propuesta central es redefinir la alucinación. No es simplemente "decir algo incorrecto", sino "afirmar con certeza algo incorrecto cuando no se tiene la base para estar seguro". La solución es lograr una "incertidumbre fiel": que el lenguaje del modelo (ej., "creo que podría ser...") refleje fielmente su estado interno de confia...

Google Research publicó recientemente un artículo cuyo argumento central se puede resumir en una frase: En lugar de empeñarse en "hacer que la IA lo sepa todo", es mejor enseñarle a decir "No estoy seguro".

Este artículo, titulado "Hallucinations Undermine Trust; Metacognition is a Way Forward" y realizado conjuntamente por Google Research y la Universidad de Tel Aviv, ha sido aceptado en el ICML 2026 Position Track. El documento propone que el enfoque principal de la industria de la IA para combatir las "alucinaciones" podría estar fundamentalmente equivocado: todos están ocupados infundiendo más conocimiento a los modelos, pero ignoran una capacidad más crucial y subestimada: permitir que la IA perciba y exprese su grado de certeza sobre cada respuesta.

(Dirección del artículo: [2605.01428] Hallucinations Undermine Trust; Metacognition is a Way Forward)

Impuesto a la utilidad: el verdadero costo de eliminar las alucinaciones

Empecemos con una escena que todos hemos experimentado.

Le haces una pregunta a un asistente de IA, y él responde con un tono de total certeza, con un lenguaje preciso y una lógica completa, aparentemente impecable. Después verificas, y la respuesta es completamente inventada. Lo que más molesta es que no dudó en absoluto al decirlo, como si lo hubiera visto con sus propios ojos.

Esto es una "alucinación" de la IA: el modelo produce contenido factualmente incorrecto, pero se lo presenta al usuario de una manera que no admite dudas. Este problema es particularmente crítico en escenarios de alto riesgo, como la medicina, el derecho y la investigación científica.

El enfoque de la industria para abordar las alucinaciones se reduce esencialmente a dos vías. La primera: hacer que la IA sepa más, ampliando los datos de entrenamiento y aumentando los parámetros del modelo para cubrir más hechos. La segunda: hacer que la IA se abstenga de responder cuando no esté segura, rechazando directamente las preguntas sobre las que no tenga certeza.

Ambas vías tienen limitaciones evidentes. Los hechos del mundo son infinitos, un modelo no puede recordar todo, por lo que la primera vía siempre tendrá puntos ciegos. El problema de la segunda vía es que, una vez que la IA comienza a rechazar respuestas a gran escala, pasa de ser un "asistente útil" a un "inútil que no se atreve a decir nada"; el usuario hace diez preguntas, ocho son rechazadas, la experiencia es pésima.

El artículo le da un nombre preciso al costo de la segunda vía: "Impuesto a la utilidad" (utility tax) — para reducir la tasa de alucinaciones, debes sacrificar una gran cantidad de información que podría haber respondido correctamente.

¿Por qué este impuesto es tan alto? La raíz está en que a la IA le falta una habilidad clave. Para que la estrategia de "rechazar respuestas" sea precisa, el modelo necesita distinguir con precisión entre "acerté esta pregunta" y "me equivoqué en esta pregunta" — rechazar solo las incorrectas, conservar las correctas. Pero en realidad, los modelos no pueden hacer esta distinción precisa. El artículo diferencia dos conceptos fácilmente confundibles pero con significados completamente distintos para explicar este problema.

Calibración (calibration) mide si el nivel general de confianza de la IA coincide con su tasa general de aciertos. Por ejemplo, si la IA responde 100 preguntas, cada vez diciendo "Estoy 60% seguro", y de las 100 preguntas acierta exactamente 60, eso es una calibración perfecta.

Discriminación (discrimination) mide si la IA puede distinguir con precisión, en cada pregunta específica, entre "acerté" y "me equivoqué". Una IA que da un 60% de certeza a todas las preguntas, con una tasa de aciertos general del 60%, tiene una calibración perfecta, pero una discriminación de cero — es completamente incapaz de distinguir cuáles creer y cuáles desconfiar. Una buena calibración no equivale a una discriminación fuerte, este es el meollo del problema.

Tras revisar numerosa literatura, el artículo descubrió que los principales modelos de gran tamaño actuales en tareas de preguntas y respuestas de conocimiento real tienen índices de discriminación (AUROC) que oscilan entre 0.70 y 0.85. Este número suena decente, pero en realidad está lejos de ser suficiente. El artículo realizó una simulación usando AUROC=0.71 como parámetro, y los resultados son alarmantes: suponiendo una tasa de error base de la IA del 25%, para reducir la tasa de error al 5%, la IA debe rechazar más del 52% de las preguntas correctas. Incluso si la discriminación mejora a 0.85, un nivel cercano al techo reportado en la literatura, aún se debe abandonar el 28% de las respuestas correctas. Solo cuando la discriminación alcanza 0.95 o más, el costo se vuelve insignificante — y actualmente ningún método se acerca a este número en tareas intensivas en conocimiento.

Figura: Diferencia entre calibración y discriminación. El gráfico izquierdo muestra que el modelo está bien calibrado (la línea roja se acerca a la diagonal), el gráfico derecho revela la cruda realidad — incluso con una calibración perfecta, para reducir la tasa de error del 25% al 5%, se debe sacrificar el 52% de las respuestas correctas.

Los datos reales confirman esta conclusión. El artículo analizó el rendimiento de varios modelos de vanguardia en la prueba de referencia SimpleQA Verified, y los resultados son claros y algo crueles: la mayoría de los modelos se distribuyen a lo largo de la diagonal "más respuestas, más errores"; unos pocos modelos que buscan alta precisión logran una mayor precisión por pregunta al rechazar muchas respuestas, pero a un enorme costo de utilidad. Esa región ideal en la "esquina superior derecha" — responder mucho y errar poco — actualmente está vacía. Este vacío es precisamente la "brecha de discriminación" mencionada en el artículo.

Figura: Rendimiento medido de los principales modelos en SimpleQA Verified. La estrella de cinco puntas en la esquina superior derecha es el objetivo ideal; "Discrimination Gap" marca el abismo entre los modelos existentes y el ideal; "Utility Tax" marca el costo de utilidad que paga Claude Opus 4 para obtener alta precisión.

Ya que "infundir más conocimiento" tiene puntos ciegos, y "abstenerse si no está seguro" es demasiado costoso, ¿existe una tercera vía?

Redefiniendo la alucinación: no es "decir algo incorrecto", sino "afirmar con certeza sin tener derecho a hacerlo"

La contribución central del artículo no está en diagnosticar el problema, sino en redefinir el problema mismo.

Durante mucho tiempo, la industria definió la "alucinación" como "la IA produce información errónea", lo que implica una premisa: eliminar alucinaciones = eliminar todos los errores. Pero el artículo propone verlo desde otro ángulo — la alucinación no es "la IA dice algo incorrecto", sino "la IA no tiene derecho a estar segura, pero da información errónea con un tono de certeza".

Esta distinción parece sutil, pero sus implicaciones son profundas. Por ejemplo: un médico, tras ver un informe, dice "tienes la enfermedad X". Si en realidad solo lo está adivinando por intuición, eso es irresponsable. Pero si dice "los síntomas actuales apuntan a X, pero se necesita más confirmación", incluso si el diagnóstico preliminar es incorrecto, esta forma de expresarse es honesta — le está diciendo al paciente "tome este juicio con precaución". El error no es inaceptable; lo inaceptable es fingir certeza cuando no la hay.

Basándose en esta nueva definición, surge la tercera vía: Incertidumbre Fidedigna (faithful uncertainty) — hacer que el grado de certeza expresado por la IA a nivel lingüístico corresponda fielmente al grado de certeza de su estado interno.

Concretamente, la "incertidumbre interna" de la IA se puede medir objetivamente mediante muestreo repetido: hacer la misma pregunta cien veces; si cada vez da la misma respuesta, significa que está segura internamente; si las respuestas son variadas, significa que internamente está indecisa. La "incertidumbre lingüística" es la sensación de certeza reflejada en la redacción de la IA — "4 de agosto de 1961" y "Creo recordar que fue 1961, pero no estoy completamente seguro" dan señales completamente diferentes al lector.

La Incertidumbre Fidedigna requiere que ambas se alineen: cuando internamente está indecisa, su redacción debe dejar margen; solo cuando internamente está segura debe usar un tono definitivo. El artículo enfatiza que este objetivo es más factible que "eliminar todos los errores". La razón es que la Incertidumbre Fidedigna solo requiere que la salida lingüística de la IA corresponda con su estado interno — este es un problema de circuito cerrado, la señal está dentro del modelo, no depende de la verdad externa. Eliminar errores requiere que la salida de la IA corresponda completamente con la verdad del mundo externo; el problema de la parada y la teoría de la computación citadas en el artículo indican que existen limitaciones teóricas fundamentales para esto.

El artículo resume esta capacidad en un concepto superior: Metacognición (metacognition) — la IA puede tanto percibir su propia incertidumbre como ajustar su comportamiento basándose en esa percepción. Este concepto está tomado de la psicología, donde significa "el conocimiento sobre los propios procesos cognitivos". En el contexto de la IA, significa que la IA tiene una conciencia clara de lo que sabe y lo que no sabe.

Figura: A la izquierda, el dilema tradicional — "responder" conlleva riesgo de alucinación, "rechazar respuesta" tiene un costo de utilidad. A la derecha, la nueva vía — al expresar fielmente la incertidumbre, se conserva la información útil y se minimiza el daño de la información errónea, logrando una "utilidad confiable".

La era de los agentes de IA: un Agent sin metacognición está "volando a ciegas"

El valor de la metacognición no se limita a escenarios de diálogo. En la era de los Agentes de IA (Agent), se vuelve aún más crítico.

Superficialmente, equipar a la IA con un motor de búsqueda resolvería el problema de la falta de conocimiento — si no sabe, que busque, ¿qué miedo a las alucinaciones? Pero el artículo señala que las herramientas no introducen una "solución de almacenamiento", sino un "problema de control".

Con herramientas, la IA enfrenta una serie de nuevas decisiones: ¿Yo sé esto? ¿Necesito buscar? ¿La información encontrada es confiable? Si los resultados de la búsqueda contradicen mi información, ¿a quién le hago caso? ¿Cuándo debo dejar de buscar?

Todas estas decisiones dependen de que la IA perciba con precisión su grado interno de certeza. Un Agente de IA sin capacidad metacognitiva es como un piloto sin panel de instrumentos — el motor ya está dando la alarma, y él sigue acelerando.

Figura: La capa de control metacognitivo como puente entre las capacidades básicas de la IA y el sistema de herramientas externas. Sin esta capa, la gestión de herramientas externas por parte del Agent es como "volar a ciegas" — no sabe si debe buscar, si debe creer lo encontrado, o en qué grado creerlo.

La investigación citada en el artículo muestra que los agentes de IA potenciados por búsqueda actuales sufren comúnmente de abuso de herramientas — buscan incluso preguntas que no requieren búsqueda, siendo ineficientes e introduciendo ruido innecesario. La razón es simple: una IA sin metacognición simplemente no puede juzgar "¿necesito información adicional?".

En el camino hacia la metacognición, aún quedan algunos desafíos difíciles

El artículo también señala honestamente los desafíos clave en el camino de implementación.

"Paradoja del autocarga (bootstrapping)": Enseñar a la IA a expresar incertidumbre requiere datos de entrenamiento que ejemplifiquen "dudar cuando corresponde", pero los límites del conocimiento de la IA son dinámicos. Una muestra de datos etiquetada como "No estoy seguro" podría convertirse, tras la evolución del modelo, en algo que sabe con certeza. Enseñar una capacidad dinámica con datos estáticos entrenará a una IA que "finge incertidumbre". Esto requiere desarrollar una infraestructura de datos dinámica que refleje los límites actuales del conocimiento del modelo.

"Destrucción de señales de alineación (alignment)": Los estudios encuentran que, después del pre-entrenamiento, la IA ya posee una señal de incertidumbre interna bastante buena — su estado interno puede distinguir entre "esta pregunta la tengo clara" y "esta pregunta no estoy tan seguro". Pero entrenamientos como RLHF (Reinforcement Learning from Human Feedback) desgastan esta señal. La razón es que las preferencias humanas favorecen respuestas con tono seguro, lo que obliga a la IA a aprender a proyectar seguridad externamente sin importar cuán indecisa esté internamente.

"Evaluación de causalidad": Un problema más profundo es cómo asegurar que la IA realmente esté leyendo sus señales internas, y no simplemente haya aprendido un patrón superficial como "cuando vea una palabra rara, diga 'No estoy seguro'". Distinguir entre "metacognición real" y "representación de la metacognición" es un problema fundamental de evaluación científica.

El artículo también hace recomendaciones específicas a la comunidad investigadora: Dejar de evaluar métodos contra alucinaciones usando solo un número único de precisión. Deberían visualizarse las curvas completas de "compensación utilidad-tasa de error", para ver claramente si un método realmente mejora la capacidad de discriminación subyacente, o simplemente ajusta el umbral de rechazo en la misma curva. También se debe detectar el "daño colateral" — para reducir la tasa de error en preguntas de conocimiento, ¿se ha pagado un precio inesperado en tareas de razonamiento, programación o escritura?

En última instancia, el mensaje central que este artículo quiere transmitir es: La IA no tiene que ser omnisciente, pero debe tener un conocimiento honesto de lo que sabe y lo que no sabe, y comunicar ese conocimiento al usuario.

Confiamos en los profesionales, no porque nunca cometan errores, sino porque pueden distinguir honestamente entre "Estoy seguro" y "Estoy adivinando" — es esta distinción la que marca la diferencia entre lo profesional y lo no profesional. La IA también debería transitar este camino. En lugar de perseguir interminablemente la ilusión de ser perfecta e infalible, es mejor enseñarle a la IA algo más práctico: saber cuándo está diciendo tonterías, y decírselo honestamente al usuario. (Este artículo se publicó por primera vez en Titanium Media APP, autor | Silicon Valley Tech_news, editor | Jiao Yan)

Preguntas relacionadas

Q¿Cuál es el argumento principal del artículo sobre el problema de las alucinaciones en los modelos de lenguaje?

AEl artículo argumenta que la estrategia predominante para combatir las alucinaciones está equivocada. En lugar de intentar que los modelos 'lo sepan todo' mediante más datos, o que rechacen demasiadas preguntas con el coste de la 'utilidad', el camino correcto es dotar a los modelos de 'metacognición'. Esto significa que deben aprender a percibir su propio grado de incertidumbre interna y expresarlo fielmente en su lenguaje (incertidumbre fiel), diciendo 'no estoy seguro' cuando sea apropiado.

Q¿Qué es el 'impuesto de utilidad' (utility tax) mencionado en el artículo?

AEl 'impuesto de utilidad' es el alto costo que se paga al reducir las alucinaciones mediante la estrategia de rechazar respuestas. Para reducir drásticamente la tasa de error, los modelos deben rechazar responder un gran porcentaje de preguntas, incluso aquellas que podrían haber contestado correctamente. Esto sacrifica la utilidad del modelo como asistente, ya que deja de proporcionar mucha información útil por miedo a equivocarse.

QSegún el artículo, ¿cuál es la diferencia clave entre 'calibración' y 'capacidad de discriminación' (discrimination) en los modelos de IA?

ALa 'calibración' mide si el nivel general de confianza del modelo coincide con su tasa general de aciertos (ejemplo: 60% de confianza y 60% de respuestas correctas). La 'capacidad de discriminación' mide la habilidad del modelo para distinguir, en cada pregunta concreta, si la va a responder correcta o incorrectamente. Un modelo puede estar perfectamente calibrado pero tener una capacidad de discriminación nula si asigna la misma confianza a todas las respuestas, sin poder diferenciar las seguras de las inciertas.

Q¿Cómo redefine el artículo el concepto de 'alucinación' para plantear una nueva solución?

AEl artículo redefine la 'alucinación' no como el hecho de que la IA diga algo incorrecto, sino como el hecho de que 'la IA no tenga derecho a estar segura, pero afirme algo erróneo con un tono determinante'. El problema central es la falta de honestidad sobre su propia incertidumbre. Por lo tanto, la solución no es eliminar todos los errores (algo teóricamente imposible), sino lograr una 'incertidumbre fiel', donde el lenguaje de la IA refleje con precisión su estado interno de confianza o duda.

Q¿Por qué la metacognición es especialmente crítica en la era de los agentes de IA (Agents)?

APorque los agentes de IA suelen utilizar herramientas externas (como motores de búsqueda). Sin metacognición, el agente no puede juzgar cuándo necesita buscar información, cuándo confiar en los resultados de la búsqueda frente a su propio conocimiento, o cuándo detener la búsqueda. Carece de un 'tablero de instrumentos' interno para tomar estas decisiones de control, lo que lleva a un uso deficiente o abusivo de las herramientas y a una operación poco fiable, similar a 'volar a ciegas'.

Lecturas Relacionadas

a16z: Por qué los mercados de predicción serán la infraestructura de las "probabilidades futuras"

Los mercados de predicción, al convertir eventos futuros en contratos comercializables, permiten a los participantes expresar juicios con dinero real y agregar información dispersa en tiempo real, generando una probabilidad aproximada a través del precio. A diferencia de encuestas o predicciones de expertos, su ventaja radica en el incentivo económico para que participen quienes poseen información relevante. Estos mercados no son máquinas de profecía, sino una aplicación directa de la capacidad de los mercados para agregar información. Permiten abordar cuestiones específicas, desde geopolítica hasta el rendimiento de modelos de IA, que los activos financieros tradicionales no pueden expresar. Sin embargo, su eficacia no es automática. Depende de quién comercia, del diseño de los contratos, de la determinación de resultados y de la resistencia a la manipulación por parte de actores internos o interesados. Sin una participación informada, los precios son ruido; con información privilegiada, se pierde equidad. Por tanto, el siguiente paso no es solo escalar, sino construir una infraestructura más confiable: reglas de participación transparentes, diseño de contratos claro, mecanismos de liquidación auditables y restricciones contra la manipulación. Su verdadero valor reside en proporcionar una nueva señal de probabilidad pública en entornos de alta incertidumbre.

marsbitHace 8 min(s)

a16z: Por qué los mercados de predicción serán la infraestructura de las "probabilidades futuras"

marsbitHace 8 min(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar CORE

¡Bienvenido a HTX.com! Hemos hecho que comprar CORE (CORE) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar CORE (CORE) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu CORE (CORE)Después de comprar tu CORE (CORE), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear CORE (CORE)Tradear fácilmente con CORE (CORE) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

346 Vistas totalesPublicado en 2024.12.13Actualizado en 2026.06.02

Cómo comprar CORE

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de CORE (CORE).

活动图片