Los modelos masivos superan todos los exámenes, pero se alejan cada vez más del AGI: ¿qué desnuda este artículo?

marsbitPublicado a 2026-05-28Actualizado a 2026-05-28

Resumen

"Gran Modelos Linguísticos (LLMs) han superado numerosos exámenes de referencia, pero ¿significa esto que nos acercamos a la Inteligencia Artificial General (AGI)? Un artículo reciente argumenta que en realidad nos estamos alejando, ya que carecemos de una definición clara y medible de la AGI. Frente a un vacío conceptual donde visionarios como Musk o Huang ofrecen predicciones dispares, investigadores como Bennett proponen un nuevo estándar: la AGI debe evaluarse como un 'científico artificial'. Este criterio exige tres capacidades fundamentales más allá de la mera imitación: 1) **Experimentación activa**: capacidad de interactuar autónomamente con entornos nuevos para obtener información, no solo procesar datos pasivamente. 2) **Comprensión causal**: pasar de identificar correlaciones en los datos a entender relaciones de causa-efecto, esencial para una verdadera adaptación. 3) **Balance entre exploración y explotación**: gestionar recursos limitados para buscar nuevos conocimientos mientras aplica los existentes. El artículo critica que el camino actual dominante, el 'Scale-maxing' (maximización de escala mediante datos, parámetros y potencia de cálculo), solo produce respuestas aproximadas memorizadas en los pesos del modelo, fallando en tareas fuera de su distribución de entrenamiento (por ejemplo, errores básicos en comparación de números). La verdadera AGI, según Bennett, requerirá una convergencia de múltiples enfoques metodológicos, no solo la ampliación de modelos...

Si alguien te dice que ya se ha logrado la IAG (Inteligencia Artificial General), ¿cómo puedes saber si dice la verdad o solo está fanfarroneando?

En el acuerdo secreto filtrado entre OpenAI y Microsoft, la regla para medirlo eran los estados financieros: desarrollar un sistema de IA que genere al menos 100.000 millones de dólares en beneficios equivaldría a lograr la IAG. Para Jensen Huang, la regla es el tiempo: será una realidad en cinco años. Y Elon Musk ha pronosticado repetidamente que sucederá "el próximo año".

Que los líderes de la industria den versiones distintas no se debe a que alguien mienta, sino a que el concepto mismo de IAG carece de una regla de medición universalmente aceptada. Como señala Bennett, un investigador con pensamiento independiente en este campo, en un artículo, la IAG ha sido reducida por la especulación y el bombo publicitario a una "prueba de Rorschach": cada uno ve solo la imagen que tiene en su mente, no los hechos objetivos. Melanie Mitchell, científica del Instituto Santa Fe, también cree que este debate solo podrá aclararse mediante una investigación científica a largo plazo. (Enlace al artículo: https://arxiv.org/pdf/2503.23923)

Este es el dilema más absurdo de la industria de la IA en la actualidad: corremos a toda velocidad hacia un objetivo cuya línea de meta ni siquiera está bien definida.

2025: ¿Quién está redibujando la línea de salida de la IAG?

Ante este vacío de definición, el mundo académico comenzó en 2025 a "ocupar el puesto" intensamente. Académicos como Bengio enfatizan la "versatilidad" y la "competencia"; DeepMind propone la "IAG distribuida", tratando de romper el mito de una entidad única y todopoderosa.

Pero Michael Timothy Bennett, investigador de la Universidad Nacional Australiana, en un artículo subido a arXiv a finales de marzo, ofreció una respuesta extremadamente provocadora, y sin embargo, la más precisa.

Señaló que las definiciones anteriores, dando vueltas y vueltas, siguen comparándose con un "adulto educado". Bennett adopta la definición de inteligencia del académico Pei Wang —ver la inteligencia como la capacidad de adaptación bajo recursos limitados—, saliendo fundamentalmente del marco de "parecerse al humano", y define la IAG como un "científico artificial".

Propone que una verdadera IAG debería ser un sistema que, bajo restricciones reales como la computación, la memoria y la energía, pueda adaptarse de manera amplia, eficiente y científica a nuevos entornos y tareas, como lo hace un científico humano.

El mensaje subyacente de esta frase es: el criterio para juzgar la IAG no debería ser cuánto se parece a un humano, sino cuán fuerte es su capacidad para "descubrir conocimiento nuevo".

¿Por qué se necesita urgentemente una nueva regla de medición? Porque la antigua —la prueba de Turing y los puntos de referencia basados en humanos— ha sido superada por los modelos masivos (grandes modelos de lenguaje), pero cada vez estamos más lejos de una verdadera inteligencia general.

En 2025, si le preguntas a un modelo masivo de última generación "¿qué es más grande, 9.11 o 9.9?", todavía podría decirte con confianza que 9.11 es más grande, porque 11 es mayor que 9. Al resolver complejas pruebas de desigualdades matemáticas, incluso si el modelo acierta la respuesta, el proceso de razonamiento a menudo es un desastre lógico.

Bennett señaló con precisión la causa raíz: los modelos masivos actuales siguen la ruta de la "aproximación por maximización de escala" (Scale-maxing) —utilizan datos masivos y potencia de cálculo para almacenar de antemano respuestas aproximadas para todo tipo de tareas en los pesos de la red. En cuanto encuentran un problema fuera de la distribución con la que fueron entrenados, su falencia queda al descubierto.

Lo que es más fatal es que los modelos masivos carecen de "capacidad activa". No pueden hacer experimentos activamente para verificar hipótesis, no pueden construir cadenas causales de forma autónoma y no pueden sopesar el equilibrio entre "seguir explorando" y "aprovechar lo conocido".

Volviendo a la comparación entre 9.11 y 9.9: el modelo masivo no es que no sepa aritmética, es que simplemente no ha construido un modelo causal sobre la comparación de números. Solo está adivinando, usando probabilidades, el fragmento de texto más cercano que ha visto antes.

El abismo entre la "capacidad de imitación" y la "capacidad de adaptación" es precisamente lo que el nuevo estándar de IAG pretende medir.

La nueva escala de la inteligencia: Desglosando al "científico artificial"

La razón por la que este conjunto de criterios de Bennett merece atención es porque reduce la IAG de una proposición filosófica difusa a un problema de ingeniería cuantificable.

En su opinión, una verdadera IAG debería alinear perfectamente su comportamiento con el paradigma de investigación de un científico humano:

Primero, de "marioneta" a "experimentador activo".

La IA actual es un aprendiz completamente pasivo, solo puede "ver" los datos que los humanos le dan. Pero un científico no. Si un científico está encerrado en una habitación desconocida, no se quedará quieto esperando información: intentará empujar la puerta, tirar del picaporte, revisar las ventanas; eso es "experimentación activa". Una verdadera IAG debe poder planificar experimentos de forma autónoma y obtener información clave mediante la interacción activa.

Segundo, de "saber el qué" a "saber el porqué".

Esta es la mayor debilidad actual de la IA. Los modelos masivos son aprendices extremos de "correlaciones". Saben que "llover" suele acompañarse de "suelo mojado", pero no saben qué causa qué. Solo entendiendo la causalidad se puede inferir, cuando el cielo está despejado pero el suelo mojado, que pasó una manguera de riego y no que va a llover. Sin comprensión causal, la IA siempre estará limitada a la distribución de sus datos de entrenamiento, lo que no tiene nada que ver con lo "general".

Tercero, caminar sobre la cuerda floja entre "explorar" y "explotar".

Si solo exploras y no explotas, por mucho conocimiento que tengas, no resolverás el problema inmediato; si solo explotas y no exploras, cuando cambie el entorno, te quedarás paralizado. La IAG debe equilibrar dinámicamente esta contradicción bajo restricciones de recursos —saber lo que no sabe y asignar potencia de cálculo en consecuencia.

Además, Bennett añade una dimensión muy realista: la restricción energética. Incluir la "energía" en la definición significa que traza una línea de base: la verdadera inteligencia no es tener recursos ilimitados, sino adaptarse con elegancia bajo recursos limitados. Una IA que necesita consumir una central nuclear para resolver un nuevo problema es solo una calculadora cara, no una IAG.

Reinicio de la ruta hacia la IAG: Adiós a la única Scaling Law

Basándose en el marco anterior, Bennett desglosa los meta-métodos actuales para construir sistemas inteligentes en tres categorías:

Scale-maxing (Maximización de escala): La ruta actual dominante de los modelos masivos, apilando frenéticamente parámetros, datos y potencia de cálculo. Pero el cuello de botella ya es evidente: eficiencia de muestreo y energía extremadamente baja.

Simp-maxing (Maximización de la simplicidad): Busca la máxima simplicidad en la estructura del modelo, creyendo en la navaja de Ockham. Pero la simplicidad es una propiedad de la forma, no de la función —la definición de "más simple" puede ser completamente diferente bajo diferentes máquinas de Turing, lo que la hace difícil de escapar de la trampa de la subjetividad.

W-maxing (Maximización del debilitamiento de restricciones): Debilita las restricciones funcionales tanto como sea posible, permitiendo que el sistema encuentre la solución óptima por sí mismo. Los experimentos muestran que solo con W-maxing se puede lograr una mejora del 110% al 500% en la tasa de generalización para tareas específicas, pero requiere buscar en un espacio infinito de formas de hardware, lo que hace que la optimización sea extremadamente difícil.

La conclusión de Bennett es muy clara: aunque Scale-maxing domina absolutamente en la actualidad, la IAG nunca se logrará mediante la estética de la fuerza bruta de una sola ruta; necesariamente será una fusión de múltiples meta-métodos.

Si la definición de "científico artificial" es ampliamente aceptada, la industria de la IA experimentará un profundo cambio de paradigma.

Los criterios de evaluación cambiarán por completo. Ya no necesitaremos ver cuántos puntos más supera el modelo masivo en la tabla de clasificación de exámenes humanos, sino establecer un conjunto de "puntos de referencia de adaptabilidad": arrojar la IA a un entorno físico nunca antes visto y ver si puede descubrir patrones con interacción limitada; darle un nuevo juego y ver si puede entender las reglas más rápido que un humano; incluso hacerla resolver problemas científicos reales y ver si puede proponer hipótesis de forma autónoma y diseñar experimentos para verificarlas. El núcleo ya no es "cuánto sabes", sino "cuánto puedes descubrir".

La ruta tecnológica también cambiará en consecuencia. La simple Scaling Law pronto tocará techo, porque los datos recibidos pasivamente no pueden alimentar la causalidad. Búsqueda y aproximación, maximización de escala y debilitamiento de restricciones: el logro de la IAG será necesariamente una fusión de múltiples herramientas y meta-métodos, no una extensión de una sola ruta.

El artículo de Bennett es importante, no porque dé la respuesta definitiva a la IAG, sino porque limpia una esquina de ese espejo difuso llamado "inteligencia". Nos hace ver que la realización de la IAG no es una iteración lineal de los modelos masivos, sino un reinicio de ruta.

¿Cómo debería ser realmente la IAG? La respuesta no está en conversaciones cada vez más parecidas a las humanas, sino en la capacidad de preguntar activamente "por qué" y de verificar la respuesta con sus propias "manos". Cuando la IA realmente salga de la niebla de la "prueba de Rorschach", ya no solo imitará la apariencia humana, sino que tendrá el espíritu de un científico. (Este artículo se publicó por primera vez en Titanium Media APP, autor | Silicon Valley Tech News, editor | Zhao Hongyu)

Preguntas relacionadas

QSegún el artículo, ¿cuál es el principal problema con las definiciones actuales de AGI (Inteligencia Artificial General)?

AEl problema principal es que no existe una definición universalmente aceptada ni criterios claros para medirla, lo que hace que se convierta en una 'prueba de Rorschach' donde cada persona proyecta su propia interpretación.

Q¿Qué nueva definición de AGI propone Bennett en su investigación mencionada en el artículo?

ABennett propone definir la AGI como un 'científico artificial', es decir, un sistema capaz de adaptarse de manera amplia, eficiente y científica a nuevos entornos y tareas bajo restricciones reales (como cómputo, memoria y energía), similar a cómo lo haría un científico humano.

QSegún Bennett, ¿qué gran limitación tienen los modelos de lenguaje grandes actuales a pesar de su alto rendimiento en pruebas?

ASu gran limitación es la falta de 'capacidad activa': no pueden realizar experimentos para verificar hipótesis, construir cadenas causales de forma autónoma o equilibrar la exploración de lo desconocido con la explotación del conocimiento conocido.

Q¿Qué tres 'métodos meta' o enfoques principales para construir sistemas inteligentes identifica y desglosa Bennett en el artículo?

AIdentifica tres enfoques: 1) Scale-maxing (maximización de escala), que apila parámetros, datos y potencia computacional; 2) Simp-maxing (maximización de la simplicidad), que busca la máxima simplicidad estructural; y 3) W-maxing (maximización del debilitamiento de restricciones), que minimiza las restricciones funcionales para que el sistema encuentre soluciones óptimas por sí mismo.

Q¿Cómo cambiaría la evaluación de la IA si se adoptara ampliamente el estándar de 'científico artificial' propuesto por Bennett?

ALa evaluación cambiaría de medir cuánto conocimiento tiene un modelo (como en los exámenes tradicionales) a establecer 'puntos de referencia de adaptabilidad': observar si la IA puede descubrir leyes en un entorno físico nunca visto, entender las reglas de un nuevo juego más rápido que un humano o resolver problemas científicos reales proponiendo hipótesis y diseñando experimentos de forma autónoma.

Lecturas Relacionadas

Predicción del precio de Ethena: ¿Mantendrá la zona de $0.08 viva la recuperación de ENA?

El precio de Ethena (ENA) ha mostrado una recuperación reciente, subiendo un 14.11% desde su mínimo del 8 de julio y superando la zona de resistencia clave de $0.08. Este movimiento positivo se vio respaldado por la noticia de la función Robinhood Earn, que generó un importante aumento en el TVL de la cadena. Sin embargo, la tendencia general sigue siendo bajista, respaldada por indicadores como el OBV. Además, una gran transferencia de 1.231 mil millones de ENA entre carteras desconocidas introduce incertidumbre. Para que la recuperación se consolide, el precio debe superar la resistencia clave de $0.105-$0.125. Por ahora, los traders buscan más señales claras antes de tomar posiciones significativas.

ambcryptoHace 4 min(s)

Predicción del precio de Ethena: ¿Mantendrá la zona de $0.08 viva la recuperación de ENA?

ambcryptoHace 4 min(s)

Claude se volvió 'tonto' en toda la red, y Anthropic aclara el motivo: No es el modelo quien te falla

**Los usuarios de Claude Code se quejaban de que el modelo se volvió más torpe, pero Anthropic aclara: el problema no era el modelo, sino el ajuste de "Esfuerzo".** En marzo, muchos desarrolladores notaron que Claude Code parecía menos competente: omitía leer archivos o ejecutar pruebas. La comunidad criticó fuertemente a Anthropic. La causa real fue un cambio en la configuración predeterminada del nivel de **Esfuerzo (Effort)**, de "alto" a "medio", realizado para reducir la latencia. Este ajuste afectó cuánto trabajo invertía Claude en una tarea, no su conocimiento fundamental. Anthropic explica la diferencia clave entre **Modelo** y **Esfuerzo**: * **Modelo (Sonnet, Opus, Fable):** Representa la "inteligencia" o conocimiento base del modelo (pesos congelados del entrenamiento). Cambiarlo resuelve problemas de "¿puede hacerlo?". * **Esfuerzo (Effort):** Representa la "actitud" o cuánto trabajo está dispuesto a realizar en una tarea específica (leer archivos, ejecutar pruebas, verificar). Un Esfuerzo bajo hace que Claude responda rápido pero pida más contexto; un Esfuerzo alto lo hace investigar y trabajar de forma más autónoma. **Conclusión importante:** Un modelo más pequeño (como Sonnet) con un Esfuerzo alto puede superar a un modelo más grande (como Opus) con un Esfuerzo bajo en muchas tareas. El cambio de marzo demostró que los usuarios a menudo subestimaban el impacto del control de Esfuerzo, culpando erróneamente al modelo. **Marco para solucionar problemas:** 1. Verifica primero el contexto y las instrucciones (prompt). 2. Si Claude se equivoca, pregúntate: **¿Es que "no sabe" o "no se esfuerza lo suficiente"?** * **No se esfuerza (ej., omite pasos):** Aumenta el nivel de Esfuerzo. * **No sabe (ej., errores persistentes a pesar del contexto):** Cambia a un modelo más capaz. La lección es que el uso efectivo de herramientas de IA como Claude Code ya no se trata solo de elegir el modelo más potente, sino de aprender a **gestionar y asignar recursos** (modelo y esfuerzo) de manera inteligente para cada tarea, optimizando tanto el rendimiento como el coste.

marsbitHace 8 min(s)

Claude se volvió 'tonto' en toda la red, y Anthropic aclara el motivo: No es el modelo quien te falla

marsbitHace 8 min(s)

¿Se convertirá la Fundación Ethereum en una "mascota"? Organizaciones diversificadas están desgajando sus funciones

La Fundación Ethereum (EF) anunció la disolución de su equipo de soporte de protocolo y ha visto la salida de al menos 8 altos cargos este año, incluida la copresidenta ejecutiva, Xiaowei Wang. Estos cambios organizativos, descritos como la mayor ronda de despidos en la historia de la EF, siguen a una reestructuración que eliminó 54 puestos (20% de la plantilla). Paralelamente, han surgido organizaciones independientes como EthLabs y Ethereum Institutional, fundadas por exmiembros de la EF, que asumen funciones en investigación, desarrollo y adopción institucional, fragmentando el rol tradicional de la Fundación. Internamente, la EF enfrenta críticas por su estructura rígida y decisiones centralizadas. Externamente, su equipo de seguridad está adoptando agentes de IA para pruebas de penetración, encontrando vulnerabilidades reales, lo que plantea preguntas sobre el futuro impacto de la IA en sus funciones. El fundador Vitalik Buterin ha indicado que la EF debería ser más pequeña y menos central. Con estos cambios, algunos especulan que la Fundación podría evolucionar hacia un rol más simbólico o de "mascota" dentro del ecosistema, mientras que otras organizaciones impulsan la adopción y el avance técnico de Ethereum.

marsbitHace 35 min(s)

¿Se convertirá la Fundación Ethereum en una "mascota"? Organizaciones diversificadas están desgajando sus funciones

marsbitHace 35 min(s)

¿Vale la pena la quema de LIT de 42 millones de dólares para impulsar el próximo gran rally de esta altcoin?

El token Lighter (LIT) ha experimentado una notable actividad reciente. Trás una advertencia previa de posible sobrecompra, el precio cayó un 13% hasta los 2,3 dólares, pero luego se recuperó a 2,60 dólares. Este movimiento se produce después de que el proyecto quemara más de 15,6 millones de tokens LIT, valorados en más de 42 millones de dólares, lo que podría haber generado un impulso alcista a corto plazo. Sin embargo, el análisis técnico en el gráfico diario muestra una divergencia bajista, donde el RSI hizo un máximo más bajo mientras el precio alcanzaba un máximo más alto, señalando una posible corrección. Los niveles de retroceso de Fibonacci sugieren que si LIT cae por debajo de 2,30 dólares, podría iniciarse un retroceso más profundo. En el gráfico de 4 horas, el precio ha formado un rango entre 2,31 y 2,68 dólares. Los operadores están a la espera de una ruptura: un cierre por encima de 2,70 dólares podría apuntar a objetivos de 3,06 y 3,21 dólares, mientras que una caída por debajo del soporte de 2,31 dólares haría más probable un retroceso por debajo de los 2 dólares. En resumen, la demanda se mantiene fuerte, pero los traders deben observar la formación del rango a corto plazo para determinar la próxima dirección del movimiento.

ambcryptoHace 3 hora(s)

¿Vale la pena la quema de LIT de 42 millones de dólares para impulsar el próximo gran rally de esta altcoin?

ambcryptoHace 3 hora(s)

Casi un centenar de jugadores se lanzan al sector de datos embodiment: 44.700 millones de financiación en un año, ¿quién puede ganar dinero realmente "vendiendo datos"?

**Resumen en español europeo:** Más de 90 empresas, incluidas 70 dedicadas a la recopilación, compiten en el emergente campo de los datos de inteligencia encarnada en China. En el último año, 15 proveedores de datos independientes recaudaron aproximadamente 4.470 millones de RMB. El artículo, basado en estadísticas de "Quantum Bit", describe diez aspectos clave del sector: 1. **Métodos de recopilación:** Se dividen en cuatro categorías: teleoperación de robots reales, recopilación sin robot (con captura de movimiento), simulación y destilación de vídeos de internet. La mayoría de las empresas (43%) utilizan múltiples métodos, siendo la teleoperación la ruta única más común (31%). 2. **Perfil de los actores:** Los proveedores de datos independientes son el grupo más numeroso (40%), seguidos por plataformas de datos estatales (26%) y fabricantes de robots (25%). Dos tercios de las empresas son "nativas" del sector. 3. **Capacidad y distribución:** La capacidad anual actual se estima en 1,6-1,8 millones de horas, con el objetivo de multiplicarla por 15-20 en 1-3 años. Las "fábricas de datos" están presentes en 20 provincias, concentrándose en el delta del Yangtsé. 4. **Financiación y etapa:** La financiación del último año para proveedores independientes (44.700 millones RMB) es modesta comparada con la inversión total en inteligencia encarnada. El sector está muy fragmentado, con una sola "unicornio" (Lightwheel AI) que acaparó el 70% de la inversión. 69 fondos han invertido, pero ninguno de forma significativa, mostrando cautela. 5. **Conclusión:** El mercado de datos encarnados es ya una industria independiente y generadora de empleo, pero se encuentra en una fase muy temprana. Aún no está claro si "vender datos" será un negocio rentable, y los próximos 1-2 años serán cruciales para validar el modelo.

marsbitHace 3 hora(s)

Casi un centenar de jugadores se lanzan al sector de datos embodiment: 44.700 millones de financiación en un año, ¿quién puede ganar dinero realmente "vendiendo datos"?

marsbitHace 3 hora(s)

Trading

Spot

Los modelos masivos superan todos los exámenes, pero se alejan cada vez más del AGI: ¿qué desnuda este artículo?

Resumen

2025: ¿Quién está redibujando la línea de salida de la IAG?

La nueva escala de la inteligencia: Desglosando al "científico artificial"

Reinicio de la ruta hacia la IAG: Adiós a la única Scaling Law

Preguntas relacionadas

Lecturas Relacionadas

Predicción del precio de Ethena: ¿Mantendrá la zona de $0.08 viva la recuperación de ENA?

Claude se volvió 'tonto' en toda la red, y Anthropic aclara el motivo: No es el modelo quien te falla

¿Se convertirá la Fundación Ethereum en una "mascota"? Organizaciones diversificadas están desgajando sus funciones

¿Vale la pena la quema de LIT de 42 millones de dólares para impulsar el próximo gran rally de esta altcoin?

Casi un centenar de jugadores se lanzan al sector de datos embodiment: 44.700 millones de financiación en un año, ¿quién puede ganar dinero realmente "vendiendo datos"?

Trading

Categorías populares

Etiquetas Populares