Transformando el Transformer: los LLM se vuelven más inteligentes con un simple cambio

marsbitPublicado a 2026-06-29Actualizado a 2026-06-29

Resumen

Una nueva investigación de Mila, la Universidad de Cornell y la Universidad de Montreal propone un cambio radical en la arquitectura de los modelos de lenguaje grandes (LLM): la redistribución asimétrica de parámetros sin aumentar su número total. El estudio señala que la práctica estándar de asignar la misma capacidad (ancho de la red feed-forward) a cada capa del Transformer es ineficiente. Evidencias como el "early exiting" y estudios de interpretabilidad muestran que las capas iniciales procesan información fundamental (sintaxis), mientras que las posteriores a menudo refinan o repiten información. Los investigadores introdujeron los "Modelos de Lenguaje Cónicos" (Tapered Language Models), donde el ancho de la red disminuye progresivamente desde las capas iniciales hacia las finales, manteniendo constante el total de parámetros y operaciones (FLOPs). El mejor resultado se obtuvo con una disminución de tipo coseno, asignando un 50% más de capacidad al inicio y un 50% menos al final. En pruebas con un modelo de 440M de parámetros, esta simple redistribución redujo la perplejidad en 1.84 puntos (de 16.28 a 14.44), una mejora significativa sin costo computacional adicional. El hallazgo se validó en múltiples arquitecturas (Transformer estándar, Hope-attention, Titans) y escalas (hasta 1.3B de parámetros), mostrando mejoras consistentes en tareas de razonamiento y predicción lingüística. La explicación subyacente es que las capas profundas generan activaciones más similare...

Junio de 2026: la industria de los grandes modelos está experimentando una "marea de código abierto" sin precedentes. Nvidia lanza un modelo híbrido de 550B parámetros, Google regala una nueva versión multimodal de Gemma, y Zhipu AI abre completamente su modelo insignia con la licencia más permisiva.

Casi todos los fabricantes cuentan la misma historia: usar una estructura de Expertos Mixtos (MoE) para acomodar más parámetros, usar métodos de activación más dispersos para reducir costes, y emplear anchos de red elásticos para adaptarse a diferentes escenarios de despliegue.

En otras palabras, toda la industria se está esforzando por investigar "cómo meter más parámetros en el mismo presupuesto de computación".

Pero un nuevo artículo de investigadores de Mila, la Universidad de Cornell y la Universidad de Montreal plantea una pregunta casi opuesta: ¿Qué pasaría si no añadiéramos ni un solo parámetro más, sino que simplemente "reubicáramos" los parámetros que ya existen en el modelo?

Título del artículo: Tapered Language Models Enlace al artículo: https://arxiv.org/abs/2606.23670

Contexto: La "igualdad de trato" ignorada

Desde el artículo fundacional de 2017 "Attention Is All You Need", casi todos los modelos de lenguaje comparten el mismo esqueleto, ya sea el Transformer clásico, los mecanismos de atención con compuertas, las redes con memoria recurrente, o incluso las nuevas arquitecturas con "memoria durante la inferencia": apilar un número de "capas" estructuralmente idénticas, cada una asignada exactamente la misma cantidad de parámetros.

Es como una cadena de restaurantes que, independientemente de si está en el centro o en las afueras, cuenta con exactamente el mismo número de chefs y equipamiento de cocina, sin considerar en absoluto las diferencias en el flujo de clientes. Este enfoque de asignación "igual para todos" es cómodo y fácil de mantener, pero no necesariamente es la solución óptima.

En los últimos años, cada vez más investigaciones desde diferentes ángulos señalan que las capas del modelo no son igualmente importantes.

Los experimentos de "salida anticipada" muestran que, a menudo, la respuesta está prácticamente decidida antes de que el modelo llegue a la última capa.

La investigación sobre "poda de capas" encuentra que eliminar algunas de las capas posteriores apenas afecta al rendimiento del modelo.

Los estudios de interpretabilidad revelan que las capas superficiales capturan información "básica" como la gramática, mientras que las capas profundas procesan información "avanzada" como la semántica.

En otras palabras, las capas son muy diferentes entre sí, pero la asignación de parámetros siempre ha sido uniforme.

Esta es precisamente la pregunta central del artículo: si la importancia desigual de las capas ya ha sido demostrada, ¿por qué su "capacidad cerebral" sigue asignándose de manera uniforme?

Moviendo la "capacidad cerebral" hacia adelante

El equipo de investigación primero hizo un experimento de verificación simple y directo: dividió las capas de un modelo Transformer de 440M parámetros en tres grupos (temprano, medio, tardío). Manteniendo constante el número total de parámetros, hicieron que la "Red Feed-Forward" (FFN, el componente central de cada capa responsable de almacenar y procesar información, podríamos decir su "capacidad de memoria de trabajo") de un grupo fuera más ancha, mientras que las de los otros dos grupos se hacían más estrechas.

El resultado fue muy claro: la asignación "de cabeza pesada" concentrando la capacidad en las primeras capas redujo la perplejidad del modelo en el conjunto de validación (una métrica que mide la precisión predictiva de un modelo de lenguaje; valores más bajos indican predicciones más precisas) de 16.28 a 15.96. En cambio, concentrar la capacidad en las capas finales hizo que la perplejidad se disparara a 17.29.

La misma cantidad total de parámetros, solo por estar distribuidos de manera diferente, produjo una diferencia de más de un punto completo en la perplejidad, lo que representa una brecha considerable en el sistema de evaluación de modelos de lenguaje.

Este hallazgo dirigió la pregunta a un enfoque más detallado: en lugar de una agrupación "rígida" en tres segmentos, ¿podría usarse una curva más suave para que la capacidad disminuyera gradualmente de adelante hacia atrás?

Los investigadores denominaron a este enfoque "Modelos de Lenguaje Cónicos" (Tapered Language Models, TLMs): seleccionar cualquier dimensión del modelo que determine la cantidad de parámetros (por ejemplo, el ancho de la FFN) y hacer que disminuya monótonamente a lo largo de la dirección de profundidad, garantizando al mismo tiempo que el ancho promedio de todas las capas siga siendo igual al valor fijo original.

Así, la cantidad total de parámetros y el coste computacional permanecen exactamente iguales, solo que la forma de distribución pasa de ser un "rectángulo" a una "cuña".

El equipo probó tres curvas de decremento: decrecimiento lineal, decrecimiento coseno y decrecimiento en forma de S (Sigmoide).

La diferencia entre estas tres curvas es similar a tres formas diferentes de "recoger el puesto":

El decrecimiento lineal es como cerrar la tienda a un ritmo constante, desmontando más o menos el mismo número de puestos en cada intervalo de tiempo.

El decrecimiento en S es como anunciar de repente el cierre concentrado; la mayoría de los puestos permanecen como estaban, y solo un segmento intermedio se contrae rápidamente.

El decrecimiento coseno se sitúa entre ambos, con transiciones suaves en los extremos y una contracción gradual en el centro, evitando así tanto la pérdida de flexibilidad en los extremos por un corte brusco como la fuerza promedio que pasa por alto el lugar donde más conviene contraer.

Resultados experimentales: 1.84 puntos de mejora... ¡gratis!

Después de escanear combinaciones de cinco proporciones de ancho y tres curvas en el Transformer de 440M parámetros, el decrecimiento coseno salió victorioso por completo: en la configuración óptima (el ancho de las capas iniciales es 1.5 veces el ancho de referencia, el de las finales es 0.5 veces), la perplejidad bajó de la línea base de distribución uniforme (16.28) a 14.44, una mejora de 1.84 puntos completos, y todo esto sin añadir ni un solo parámetro ni una operación de coma flotante adicional.

Y lo más crucial es que esta conclusión no es una casualidad de una arquitectura específica.

El equipo de investigación aplicó la misma configuración (decrecimiento coseno, relación de anchos inicial/final 1.5/0.5) sin cambios a otras tres arquitecturas estructuralmente muy diferentes: un modelo de atención con mecanismo de compuerta, la arquitectura Hope-attention con capacidad de "memoria auto-modificable", y la arquitectura Titans con un módulo de memoria neuronal a largo plazo, validándola de nuevo en dos escalas mayores: 760M y 1.3B parámetros.

El resultado fue: cuatro arquitecturas, dos escalas, en los ocho pares de comparación, los modelos transformados en "cónicos" mejoraron su precisión promedio en el benchmark de razonamiento de sentido común, y su perplejidad en la tarea de predicción de lenguaje LAMBADA. Los investigadores también realizaron pruebas adicionales de recuperación de texto largo (Needle-in-a-Haystack), confirmando que esta redistribución no sacrifica la capacidad del modelo para manejar contextos largos.

Para explicar las razones detrás de este fenómeno, el equipo también midió el grado de similitud entre la salida de cada capa FFN y el flujo de información existente en la serie de modelos GPT-2, encontrando un patrón claro: cuanto más profunda es la capa en el modelo, más se parece el nuevo contenido que escribe a la información ya existente. En otras palabras, las capas posteriores se dedican más a "repetir y enfatizar" juicios ya existentes, que a "crear" una nueva comprensión.

Esto explica precisamente por qué es razonable mover capacidad de las capas finales a las iniciales: las capas iniciales realmente pueden usar esa "capacidad cerebral" extra, mientras que las finales no.

Conclusión

Este estudio plantea esencialmente una propuesta sencilla pero largamente ignorada: la capacidad del modelo no debería ser un recurso que se distribuye uniformemente, sino que debería fluir hacia donde realmente se necesita.

En un 2026 donde toda la industria compite por "quién tiene más parámetros" o "cuya arquitectura es más dispersa", este artículo ofrece una solución alternativa de costo casi cero: no hace falta cambiar la arquitectura, ni añadir parámetros, solo cambiar la "forma" de la distribución.

Los investigadores también admiten que la configuración óptima actual se ajustó en un modelo de 440M parámetros; si existen "recetas personalizadas" más adecuadas para diferentes escalas o arquitecturas sigue siendo una pregunta abierta.

Pero lo más destacable es que el artículo señala que este enfoque no se limita a los modelos de lenguaje: los Transformers visuales, los modelos de difusión, los modelos multimodales, casi todos han heredado la misma configuración predeterminada de "capas con partes iguales". Si la forma de la distribución de la capacidad es en sí misma una dimensión de diseño largamente ignorada, entonces esta "palanca gratuita escondida a plena vista" quizás acaba de ser notada.

Presentación del equipo

El artículo fue realizado conjuntamente por Reza Bayat de Mila (Instituto de Algoritmos de Aprendizaje de Montreal), Ali Behrouz de la Universidad de Cornell, y Aaron Courville, cofundador de Mila y profesor de la Universidad de Montreal.

Ali Behrouz es actualmente investigador en Google Research y estudiante de doctorado en la Universidad de Cornell. En los últimos dos años ha participado en el diseño de varias arquitecturas nuevas que han atraído una amplia atención, incluyendo la arquitectura Titans capaz de "aprender memoria durante la fase de prueba", y los posteriores marcos Atlas y "Aprendizaje Anidado" (Nested Learning), enfocándose a largo plazo en cómo hacer que los modelos utilicen y almacenen información de contexto a largo plazo de manera más eficiente.

Aaron Courville es un académico senior en el campo del aprendizaje profundo, CIFAR AI Chair, y durante mucho tiempo ha impulsado junto a Yoshua Bengio la investigación fundamental en aprendizaje profundo, con una sólida trayectoria en aprendizaje de representaciones y modelos generativos. También es uno de los autores de las Redes Generativas Antagónicas (GAN) y coautor junto a Ian Goodfellow y Bengio del libro clásico "Deep Learning".

Este artículo proviene de la cuenta de WeChat "Machine Heart" (ID: almosthuman2014), autor: preocupado por la IA.

Preguntas relacionadas

Q¿Cuál es la pregunta central planteada por la investigación de Mila, Cornell y la Universidad de Montreal en el artículo?

ALa pregunta central es: ¿Qué pasaría si no se agregara ningún parámetro adicional a un modelo de lenguaje, sino que solo se reorganizaran los parámetros ya existentes dentro del modelo?

Q¿Cómo se denomina la nueva estructura de modelo propuesta en el artículo y en qué consiste su principio fundamental?

ASe denomina 'Modelos de Lenguaje Cónicos' (Tapered Language Models, TLMs). Su principio fundamental es hacer que una dimensión clave del modelo, como el ancho de la red feed-forward, disminuya de manera monótona a lo largo de las capas, de adelante hacia atrás, manteniendo el mismo número total de parámetros y cálculos.

QSegún los experimentos, ¿qué forma de decremento de la 'capacidad cerebral' a través de las capas obtuvo los mejores resultados y cuánto mejoró la perplejidad en el modelo de 440M parámetros?

AEl decremento de tipo coseno obtuvo los mejores resultados. En el modelo Transformer de 440M parámetros, redujo la perplejidad de 16.28 (línea base uniforme) a 14.44, logrando una mejora de 1.84 puntos.

Q¿Qué descubrieron los investigadores sobre la función de las capas posteriores del modelo que ayuda a explicar por qué funciona la reasignación de capacidad hacia las capas iniciales?

ADescubrieron que las capas más profundas tienden a producir un contenido más similar al flujo de información ya existente, funcionando más como un 'refuerzo' de juicios previos que como una 'creación' de nuevo entendimiento. Por eso, las capas iniciales aprovechan mejor la capacidad adicional.

QAdemás de los modelos de lenguaje, ¿a qué otros tipos de arquitecturas de modelos sugiere el artículo que podría aplicarse el principio de distribución cónica de capacidad?

AEl artículo sugiere que el principio podría aplicarse a otras arquitecturas que heredan la configuración por defecto de capas uniformes, como los Transformers visuales, los modelos de difusión (diffusion models) y los modelos multimodales.

Lecturas Relacionadas

La espada de Damocles del mercado alcista de la IA: no solo en Corea, el apalancamiento en las acciones estadounidenses también es alarmante

El auge de la IA ha impulsado los mercados bursátiles globales a nuevos máximos, pero el combustible que sostiene esta subida es cada vez más peligroso: el apalancamiento ha alcanzado niveles extremos tanto en EE. UU. como en Corea del Sur. En EE. UU., la deuda de margen (margin debt) alcanzó un récord de 1.4 billones de dólares en mayo, mientras que los activos de los ETF apalancados casi se duplicaron a 220 mil millones de dólares en menos de 70 días. El entusiasmo se concentra en índices de tecnología y semiconductores, y en acciones como Nvidia o Tesla. Este frenesí de apalancamiento, impulsado por fondos de cobertura y pequeños inversores, actúa como un amplificador procíclico: alimenta la subida, pero multiplicará las caídas cuando se revierta la tendencia, como advierten Barclays y Morgan Stanley. La alerta se encendió tras la volatilidad extrema en Corea del Sur, donde el índice KOSPI, liderado por acciones de chips como Samsung, sufrió múltiples interrupciones por caídas bruscas, mostrando la vulnerabilidad de un mercado altamente concentrado y con un apalancamiento elevado. Simultáneamente, el coste de financiar operaciones bursátiles en EE. UU. se ha disparado a máximos no vistos desde 2020, según Morgan Stanley. La demanda de financiación se concentra abrumadoramente en el sector tecnológico, lo que hace que todo el mercado dependa de un número reducido de compradores apalancados. Cuando estos compradores marginales desaparezcan, una corrección podría desencadenar un proceso de desapalancamiento que amplificaría la presión vendedora de forma no lineal. Los analistas advierten que este riesgo latente podría forzar una reevaluación de las condiciones financieras y del camino futuro de la política de la Fed.

marsbitHace 50 min(s)

La espada de Damocles del mercado alcista de la IA: no solo en Corea, el apalancamiento en las acciones estadounidenses también es alarmante

marsbitHace 50 min(s)

Trading

Spot
活动图片