Artículos Relacionados con Asignación de Parámetros

El Centro de Noticias de HTX ofrece los artículos más recientes y un análisis profundo sobre "Asignación de Parámetros", cubriendo tendencias del mercado, actualizaciones de proyectos, desarrollos tecnológicos y políticas regulatorias en la industria de cripto.

Transformando el Transformer: los LLM se vuelven más inteligentes con un simple cambio

Una nueva investigación de Mila, la Universidad de Cornell y la Universidad de Montreal propone un cambio radical en la arquitectura de los modelos de lenguaje grandes (LLM): la redistribución asimétrica de parámetros sin aumentar su número total. El estudio señala que la práctica estándar de asignar la misma capacidad (ancho de la red feed-forward) a cada capa del Transformer es ineficiente. Evidencias como el "early exiting" y estudios de interpretabilidad muestran que las capas iniciales procesan información fundamental (sintaxis), mientras que las posteriores a menudo refinan o repiten información. Los investigadores introdujeron los "Modelos de Lenguaje Cónicos" (Tapered Language Models), donde el ancho de la red disminuye progresivamente desde las capas iniciales hacia las finales, manteniendo constante el total de parámetros y operaciones (FLOPs). El mejor resultado se obtuvo con una disminución de tipo coseno, asignando un 50% más de capacidad al inicio y un 50% menos al final. En pruebas con un modelo de 440M de parámetros, esta simple redistribución redujo la perplejidad en 1.84 puntos (de 16.28 a 14.44), una mejora significativa sin costo computacional adicional. El hallazgo se validó en múltiples arquitecturas (Transformer estándar, Hope-attention, Titans) y escalas (hasta 1.3B de parámetros), mostrando mejoras consistentes en tareas de razonamiento y predicción lingüística. La explicación subyacente es que las capas profundas generan activaciones más similares a las entradas existentes, necesitando menos "capacidad de trabajo" nueva. Este trabajo sugiere que optimizar la *forma* de distribución de parámetros es una palanca de mejora infrautilizada y de costo casi cero, aplicable potencialmente a Transformers visuales y modelos multimodales.

marsbitHace 8 hora(s)

Transformando el Transformer: los LLM se vuelven más inteligentes con un simple cambio

marsbitHace 8 hora(s)

活动图片