Tras tres años de retraso, el último artículo de la exalumna de la Universidad de Pekín, Lilian Weng, se viraliza
"Tras tres años sin actualizar su blog, la ex vicepresidenta de OpenAI y cofundadora de Thinking Machines, Lilian Weng, publica un extenso análisis que cuestiona la fiabilidad de las 'Scaling Laws', las leyes de escalamiento que han guiado inversiones billonarias en IA.
El artículo desmonta que la mejora del rendimiento de los modelos de lenguaje (LLM) al aumentar parámetros, datos y computación sea tan predecible como se creía. Expone divergencias clave: en 2020, OpenAI concluyó que el tamaño del modelo debía crecer más rápido que los datos, mientras que DeepMind (2022) defendió un crecimiento proporcional, un desacuerdo atribuido a diferencias metodológicas y al tamaño limitado de los experimentos iniciales.
Más críticamente, Weng revela que la metodología del influyente estudio 'Chinchilla' de DeepMind contenía errores, como una función de pérdida que no convergía correctamente, lo que significa que la 'fórmula óptima' utilizada durante años por la industria podría no serlo.
El análisis subraya un problema fundamental: las leyes clásicas asumen datos únicos e infinitos, pero los textos de alta calidad se agotan. La repetición de datos en el entrenamiento degrada el rendimiento, especialmente en modelos grandes. Esto explica el cambio de la industria hacia el aprendizaje por refuerzo, el cómputo en tiempo de prueba y los datos sintéticos.
En resumen, el artículo argumenta que la era de la escalabilidad simple ('scale is all you need') toca a su fin, y que el progreso futuro de la IA dependerá de refinamientos metodológicos precisos y de nuevas vías para superar la limitación de datos."
marsbitHace 54 min(s)