# Сопутствующие статьи по теме Конические модели

Новостной центр HTX предлагает последние статьи и углубленный анализ по "Конические модели", охватывающие рыночные тренды, новости проектов, развитие технологий и политику регулирования в криптоиндустрии.

Преобразуем Transformer, и большие языковые модели становятся умнее

В новой статье исследователей из Mila, Корнелльского и Монреальского университетов предлагается радикально простой способ улучшить большие языковые модели (LLM) без увеличения параметров или вычислительных затрат. Вместо равномерного распределения параметров по всем слоям модели, авторы предлагают использовать «конические языковые модели» (Tapered Language Models, TLM), где емкость (например, ширина прямого распространения) монотонно уменьшается от ранних слоев к более поздним. Эксперименты на моделях размером от 440M до 1.3B параметров показывают, что оптимальное распределение (уменьшение по косинусоидальной кривой) дает значительное улучшение. Например, для модели на 440M параметров perplexity снизился с 16.28 до 14.44, что соответствует улучшению на 1.84 пункта. Этот результат воспроизведен на четырех различных архитектурах, включая Transformer, модели с управляемым вниманием и архитектуры с долговременной памятью. Ключевое обоснование заключается в том, что ранние слои модели обрабатывают фундаментальную информацию (например, синтаксис) и нуждаются в большей емкости, в то время как более глубокие слои часто лишь повторяют или уточняют уже сформированные представления. Таким образом, перераспределение ресурсов в пользу начальных слоев повышает общую эффективность модели без дополнительных затрат. Исследователи отмечают, что этот принцип может быть применен не только к языковым моделям, но и к другим архитектурам, таким как Vision Transformer или диффузионные модели, где также исторически используется равномерное распределение параметров по слоям. Работа открывает новое, практически бесплатное направление для оптимизации современных нейронных сетей.

marsbit9 ч. назад

Преобразуем Transformer, и большие языковые модели становятся умнее

marsbit9 ч. назад

活动图片