Преобразуем Transformer, и большие языковые модели становятся умнее

marsbitОпубликовано 2026-06-29Обновлено 2026-06-29

Введение

В новой статье исследователей из Mila, Корнелльского и Монреальского университетов предлагается радикально простой способ улучшить большие языковые модели (LLM) без увеличения параметров или вычислительных затрат. Вместо равномерного распределения параметров по всем слоям модели, авторы предлагают использовать «конические языковые модели» (Tapered Language Models, TLM), где емкость (например, ширина прямого распространения) монотонно уменьшается от ранних слоев к более поздним. Эксперименты на моделях размером от 440M до 1.3B параметров показывают, что оптимальное распределение (уменьшение по косинусоидальной кривой) дает значительное улучшение. Например, для модели на 440M параметров perplexity снизился с 16.28 до 14.44, что соответствует улучшению на 1.84 пункта. Этот результат воспроизведен на четырех различных архитектурах, включая Transformer, модели с управляемым вниманием и архитектуры с долговременной памятью. Ключевое обоснование заключается в том, что ранние слои модели обрабатывают фундаментальную информацию (например, синтаксис) и нуждаются в большей емкости, в то время как более глубокие слои часто лишь повторяют или уточняют уже сформированные представления. Таким образом, перераспределение ресурсов в пользу начальных слоев повышает общую эффективность модели без дополнительных затрат. Исследователи отмечают, что этот принцип может быть применен не только к языковым моделям, но и к другим архитектурам, таким как Vision Transformer или диффузионные модели, где...

Июнь 2026 года, индустрия больших моделей переживает беспрецедентное "открытое цунами": NVIDIA выпустила 550-миллиардную модель со смешанной архитектурой, Google подарил миру новую мультимодальную версию Gemma, Zhipu открыла исходный код своей флагманской модели с максимально либеральным лицензированием.

Почти все компании рассказывают одну и ту же историю: поместить больше параметров в архитектуру смешанных экспертов (MoE), снизить затраты за счет более разреженной активации, адаптировать ширину сети к различным сценариям развертывания.

Другими словами, вся отрасль отчаянно ищет способ "упаковать больше параметров в тот же вычислительный бюджет".

Однако новая статья исследователей из Mila, Корнелльского и Монреальского университетов задает вопрос, направленный почти в противоположную сторону: Что произойдет, если не добавлять ни одного параметра, а просто "переместить" уже существующие параметры внутри модели?

Название статьи: Tapered Language Models
Ссылка на статью: https://arxiv.org/abs/2606.23670

Контекст: упущенное из виду "равноправие"

С 2017 года и основополагающей статьи о Transformer «Attention Is All You Need», почти все языковые модели разделяют один и тот же каркас, будь то классический Transformer, последующие gated attention, рекуррентные сети с памятью или даже новые архитектуры со способностью к "памяти во время инференса": несколько абсолютно одинаковых "слоев" складываются друг на друга, и каждому слою выделяется абсолютно одинаковое количество параметров.

Это как сеть ресторанов, где в каждом заведении, независимо от локации в центре или пригороде, работает одинаковое количество поваров и одинаковое оборудование, без учета разницы в потоке клиентов. Такой подход "равноправия" прост в обслуживании и управлении, но не обязательно является оптимальным.

В последние годы все больше исследований с разных точек зрения указывают: слои модели не одинаково важны.

Эксперименты с "досрочным выходом" (Early Exit) показывают, что часто ответ модели уже в значительной степени сформирован, не дойдя до последнего слоя.

Исследования "обрезки слоев" (Layer Pruning) показывают, что удаление некоторых последних слоев почти не влияет на производительность модели.

Исследования интерпретируемости обнаруживают, что неглубокие слои фиксируют "базовую информацию", такую как синтаксис, в то время как более глубокие слои обрабатывают "высокоуровневую информацию", такую как семантика.

Другими словами, хотя слои сильно отличаются друг от друга, распределение параметров между ними остается равномерным.

Это и есть центральный вопрос статьи: если неравномерная важность слоев уже давно доказана, почему "емкость мозга" слоев все еще распределяется равномерно?

Смещаем "емкость мозга" вперед

Исследовательская группа начала с простого и наглядного эксперимента: они разделили слои модели Transformer с 440 миллионами параметров на три группы (ранние, средние, поздние) и, сохраняя общее количество параметров неизменным, сделали Feed-Forward Network (FFN — ключевой компонент, отвечающий за хранение и обработку информации в каждом слое, своего рода "рабочая память" слоя) шире в одной группе и уже в двух других.

Результат был очевиден: "неравномерное" распределение с концентрацией емкости в начальных слоях снизило perplexity модели на валидационном наборе (метрика, измеряющая точность предсказаний языковой модели, чем ниже значение, тем лучше) с 16.28 до 15.96. А наоборот, концентрация емкости в конечных слоях, наоборот, подняла perplexity до 17.29.

При одинаковом общем количестве параметров просто из-за разного их расположения разница в результатах составила более одного пункта, что является значительным отрывом в системе оценки языковых моделей.

Это открытие направило вопрос в более тонкое русло: можно ли вместо "грубого" деления на три группы использовать более плавную кривую, чтобы емкость постепенно уменьшалась от начала к концу?

Исследователи назвали этот подход "коническими языковыми моделями" (Tapered Language Models, TLMs): выберите любое измерение в модели, определяющее количество параметров (например, ширину FFN), и заставьте его монотонно уменьшаться по направлению глубины, при этом гарантируя, что средняя ширина всех слоев по-прежнему равна исходному фиксированному значению.

Таким образом, общее количество параметров и вычислительные затраты остаются полностью неизменными, только форма распределения меняется с "прямоугольной" на "клиновидную".

Команда попробовала три типа кривых уменьшения: линейное уменьшение, косинусное уменьшение, S-образное (сигмоидальное) уменьшение.

Разница между этими кривыми похожа на три разных способа "закрытия магазина":

Линейное уменьшение — как равномерное закрытие магазина, где через равные промежутки времени закрывается примерно одинаковое количество стоек.

S-образное уменьшение — как внезапное объявление о закрытии, где большинство стоек остаются как есть, и лишь на коротком промежутке происходит резкое сужение.

Косинусное уменьшение — нечто среднее, с плавным переходом на концах и постепенным сужением в середине. Оно не "отсекает" резко гибкость на концах и не распределяет усилия равномерно, упуская место, где сужение наиболее необходимо.

Результаты эксперимента: бесплатные 1.84 пункта

После сканирования всех комбинаций из пяти соотношений ширины и трех типов кривых на модели Transformer с 440M параметров, косинусное уменьшение одержало полную победу: при оптимальной конфигурации (ширина начальных слоев в 1.5 раза больше базовой, конечных — в 0.5 раза) perplexity снизилась с 16.28 (базовая равномерная модель) до 14.44, улучшившись на целых 1.84 пункта, и все это без добавления ни одного параметра или лишней операции с плавающей запятой.

Что еще важнее, этот вывод не является удачей для одной конкретной архитектуры.

Исследовательская группа применила ту же конфигурацию (косинусное уменьшение, соотношение ширины 1.5/0.5) без изменений к трем другим архитектурно различным моделям: модели с механизмом gated attention, модели Hope-attention, обладающей способностью к "самоизменяющейся памяти", и архитектуре Titans с модулями нейронной долгосрочной памяти, и провела повторную проверку на двух более крупных масштабах: 760M и 1.3B параметров.

Результат: во всех восьми парах сравнений — четыре архитектуры, два масштаба — у моделей, прошедших "коническое" преобразование, средняя точность на тесте логического вывода (commonsense reasoning benchmark) повысилась, а perplexity на задаче языкового предсказания LAMBADA улучшилась.

Исследователи также дополнительно провели тест на поиск в длинном тексте (Needle-in-a-Haystack), подтвердив, что такое перераспределение не жертвует способностью модели обрабатывать длинный контекст.

Чтобы объяснить причину этого явления, команда также измерила степень сходства выхода "слоя FFN" с существующим потоком информации в серии моделей GPT-2 и обнаружила четкую закономерность: чем глубже в модели, тем больше новый контент, записываемый каждым слоем, похож на уже существующую информацию. Другими словами, более глубокие слои скорее "повторяют и подчеркивают" уже сделанные выводы, а не "создают" новое понимание.

Это как раз подтверждает, почему перемещение емкости из конечных слоев в начальные логично: начальные слои действительно могут использовать эту дополнительную "емкость мозга", конечным же слоям она не так нужна.

Заключение

По своей сути это исследование предлагает простую, но долгое время игнорируемую идею: емкость модели не должна быть равномерно разбросанным ресурсом, она должна направляться туда, где она действительно необходима.

В 2026 году, когда вся индустрия соревнуется в том, "у кого больше параметров" и "у кого архитектура более разреженная", эта статья предлагает практически бесплатную альтернативу: не нужно менять архитектуру, не нужно добавлять параметры, достаточно просто изменить "форму" распределения.

Исследователи также признают, что текущая оптимальная конфигурация была найдена путем настройки на модели с 440M параметров. Остается открытым вопрос, существуют ли "специальные рецепты", более подходящие для моделей разного масштаба и архитектуры.

Но что еще более важно, в статье отмечается, что эта идея не ограничивается языковыми моделями — Vision Transformer, диффузионные модели, мультимодальные модели почти все унаследовали ту же настройку "равномерного распределения по слоям" по умолчанию. Если сама форма распределения емкости — это давно упущенный из виду параметр проектирования, то этот "бесплатный рычаг, скрытый на виду", возможно, только начал привлекать к себе внимание.

Информация о команде

Статья была написана совместно Резой Баятом (Mila — Институт алгоритмов обучения в Монреале), Али Бехрузом (Корнелльский университет) и сооснователем Mila, профессором Монреальского университета Аароном Курвилем.

Али Бехруз в настоящее время является исследователем Google Research и докторантом Корнелльского университета. За последние два года он участвовал в разработке нескольких новых архитектур, привлекших широкое внимание, включая архитектуру Titans, способную "обучаться и запоминать на этапе инференса", а также последующие Atlas и фреймворк "Nested Learning". Он долгое время фокусируется на том, как заставить модели более эффективно использовать и хранить долгосрочную контекстную информацию.

Аарон Курвиль — опытный ученый в области глубокого обучения, CIFAR AI Chair, долгое время совместно с Йошуа Бенджио продвигал фундаментальные исследования в области глубокого обучения, имеет глубокие знания в области обучения представлений и генеративных моделей. Он также является одним из авторов генеративно-состязательных сетей (GAN) и соавтором классической книги «Deep Learning» вместе с Яном Гудфеллоу и Бенджио.

Статья из WeChat Official Account "Машинный разум" (ID:almosthuman2014), автор: Следим за ИИ

Связанные с этим вопросы

QЧто такое 'конические языковые модели' (Tapered Language Models, TLMs) согласно статье?

AЭто языковые модели, в которых ёмкость (например, ширина полносвязных сетей в трансформере) монотонно уменьшается по мере увеличения глубины слоев, при сохранении общего количества параметров и вычислительных затрат неизменными.

QКакой эксперимент подтвердил эффективность перераспределения ёмкости на ранние слои модели?

AЭксперимент с 440M-параметрической моделью Transformer показал, что сосредоточение ёмкости в ранних слоях ('головастиковая' конфигурация) снизило perplexity с 16.28 до 15.96. Конфигурация с ёмкостью в поздних слоях ухудшила результат до 17.29.

QКакая форма уменьшения ёмкости (tapering) показала наилучшие результаты в исследовании?

AКосинусоидальное уменьшение (cosine tapering) показало наилучшие результаты, снизив perplexity с 16.28 до 14.44 на модели с 440 млн параметров, что является улучшением на 1.84 пункта.

QКак исследователи объясняют причину эффективности такого подхода?

AИсследователи обнаружили, что в более глубоких слоях модели выводы в значительной степени повторяют уже существующую информацию. Таким образом, дополнительные 'вычислительные мощности' в ранних слоях используются для создания новых представлений, тогда как в поздних слоях они менее необходимы.

QК каким еще типам моделей, помимо языковых, можно применить идею неравномерного распределения ёмкости?

AИдея может быть применена к Vision Transformers, моделям диффузии и мультимодальным моделям, которые также используют архитектуру с равномерным распределением параметров по слоям.

Похожее

Молниеносная пентаграмма! Официально представлен план спасения Strategy

Компания Strategy, столкнувшаяся с кризисом отрыва от паритета своей привилегированной акции STRC, представила «Рамочную программу управления цифровым кредитным капиталом» для стабилизации ситуации. План состоит из пяти ключевых элементов: 1. **Денежный резерв:** Компания создала денежный резерв в размере 2,55 млрд долларов США, предназначенный исключительно для выплаты дивидендов по привилегированным акциям и процентов по долгу. Вместе с одобренным лимитом на продажу BTC в 1,25 млрд долларов это обеспечивает ликвидность для покрытия соответствующих расходов на срок около 26 месяцев. 2. **Дивидендная политика:** Годовая дивидендная ставка по STRC повышена до 12% с 1 июля. Компания подчеркивает, что дальнейшие корректировки будут зависеть от множества факторов, а отрыв от паритета не будет автоматически приводить к повышению дивидендов. 3. **Выкуп привилегированных акций:** Одобрена программа обратного выкупа привилегированных акций (включая STRC) на сумму до 1 млрд долларов. STRC будет иметь приоритет. Выкуп направлен на поддержку рыночной цены и улучшение структуры капитала. 4. **Выкуп обыкновенных акций (MSTR):** Одобрена отдельная программа обратного выкупа обыкновенных акций также на сумму до 1 млрд долларов, которая будет активирована, если руководство сочтет акции недооцененными. 5. **План монетизации Bitcoin:** Стратегия официально включила продажу части своего биткойн-холдинга в инструментарий управления капиталом. Средства от продажи могут быть использованы для пополнения денежного резерва, выплаты дивидендов или финансирования программ обратного выкупа акций. Компания подчеркивает, что BTC остается основным резервным активом, а продажи — это инструмент управления ликвидностью, а не торговая стратегия. Рынок отреагировал ростом котировок как MSTR, так и STRC. Данный план направлен на восстановление доверия к кредитному качеству STRC и обеспечение устойчивости бизнес-модели Strategy в условиях сложной ситуации на рынке капитала.

Odaily星球日报43 мин. назад

Молниеносная пентаграмма! Официально представлен план спасения Strategy

Odaily星球日报43 мин. назад

Висящий над головой меч AI-бычьего рынка: не только Южная Корея, левередж на фондовом рынке США также вызывает тревогу

Глобальный фондовый рынок продолжает обновлять рекорды на волне ажиотажа вокруг ИИ, однако движущая сила этого роста становится всё более опасной. От США до Южной Кореи объёмы маржинальной торговли и активы левериджных ETF достигли исторических максимумов. Пролонгированные характеристики кредитного плеча многократно усиливают риск экстремальных колебаний рынка. В США маржинальная задолженность в мае выросла на 54% в годовом исчислении, достигнув пика в 1,4 трлн долларов, а активы левериджных ETF менее чем за 70 дней почти удвоились, превысив 220 млрд долларов. Левериджные фонды с марта накопили около 300 млрд долларов в производных инструментах, что создает огромный риск вынужденного закрытия позиций. Южнокорейский рынок уже продемонстрировал признаки уязвимости: индекс KOSPI на прошлой неделе пережил обвалы и приостановки торгов на фоне высокой концентрации активов и экстремального кредитного плеча. Опасность заключается в самоподдерживающемся цикле: леверидж усиливает рост, но в случае разворота тренда делеверидж в равной степени умножает падение. Затраты на финансирование растут, а зависимость покупателей от заёмных средств достигла беспрецедентного уровня. Маржинальные требования ужесточаются, как в случае с Charles Schwab. Морган Стэнли предупреждает, что текущая ситуация создает потенциал нелинейного риска: исчезновение маржинальных покупателей может привести к коррекции, которая запустит цикл делевериджа, многократно усилив давление продавцов.

marsbit53 мин. назад

Висящий над головой меч AI-бычьего рынка: не только Южная Корея, левередж на фондовом рынке США также вызывает тревогу

marsbit53 мин. назад

Solana нацелена на $80: 3 фактора, помогающие быкам SOL поддерживать этот рост

Солана (SOL) демонстрирует бычий тренд, поднявшись с минимума в $69 до локального максимума в $73 и в настоящее время торгуясь около $72 с ростом на 2.6% за сутки. Объем торгов вырос на 39%, что указывает на высокую активность рынка. Технический анализ подтверждает силу быков: цена удерживается выше скользящих средних за 9 и 21 день, а Stochastic Momentum Index (SMI) сформировал бычий кроссовер и продолжает расти. Ключевым драйвером роста, вероятно, стал сдвиг в настроениях китов. Данные показывают концентрацию крупных ордеров на уровнях $70-$71 и устойчивый отрицательный чистый отток средств с бирж, что сигнализирует о накоплении SOL крупными игроками. Если накопление китами продолжится, покупатели могут сохранить контроль, и SOL имеет потенциал для повторного тестирования сопротивления на уровне $75 с последующей целью в $80 в краткосрочной и среднесрочной перспективе. Однако, если интерес китов ослабнет, цена может снова опуститься ниже $70, найдя следующую ключевую поддержку в районе $62.

ambcrypto58 мин. назад

Solana нацелена на $80: 3 фактора, помогающие быкам SOL поддерживать этот рост

ambcrypto58 мин. назад

Strategy представляет «Рамочную программу цифрового кредитного капитала»: санкционирована продажа криптовалюты на 1,2 миллиарда долларов, сценарий «никогда не продавать» подошел к концу

Корпорация Strategy (бывшая MicroStrategy), крупнейший корпоративный держатель биткойнов, объявила о новом «рамковом соглашении о цифровом кредитном капитале», знаменующем радикальный сдвиг в её стратегии. После четырёх лет политики «только покупать, не продавать» компания теперь уполномочена продавать биткойны для привлечения до $1,25 млрд. Основные причины — необходимость покрыть растущие обязательства по дивидендам и остановить падение цен на свои ценные бумаги. Ключевые элементы плана: - Продажа биткойнов для привлечения до $1,25 млрд на пополнение казны, выплаты дивидендов и выкуп акций. - Целевой резерв в $2,55 млрд наличных для покрытия как минимум 12 месяцев дивидендных и процентных обязательств. - Повышение годовой дивидендной ставки по привилегированным акциям STRC до 12%. - Программы обратного выкупа привилегированных и обыкновенных акций на сумму до $1 млрд каждая. Фоном служат финансовые трудности: цена STRC упала на ~24% от номинала, годовые дивидендные обязательства выросли до ~$1,2 млрд, а акции MSTR потеряли 36% за восемь дней. Компания перешла от агрессивных закупок биткойнов к наращиванию ликвидности, продавая свои акции и замедляя покупки криптовалюты. На неё также оказывают давление крупный долг ($8,2 млрд) и начавшееся юридическое расследование в связи с возможным введением инвесторов в заблуждение. Новая стратегия — это попытка стабилизировать капитальную структуру, но её успех напрямую зависит от будущей цены биткойна.

marsbit59 мин. назад

Strategy представляет «Рамочную программу цифрового кредитного капитала»: санкционирована продажа криптовалюты на 1,2 миллиарда долларов, сценарий «никогда не продавать» подошел к концу

marsbit59 мин. назад

Виталик Бутерин утверждает, что обфускация может повысить конфиденциальность блокчейна

Сооснователь Ethereum Виталик Бутерин представил подробный анализ концепции обфускации в криптоиндустрии. Он объяснил, как криптографическая обфускация может усилить конфиденциальность и безопасность блокчейна в будущем. В отличие от шифрования, которое защищает хранимую или передаваемую информацию, обфускация защищает сам код от анализа, скрывая его логику, но позволяя получать тот же результат. Эта технология позволит разработчикам создавать приложения, сохраняя в тайне коммерческую логику и исходный код. Сочетание обфускации с блокчейном, по словам Бутерина, может создать системы, которые обеспечивают приватность пользователей и уменьшают зависимость от централизованных посредников. Однако сама по себе обфускация недостаточна для безопасного управления цифровыми активами, так как не может отслеживать балансы и права собственности. Здесь на помощь приходит блокчейн с его распределенным реестром, фиксирующим транзакции. Их комбинация откроет возможности для создания безопасных платёжных систем, финансовых приложений и конфиденциальных бизнес-процессов. Бутерин отметил, что основным препятствием для практического применения являются технические сложности. Хотя исследования в области обфускации неразличимости продвинулись и доказали её теоретическую возможность, текущие реализации крайне неэффективны и требуют непрактично больших вычислительных ресурсов. Учёные работают над оптимизацией криптографических методов и поиском новых подходов для повышения эффективности. Практическая и эффективная обфускация станет доступной ещё не скоро, но её дальнейшее развитие, как заключил Бутерин, позволит создавать высокозащищённые блокчейн-продукты, не требующие доверенных третьих сторон.

TheNewsCrypto1 ч. назад

Виталик Бутерин утверждает, что обфускация может повысить конфиденциальность блокчейна

TheNewsCrypto1 ч. назад

Торговля

Спот
活动图片