Альма-матер 'Цинхуа' выпускник 00-х Ван Гуан представил новую работу: разрушение парадигмы предобучения Transformer с использованием 1/900 токенов и 1/432 вычислительной мощности

marsbitОпубликовано 2026-05-26Обновлено 2026-05-26

Введение

Новая работа выпускника Университета Цинхуа, Ван Гуана (р. 2000), предлагает альтернативу дорогому и ресурсоёмкому предварительному обучению больших языковых моделей. Исследователи представили HRM-Text — эффективную модель, основанную на иерархической рекуррентной архитектуре (HRM), которая заменяет стандартный Transformer. Ключевые инновации включают: 1. **Архитектура HRM:** Использует модули с медленной (H) и быстрой (L) временной шкалой, выполняющие несколько рекуррентных обновлений на один токен. Это увеличивает вычислительную глубину без роста числа параметров. 2. **Целевая функция обучения:** Модель обучается непосредственно на парах "инструкция-ответ", вычисляя потери только для ответной части с использованием маски PrefixLM (двунаправленное внимание для инструкции, причинное — для ответа). 3. **Методы стабилизации:** MagicNorm (гибридная нормализация) и Warmup Deep Credit Assignment (постепенное увеличение глубины обратного распространения градиента) обеспечивают стабильность глубокого рекуррентного обучения. Эксперименты показывают, что HRM-Text 1B, обученная всего на 40B уникальных токенах с бюджетом около $1500, демонстрирует производительность, сопоставимую с открытыми моделями размером от 2B до 7B параметров. При этом она требует до 900 раз меньше токенов и до 432 раз меньше вычислений для обучения. Модель достигает, например, 60.7% на MMLU и 84.5% на GSM8K. Основные направления будущих исследований: разделение "знаний" и "рассуждений", внедрение адаптивног...

Разрушая традиционную парадигму предобучения больших моделей, команда выпускника 'Цинхуа' 00-х Вана Гуана представила новую работу:

Они заменили стандартный Transformer иерархической рекуррентной моделью (HRM), предложив эффективное предобучение HRM-Text, превосходящее Scaling.

Ссылка на статью: https://arxiv.org/abs/2605.20613

Используя примерно в 100-900 раз меньше обучающих токенов и, по оценкам, в 96-432 раза меньше вычислительных ресурсов, чем стандартная базовая модель, HRM-Text все равно продемонстрировал производительность, сопоставимую с открытыми моделями от 2B до 7B параметров.

При этом, используя 1B параметров, 40B уникальных токенов и стоимость обучения около 1500 долларов, HRM-Text достиг следующих результатов на основных бенчмарках: MMLU 60.7%, ARC-C 81.9%, DROP 82.2%, GSM8K 84.5%, MATH 56.2%.

Рис.| Эффективность предобучения.

На этой основе они ясно заявили: Структурный приоритет и целенаправленные цели обучения могут значительно снизить порог предобучения. Эта схема обучения делает возможным обучение базовой модели с нуля.

Как устроен HRM-Text?

Предобучение больших языковых моделей (LLM) все больше зависит от ограниченного числа организаций, обладающих достаточными вычислительными и данными ресурсами. Обучение конкурентоспособной базовой модели часто требует триллионов токенов, тысяч GPU и даже десятков миллионов долларов на вычислительные мощности.

Однако текущий режим обучения неэффективен, большая часть вычислений тратится на промпты, форматное заполнение и веб-шум в нерелевантных токенах, в результате чего значительная часть тренировочных мощностей не служит непосредственно выводу.

В этой работе исследовательская команда переработала архитектуру и цели обучения, сделав предобучение HRM-Text относительно более эффективным.

Архитектура: Используется иерархическая рекуррентная модель с двумя временными масштабами, разделяющая вычисления на медленный H-модуль и быстрый L-модуль. Стандартный Transformer выполняет одно прямое распространение для каждого токена, тогда как HRM будет выполнять многораундовые рекурсивные обновления на одном и том же токене. Модули H и L каждый составляют лишь половину параметров рекурсивного ядра, а общий объем вычислений примерно эквивалентен 4-кратному рекурсивному развертыванию одного и того же набора параметров, что увеличивает вычислительную глубину без увеличения количества параметров.

Цель обучения: Вместо стандартного авторегрессивного предобучения на полном тексте, обучение проводится непосредственно на парах 'инструкция-ответ', потери рассчитываются только для части ответа, и в сочетании с маской PrefixLM, позволяя части инструкции иметь двунаправленное внимание, а части ответа генерироваться с причинно-следственной маской.

Рис.| Архитектура HRM-Text.

Для повышения стабильности рекуррентного обучения исследовательская команда внедрила MagicNorm и Warmup Deep Credit Assignment.

MagicNorm — это стратегия смешанной нормализации, использующая асимметрию глубины прямых и обратных вычислений при усеченном обратном распространении (Truncated BPTT). Внутри модулей используется PreNorm, а на выходе модуля дополнительно добавляется нормализация, что повышает стабильность глубокого рекуррентного обучения.

Warmup Deep Credit Assignment на начальном этапе обучения передает градиенты только для последних 2 рекуррентных шагов, а затем линейно расширяется до последних 5 шагов. Этот механизм обучения позволяет модели стабильно сходиться на более коротких кредитных путях, а затем постепенно вводить более длинные зависимости.

Каковы результаты?

Экспериментальные результаты показывают, что HRM-Text демонстрирует явные преимущества в эффективности архитектуры, целях обучения и общей производительности.

1. Эффективна ли рекуррентная архитектура при фиксированных вычислительных затратах на обучение

Результаты показывают, что при выравнивании FLOPs, HRM 1B превосходит Transformer 1B, Transformer 3B, Looped Transformer 1B и RINS 1B по большинству бенчмарков; сравнение с TRM также показывает, что обучение HRM более стабильно.

Рис.| Сравнение производительности и стабильности с моделями Transformer. HRM сохраняет стабильную динамику обучения при всех масштабах, в то время как модели Transformer при масштабе в 1 миллиард параметров показали серьезную нестабильность. Кроме того, при масштабе 0.6B HRM требуется в 2 раза меньше вычислений, чем моделям Transformer, чтобы достичь конкурентоспособных результатов по большинству бенчмарков.

2. Полезны ли цель выполнения задачи и PrefixLM

Эксперименты по исключению (абляции) показывают, что при выравнивании FLOPs, показатель MMLU для Transformer 1B увеличивается с 40.55 при стандартной авторегрессии до 47.72 после введения цели выполнения задачи, затем до 53.15 после добавления PrefixLM и, наконец, до 60.73 после замены архитектуры на HRM.

Рис.| Сравнение производительности различных архитектур моделей и целей обучения.

3. Насколько эффективен HRM-Text по сравнению с современными открытыми моделями

HRM-Text 1B достигает 60.7, 81.9, 82.2, 84.5 и 56.2 на MMLU, ARC-C, DROP, GSM8K и MATH соответственно. По сравнению с открытыми моделями, у которых обычно значительно больший бюджет на обучение, используя всего 40 миллиардов уникальных токенов и 1 миллиард параметров, он вошел в диапазон производительности открытых моделей от 2B до 7B; требуемое для обучения количество токенов меньше вплоть до 900 раз, вычислительные затраты меньше вплоть до 432 раз.

Рис.| Результаты оценки HRM-Text 1B по сравнению с полностью открытыми моделями и моделями с открытыми весами того же периода.

4. Привносит ли рекуррентная структура большую эффективную глубину

Результаты показывают, что стандартный Transformer и Looped Transformer стабилизируются на более мелких слоях, тогда как HRM на более глубоких слоях по-прежнему сохраняет более заметные изменения представлений между блоками, более низкое косинусное сходство и более высокие значения KL logit lens.

Рис.| Анализ эффективной глубины.

Рис.| Послойный анализ KL Logit Lens.

Недостатки и направления на будущее

Несмотря на то, что HRM-Text показал впечатляющие результаты в задачах, требующих вывода, этот метод все еще имеет ограничения, и предлагаются направления для будущих исследований.

1. Движение к разделению «знаний» и «рассуждений»

В настоящее время, более широкий охват фактических знаний по-прежнему в большей степени зависит от масштаба модели и широты данных. HRM-Text обучался только на 40 миллиардах уникальных токенов, и явные источники знаний составляют лишь часть данных в смеси, отформатированной под задачи. В будущем исследователям необходимо отдельно проектировать компактное ядро рассуждений и внешнее хранилище фактов, передавая широту знаний тщательно отобранным корпусам, модулям с поисковым усилением (RAG) или обучаемой памяти.

2. Адаптивное время вычислений

Циклическое планирование HRM-Text обеспечивает большую эффективную последовательную глубину, но это также означает, что модель должна выполнять фиксированное количество рекуррентных шагов при выводе. В будущем перспективным направлением может стать внедрение механизма адаптивного времени вычислений, позволяющего простым примерам останавливать вычисления раньше, а полный цикл бюджета оставлять для сложных примеров, что снизит стоимость вывода.

3. Ограниченный текущий диапазон проверки масштабирования

Текущие эксперименты по масштабированию охватывают только контрольную группу Transformer с 3 миллиардами параметров и HRM-Text с 1 миллиардом параметров. Исследовательская команда отмечает, что требуется дальнейшая проверка в последующих работах, сохранятся ли аналогичные преимущества в эффективности при более крупных масштабах моделей.

4. PrefixLM и фреймворки вывода

В настоящее время PrefixLM все еще сталкивается с определенными ограничениями в инженерной реализации при практическом развертывании. Хотя он может работать на стандартных фреймворках для вывода текста, таких как vLLM, это требует поддержки пользовательских масок внимания на этапе предзаполнения (prefill). При расширении до многотурных диалоговых сценариев необходимо дополнительно разработать механизм KV-cache, который гарантирует двунаправленную видимость внутри сегментов пользователя, а также обеспечивает, чтобы процесс генерации со стороны ассистента продолжал следовать причинно-следственным ограничениям.

Более подробные технические детали см. в оригинальной статье.

Эта статья взята с официального аккаунта WeChat "Академические заголовки" (ID: SciTouTiao), автор: Ся Цяньсы.

Трендовые криптовалюты

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

PancakeSwapCAKE

JUSTJST

Связанные с этим вопросы

QЧто такое HRM-Text и какова его основная цель?

AHRM-Text — это эффективная языковая модель, предложенная командой Ван Гуаня из университета Цинхуа. Она использует иерархическую рекуррентную модель (HRM) вместо стандартного Transformer для предварительного обучения. Основная цель — значительно снизить вычислительные и ресурсные затраты на обучение (примерно в 100–900 раз меньше токенов и в 96–432 раза меньше вычислений), сохраняя при этом производительность, сравнимую с открытыми моделями от 2B до 7B параметров.

QКаковы ключевые архитектурные и обучающие особенности HRM-Text?

AАрхитектурно HRM-Text использует двухскоростную иерархическую рекуррентную модель (HRM) с медленным (H) и быстрым (L) модулями, что позволяет выполнять многократные рекуррентные обновления на одном токене для увеличения глубины вычислений. В обучении применяется целевая задача «завершение задания»: модель обучается только на парах «инструкция-ответ», с функцией потерь, вычисляемой только на ответах, и маской PrefixLM, которая делает инструкцию двунаправленной, а ответ — причинно-следственным.

QКакие результаты показал HRM-Text 1B в стандартных тестах?

AМодель HRM-Text с 1 миллиардом параметров, обученная на 40 миллиардах уникальных токенов и стоимостью около 1500 долларов, достигла следующих результатов на основных тестах: MMLU — 60,7%, ARC-C — 81,9%, DROP — 82,2%, GSM8K — 84,5%, MATH — 56,2%. Эти показатели попадают в диапазон производительности открытых моделей от 2B до 7B параметров.

QКакие методы были использованы для повышения стабильности рекуррентного обучения?

AДля стабилизации глубокого рекуррентного обучения в HRM-Text применяются два ключевых метода: MagicNorm — гибридная стратегия нормализации, комбинирующая PreNorm внутри модулей с дополнительной нормализацией на выходе, и Warmup Deep Credit Assignment — метод, который в начале обучения передает градиенты только для последних 2 шагов рекурсии, а затем постепенно увеличивает длину пути до 5 шагов.

QКаковы основные ограничения и будущие направления для HRM-Text?

AОграничения включают: 1) Опора на знания: ограниченный охват фактов из-за небольшого объема данных; предлагается разделить «рассуждение» и «знания», используя внешние хранилища. 2) Адаптивное время вычислений: текущая фиксированная рекурсия неэффективна; предлагается адаптивная схема. 3) Ограниченный масштаб: эффективность на очень больших моделях (>>1B) ещё не подтверждена. 4) Инженерия PrefixLM: необходимость поддержки пользовательских масок внимания и разработки механизмов KV-cache для развертывания в продакшене.

Похожее

За $100 000 в месяц: Truth Social продает доступ к постам Трампа инвестиционным фирмам

Корпорация Trump Media and Technology Group (TMTG) запустила платный сервис Truth API, предоставляющий институциональным инвесторам и фирмам, занимающимся высокочастотной торговлей, мгновенный доступ к постам самых влиятельных аккаунтов в Truth Social, включая аккаунт экс-президента Дональда Трампа. Стоимость подписки, по данным источников, может достигать $100 000 в месяц. Компания позиционирует это как стратегию по извлечению прибыли из собственных активов. Инициатива вызвала критику со стороны ряда сенаторов-демократов и республиканцев, которые обвинили TMTG в продаже привилегированного доступа к постам президента и потребовали проверки со стороны SEC. В ответ компания заявила о скоординированной кампании по нанесению вреда её бизнесу. Анализ отмечает, что подобный сервис создает архитектуру риска, аналогичную случаям, когда торговые алгоритмы в прошлом вызывали обвал рынков, реагируя на фейковые сообщения в соцсетях. Отсутствие встроенного механизма верификации постов в реальном времени делает платформу потенциальной целью для манипуляций.

cryptonews.ru5 мин. назад

За $100 000 в месяц: Truth Social продает доступ к постам Трампа инвестиционным фирмам

cryptonews.ru5 мин. назад

Дивиденды по привилегированным акциям STRC остаются на уровне 12% несмотря на цену ниже номинала

Хотя привилегированные акции STRC компании Strategy завершили июль значительно ниже номинальной стоимости в $100, инвесторам сообщили, что дивиденд за август останется на уровне 12% и не будет увеличен. Акции закрылись 2 августа на уровне $89.46. Генеральный директор Фонг Ле подтвердил, что корпоративная цель — достичь торговли акциями в диапазоне $99-$100, но не уточнил сроки. В июле компания сообщила о чистом убытке в $8.22 млрд за второй квартал, в основном из-за нереализованных потерь на хранении биткоина. Для обеспечения выплат по привилегированным акциям Strategy создала денежный резерв в $3.75 млрд, которого хватит более чем на два года. Компания также выкупила часть своих привилегированных акций со скидкой и намерена продолжать покупки, пока они торгуются ниже номинала.

cointelegraph1 ч. назад

Дивиденды по привилегированным акциям STRC остаются на уровне 12% несмотря на цену ниже номинала

cointelegraph1 ч. назад

Вывод биткоинов продолжается: 8 лет хранения в холодном кошельке Coldcard закончились нулем

Аппаратный кошелек Coldcard оказался уязвимым, что привело к масштабному выводу средств. По данным Galaxy Research на 2 августа 2026 года, похищено уже более 1367 BTC (около $88.6 млн) с 4585 адресов. Проблема связана не с прошивкой, а с seed-фразами, сгенерированными на уязвимых устройствах в определенный период (Mk2/Mk3 с прошивкой 4.0.1–4.1.9; Mk4/Mk5 до версии 5.6.0; Q до версии 1.5.0Q). Причина — ошибка в интеграции библиотеки libNgU, из-за которой устройство перестало использовать аппаратный генератор случайных чисел, перейдя на предсказуемый программный. Обновление прошивки не меняет существующую seed-фразу, поэтому владельцам необходимо сгенерировать новую на исправленной версии и перевести активы. Статья приводит трагичный пример 39-летнего инвестора, который за 8 лет накопил 2 BTC тяжелым трудом, храня их в Coldcard как защиту от гиперинфляции в своей стране, но потерял все за минуты из-за этой уязвимости. Этот случай показывает, что даже стратегия холодного хранения не является абсолютно надежной, особенно когда уязвимость кроется в самом генераторе случайных чисел внутри изолированного устройства.

cryptonews.ru1 ч. назад

Вывод биткоинов продолжается: 8 лет хранения в холодном кошельке Coldcard закончились нулем

cryptonews.ru1 ч. назад

В Южной Корее наблюдается взрывной рост объёмов торгов 15 альткоинами!

Крупнейшие южнокорейские криптобиржи Upbit и Bithumb сообщают о резком росте объёмов торгов альткоинами. За последние 24 часа общий оборот по 15 популярным альткоинам достиг примерно 347,7 миллиона долларов. Лидером по объёму стала MetaDAO (META) с 65,84 млн долларов только на Upbit. На втором месте Euler ($EUL) с суммарным объёмом в 47,65 млн долларов, а на третьем — $XRP с 38,11 млн долларов. В число других активов с высокими показателями вошли ThunderCore (TT), Вавилон (BABY), Geodnet (GEOD) и Hyperlane (HYPER). Замыкают список такие известные монеты, как Shiba Inu (SHIB), Dogecoin (DOGE) и Worldcoin (WLD). *Это не инвестиционная рекомендация.

cryptonews.ru3 ч. назад

В Южной Корее наблюдается взрывной рост объёмов торгов 15 альткоинами!

cryptonews.ru3 ч. назад

Компания Дональда Трампа продала очередную крупную партию биткоинов!

Сообщается о новом переводе примерно 2628 биткоинов (около $165 млн) с адресов, предположительно связанных с Trump Media & Technology Group Дональда Трампа, на биржу CryptoCom. Согласно анализу блокчейна, компания ранее приобрела около 11 542 BTC по средней цене $118 500. К настоящему моменту с её адресов было выведено примерно 7 281 BTC, а около 4 261 BTC всё ещё хранятся на них. Общие реализованные и нереализованные убытки Trump Media от инвестиций в биткоин оцениваются примерно в $555 млн. Отметим, что перевод на биржу не обязательно означает продажу активов — он может быть связан с хранением или управлением ликвидностью.

cryptonews.ru5 ч. назад

Компания Дональда Трампа продала очередную крупную партию биткоинов!

cryptonews.ru5 ч. назад

Торговля

Спот

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на S (S) представлены ниже.

Введение

Как устроен HRM-Text?

Каковы результаты?

Недостатки и направления на будущее

Трендовые криптовалюты

Связанные с этим вопросы

Похожее

За $100 000 в месяц: Truth Social продает доступ к постам Трампа инвестиционным фирмам

Дивиденды по привилегированным акциям STRC остаются на уровне 12% несмотря на цену ниже номинала

Вывод биткоинов продолжается: 8 лет хранения в холодном кошельке Coldcard закончились нулем

В Южной Корее наблюдается взрывной рост объёмов торгов 15 альткоинами!

Компания Дональда Трампа продала очередную крупную партию биткоинов!

Торговля

Популярные статьи

Как купить S

Sonic: Обновления под руководством Андре Кронье – новая звезда Layer-1 на фоне спада рынка

HTX Learn: Пройдите обучение по "Sonic" и разделите 1000 USDT

Обсуждения

Топ вопросы

Популярные категории

Популярные теги