Новая статья AMD меняет представления: нестабильность обучения с FP4 вызвана не недостатком случайности

marsbitОпубликовано 2026-05-27Обновлено 2026-05-27

Введение

Новый документ AMD меняет представления: нестабильность обучения в формате FP4 вызвана не недостатком случайности, а накоплением структурных ошибок микромасштабирования. Исследователи AMD и Университета Пенсильвании провели полное предобучение модели Llama 3.1-8B на аппаратном обеспечении AMD Instinct MI355X, поддерживающем FP4, используя формат MXFP4 (Microscaling). Ключевой вывод: основная причина нестабильности при обучении с FP4 — не недостаток случайности, как считалось ранее, а структурные ошибки квантования, которые накапливаются и усиливаются, особенно на критическом пути градиента весов (Wgrad). Эксперименты показали, что замена операций прямого распространения (Fprop) и градиента активации (Dgrad) на MXFP4 незначительно влияет на сходимость. Однако квантование градиента весов (Wgrad) до 4 бит приводит к значительному ухудшению. Стратегии, добавляющие случайность (стохастическое округление, рандомизированное преобразование Адамара), не стабилизируют процесс, а усугубляют его. Напротив, **детерминированное преобразование Адамара** устраняет нестабильность, обеспечивая согласованный шаблон ошибок на каждом шаге. С использованием детерминированного преобразования Адамара и полного конвейера MXFP4, обучение завершилось всего на 8-9% большим числом токенов по сравнению с базовым FP8, при этом производительность на шаг выросла на 20%. Итоговое ускорение от начала до конца составило 9-10%. Работа имеет важное значение: 1) Даёт чёткий диагноз проблемы структурных ошибок....

Общеизвестно, что обучение больших моделей чрезвычайно дорого.

Но также известно, что снижение точности вычислений может значительно снизить стоимость обучения. DeepSeek-V3, используя обучение в формате FP8, снизил стоимость до 5,6 миллиона долларов, что уже привлекло внимание всей индустрии.

После успеха FP8 индустрия продолжает исследовать границы низкой точности: если снизить точность с FP8 до FP4, насколько ещё можно снизить стоимость обучения?

Теоретически, вычислительная пропускная способность FP4 может быть в два раза выше, чем у FP8. NVIDIA Blackwell и AMD MI350 уже на аппаратном уровне имеют нативную поддержку вычислений FP4, при этом B200 от NVIDIA заявляет пиковую производительность FP4 до 4500 TOPS (разряженная). Аппаратное обеспечение готово, но со стороны программного обеспечения и алгоритмов возникает проблема:

Обучение больших моделей с нуля на FP4 является крайне нестабильным процессом.

За последние два года такие работы, как LLM-FP4, предобучение NVFP4 и другие, пробовали этот путь, но лишь немногие подходы смогли чисто и надёжно провести полный цикл предобучения с 4-битной точностью, сохранив качество сходимости, близкое к FP8.

Что ещё хуже, причина сбоев оставалась неясной. Анализ предполагал, что причина нестабильности обучения на FP4, вероятно, заключается в недостатке случайности.

Но недавно AMD совместно с Университетом штата Пенсильвания опубликовала статью, которая меняет традиционные представления и даёт новое чёткое объяснение для нативного обучения FP4.

Название статьи: Pretraining large language models with MXFP4 on Native FP4 Hardware
Ссылка на статью: https://arxiv.org/abs/2605.09825

В этой статье, на GPU AMD Instinct MI355X, используя формат MXFP4, был выполнен полный цикл предобучения модели Llama 3.1-8B. Скорость сквозного обучения оказалась на 9-10% выше, чем у базовой линии FP8, при увеличении затрат на токены всего на 8-9%. Это первый полный эксперимент по предобучению большой модели, выполненный на нативном оборудовании FP4 (не программной эмуляции).

Что ещё важнее, статья раскрывает ключевую проблему: источник нестабильности обучения FP4 — не недостаток случайности, а структурная ошибка микромасштабирования, которая накапливается и усиливается вдоль чувствительных путей градиентов.

Что такое MXFP4

Прежде чем разбирать статью, необходимо понять формат данных MXFP4.

Традиционное целочисленное квантование обычно использует один масштабирующий коэффициент для всего тензора. Ключевой конструкцией MXFP4 является «микромасштабирование» (Micro-scaling): тензор разбивается на небольшие блоки (например, по 32 элемента), для каждого блока выделяется общий экспоненциальный коэффициент (формат E8M0), а каждый элемент внутри блока представлен 4-битным числом с плавающей запятой. Формула восстановления может быть записана как:

где E_shared — это максимальный экспоненциальный коэффициент в блоке, а Q_FP4 — значение, округлённое до ближайшего представимого 4-битного числа с плавающей запятой.

Преимущество микромасштабирования заключается в следующем: каждый блок имеет свой собственный динамический диапазон и не «заложник» глобальных выбросов. Это значительно улучшает качество представления 4-битных чисел с плавающей запятой по сравнению с простым глобальным квантованием.

Но даже с микромасштабированием обучение на FP4 остаётся нестабильным.

Поисковая экспериментальная работа: корень нестабильности

Исследовательская группа сначала разработала контрольный эксперимент с пошаговой проверкой.

Одно полное вычисление линейного слоя Transformer включает три операции универсального матричного умножения:

Fprop (прямое распространение): вычисление Y = XW^T, получение значений активации.

Dgrad (градиент активации): вычисление ∇X = ∇Y · W, передача градиента обратно на вход.

Wgrad (градиент весов): вычисление ∇W = (∇Y)^T · X, получение градиента для обновления весов.

Исследовательская группа, сохраняя все остальные факторы неизменными, постепенно заменяла эти три операции с FP8 на MXFP4, наблюдая влияние каждого шага на сходимость. Все эксперименты выполнялись на AMD Instinct MI355X с использованием нативных тензорных ядер FP4, без зависимости от программной эмуляции.

Задачей обучения была стандартная конфигурация MLPerf: предобучение Llama 3.1-8B на наборе данных C4, целевой метрикой сходимости была перплексия на валидационной выборке, равная 3.3.

Первые два шага привели к умеренному дополнительному расходу токенов, но как только Wgrad также был заменён на MXFP4, расход сразу подскочил до 26-27%.

Wgrad является узким местом обучения FP4. Прямое распространение и градиент активации имеют значительную толерантность к квантованию FP4, но как только градиент весов квантуется до 4 бит, качество сходимости значительно ухудшается.

Ранее преобладала интуиция в индустрии, что ошибка квантования FP4 по сути является проблемой шума, поэтому её можно «сгладить», вводя случайность. Две распространённые стратегии:

Стохастическое округление (Stochastic Rounding): введение случайности при квантовании, чтобы математическое ожидание ошибки округления было равно нулю.

Случайное преобразование Адамара (Randomized Hadamard): перед квантованием используется преобразование Адамара со случайными переворотами знаков для размывания распределения данных.

После квантования Wgrad обе стратегии случайности не только не стабилизировали обучение, но и напрямую привели к отсутствию сходимости. Случайность не помогла, а, наоборот, внесла больше эффективной ошибки квантования на критических путях градиентов.

Напротив, детерминированное преобразование Адамара снизило общие затраты на токены с 26-27% до 8-9%, а траектория обучения плотно следовала за базовой линией FP8.

Это результат, имеющий большую диагностическую ценность. И случайное, и детерминированное преобразования Адамара являются ортогональными преобразованиями, оба могут размывать распределение энергии выбросов, и теоретически должны иметь схожий эффект смягчения ошибок квантования. Но их производительность в сценарии Wgrad кардинально противоположна, что раскрывает суть проблемы:

Нестабильность обучения FP4 обусловлена структурными ошибками, создаваемыми микромасштабированием MXFP4 на чувствительных путях градиентов. Стратегии случайности терпят неудачу, потому что они вносят разные шаблоны ошибок на каждом шаге, и эти изменяющиеся шаблоны накапливаются вдоль пути градиентов, усиливая нестабильность. Детерминированное преобразование эффективно именно потому, что оно применяет одинаковое преобразование на каждом шаге, заставляя шаблоны ошибок оставаться согласованными и избегая их накопления.

Сквозная эффективность: пропускная способность шага обучения +20%, общее ускорение 9-10%

После добавления детерминированного преобразования Адамара и применения полного цикла MXFP4, показатели эффективности следующие:

Пропускная способность шага обучения увеличилась на 20%, и после вычета дополнительных 8-9% затрат на токены, общее сквозное ускорение всё равно составляет 9-10%.

Учитывая, что точность была напрямую снижена с 8 бит до 4 бит, такое качество сходимости и степень ускорения весьма впечатляют.

Левый график: кривая изменения перплексии на валидационной выборке модели Llama 3.1–8B в зависимости от количества токенов обучения при предобучении по стандарту MLPerf на наборе данных C4. Результаты показывают, что MXFP4 + детерминированное преобразование Адамара работает очень близко к FP8, в то время как полный цикл MXFP4 без стабилизации сходится медленнее и менее стабилен. Правый график: увеличенный вид поздних этапов обучения. Целевая перплексия по MLPerf составляет 3.3. По сравнению с нестабилизированным запуском MXFP4, детерминированное преобразование Адамара (H16) сохраняет гораздо более тесное соответствие с базовой линией FP8.

Примечательно, что авторы в статье подчёркивают важное ограничение: эффективность этой схемы обучения FP4 (набор данных MLPerf C4 + Llama 3.1-8B) уже подтверждена, но нельзя напрямую предполагать, что она будет бесшовно переноситься на все модели, все наборы данных и все методы обучения. Поведение обучения FP4 может сильно зависеть от конкретной конфигурации, и конкретные стратегии стабилизации необходимо перепроверять для каждого сценария.

Заключение

Если поместить эту статью в более широкий контекст индустрии, можно выделить как минимум три уровня значимости.

Первый уровень: она отвечает на фундаментальный вопрос «почему». Предыдущие работы по обучению FP4 в основном фокусировались на «как сделать, чтобы оно не падало», тогда как эта статья впервые даёт чёткое причинно-следственное объяснение: сбой вызван структурными ошибками микромасштабирования на пути Wgrad, а не недостатком случайности. Само по себе это объяснение имеет методологическую ценность: оно говорит последующим исследователям, что при столкновении с нестабильностью при обучении с низкой точностью, следует в первую очередь искать источники структурных ошибок, а не слепо добавлять случайность.

Второй уровень: она перемещает FP4 из сферы «исключительно для вывода» в сферу «пригодности для обучения». Ранее консенсус в индустрии заключался в том, что FP4 подходит только для квантования при выводе, а для обучения требуется как минимум FP8. NVIDIA, продвигая на Blackwell именно FP4 для вывода, а не для обучения, также отражала это мнение. Эта статья, выполнив полный цикл предобучения на нативном оборудовании FP4, означает, что вычислительные мощности FP4, подготовленные для вывода на MI355X и Blackwell, теоретически также могут быть использованы для обучения. Если обучение на FP4 окажется работоспособным на более крупных моделях и в большем количестве сценариев, это фактически удвоит доступные вычислительные мощности для обучения на существующем оборудовании.

Третий уровень: она использует открытый стандарт OCP. MXFP4 является частью стандарта форматов микромасштабирования OCP (Microscaling Formats), поддержанного совместно семью компаниями: AMD, NVIDIA, Intel, Meta, Microsoft, Arm, Qualcomm. Использование открытого стандарта означает, что этот метод может быть перенесён на оборудование разных производителей и не будет заблокирован в рамках одной экосистемы.

От FP16 до FP8, DeepSeek-V3 уже доказал, что уменьшение точности вдвое может значительно снизить стоимость обучения. От FP8 до FP4, эта статья сделала ключевой первый шаг. Каждое снижение точности меняет экономику обучения больших моделей.

Эта статья взята из официального аккаунта WeChat «Машинное сердце» (ID:almosthuman2014), редактор: Лэн Мао.

Трендовые криптовалюты

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

PancakeSwapCAKE

JUSTJST

Связанные с этим вопросы

QКакой основной вывод сделали исследователи AMD о причине нестабильности при обучении моделей с использованием FP4?

AОсновной вывод заключается в том, что нестабильность обучения с FP4 вызвана не недостатком случайности, а структурными ошибками микромасштабирования, которые накапливаются и усиливаются по чувствительным градиентным путям, особенно при вычислении градиентов весов (Wgrad).

QЧто такое формат MXFP4 и чем он отличается от обычного квантования?

AMXFP4 — это формат данных 4-битной плавающей запятой с микромасштабированием. Его ключевое отличие от обычного квантования заключается в разделении тензора на небольшие блоки (например, по 32 элемента) и назначении каждому блоку своего общего показателя степени (shared exponent). Это позволяет каждому блоку иметь свой динамический диапазон, предотвращая искажение данных из-за глобальных выбросов.

QКакая операция в обучении трансформеров оказалась наиболее чувствительной к использованию MXFP4?

AНаиболее чувствительной операцией оказалось вычисление градиента весов (Wgrad). Когда эта операция выполнялась с точностью MXFP4, требовалось на 26–27% больше данных (токенов) для достижения сходимости по сравнению с базовым FP8, что указывает на значительное ухудшение качества обучения.

QПочему стратегии со случайным округлением не помогли стабилизировать обучение с FP4?

AСтратегии со случайным округлением или случайным преобразованием Адамара не стабилизировали обучение, потому что на каждом шаге они вносили различный паттерн ошибок. Эти изменчивые ошибки накапливались вдоль градиентного пути, усиливая нестабильность, вместо того чтобы сглаживать её.

QКакой метод стабилизации обучения с MXFP4 оказался эффективным и какую выгоду он дал?

AЭффективным методом оказалось детерминированное преобразование Адамара. Оно стабилизирует обучение, применяя на каждом шаге одно и то же преобразование, что обеспечивает согласованность паттерна ошибок и предотвращает их разрушительное накопление. В результате полное обучение модели Llama 3.1-8B стало возможным с дополнительными затратами всего в 8–9% токенов и обеспечило общее ускорение обучения на 9–10% по сравнению с FP8.

Похожее

В Южной Корее наблюдается взрывной рост объёмов торгов 15 альткоинами!

Крупнейшие южнокорейские криптобиржи Upbit и Bithumb сообщают о резком росте объёмов торгов альткоинами. За последние 24 часа общий оборот по 15 популярным альткоинам достиг примерно 347,7 миллиона долларов. Лидером по объёму стала MetaDAO (META) с 65,84 млн долларов только на Upbit. На втором месте Euler ($EUL) с суммарным объёмом в 47,65 млн долларов, а на третьем — $XRP с 38,11 млн долларов. В число других активов с высокими показателями вошли ThunderCore (TT), Вавилон (BABY), Geodnet (GEOD) и Hyperlane (HYPER). Замыкают список такие известные монеты, как Shiba Inu (SHIB), Dogecoin (DOGE) и Worldcoin (WLD). *Это не инвестиционная рекомендация.

cryptonews.ru1 ч. назад

В Южной Корее наблюдается взрывной рост объёмов торгов 15 альткоинами!

cryptonews.ru1 ч. назад

Компания Дональда Трампа продала очередную крупную партию биткоинов!

Сообщается о новом переводе примерно 2628 биткоинов (около $165 млн) с адресов, предположительно связанных с Trump Media & Technology Group Дональда Трампа, на биржу CryptoCom. Согласно анализу блокчейна, компания ранее приобрела около 11 542 BTC по средней цене $118 500. К настоящему моменту с её адресов было выведено примерно 7 281 BTC, а около 4 261 BTC всё ещё хранятся на них. Общие реализованные и нереализованные убытки Trump Media от инвестиций в биткоин оцениваются примерно в $555 млн. Отметим, что перевод на биржу не обязательно означает продажу активов — он может быть связан с хранением или управлением ликвидностью.

cryptonews.ru2 ч. назад

Компания Дональда Трампа продала очередную крупную партию биткоинов!

cryptonews.ru2 ч. назад

Паркер Льюис ответил, почему биткоин остаётся лучшими деньгами

Известный биткоин-аналитик Паркер Льюис раскритиковал стратегии публичных компаний, позиционирующих себя как криптовалютные казначейства. Он заявил, что продажа ими «цифрового кредита» в виде бессрочных привилегированных акций искажает суть биткоина, который не генерирует фиатный доход на алгоритмическом уровне. Льюис подчеркнул, что выплата дивидендов в этой модели часто зависит от притока новых инвесторов, что несёт высокие риски, наглядно демонстрируемые скромным размером рынка таких акций ($1 трлн) на фоне глобального кредитного рынка ($300 трлн). Эксперт также опроверг тезис о чрезмерной волатильности биткоина, объяснив её как естественное следствие массового принятия актива с жёстко ограниченным предложением. Он призвал инвесторов покупать биткоины напрямую, а не акции компаний вроде MicroStrategy, что математически безопаснее. Льюис указал на главную угрозу — инфляцию фиатных денег, проиллюстрировав её личным «Индексом рибая», показывающим рост цен на 12–13% годовых. В итоге, наиболее надёжной стратегией защиты сбережений он назвал прямое владение биткоином и контроль над приватными ключами, предостерегая от скрытых рисков погони за корпоративной доходностью через деривативы.

cryptonews.ru3 ч. назад

Паркер Льюис ответил, почему биткоин остаётся лучшими деньгами

cryptonews.ru3 ч. назад

Почему биткоин удерживает $64 000 после жесткой паузы ФРС

Федеральная резервная система США оставила ключевую ставку без изменений, но жесткая риторика и голосование (9 против 3) показали готовность к дальнейшему ужесточению, что ограничивает аппетит к рисковым активам. Несмотря на это, биткоин демонстрирует устойчивость, удерживаясь около уровня $64 000 после волатильной реакции на заявление ФРС. Ключевая поддержка находится в зоне $63 000–63 500, сопротивление — около $66 000. На рынке наблюдается ротация капитала: спотовые Bitcoin-ETF после серии оттоков показали чистый приток в $32,1 млн, тогда как фонды на Ethereum продолжили терять средства. Интерес институциональных инвесторов сместился в сторону биткоина как основного актива, хотя отдельные альткоины, такие как Solana, также привлекают капитал. Рыночная доля Ethereum снижается, несмотря на сильные фундаментальные показатели сети, включая растущую очередь на стейкинг. Законодательная инициатива CLARITY Act была отложена Сенатом США до осени, что снизило рыночные ожидания относительно её принятия в 2026 году. В последний день июля внимание инвесторов будет приковано к макроэкономической статистике из США. Устойчивость биткоина выше $63 000, закрепление Ethereum над $1 860 и продолжение притоков в ETF могут стать сигналами для формирования базы восстановления во второй половине года.

cryptonews.ru3 ч. назад

Почему биткоин удерживает $64 000 после жесткой паузы ФРС

cryptonews.ru3 ч. назад

Компания ARK Invest Кэти Вуд купила 109,129 акций Circle на $6,83 млн

Компания ARK Invest Кэти Вуд приобрела 109 129 акций компании Circle на сумму около 6,83 млн долларов США. Покупка была осуществлена через три ее биржевых фонда: ARK Innovation, ARK Next Generation Internet и ARK Fintech Innovation. Эта сделка произошла вскоре после того, как Circle получила лицензию на доверительное управление от Департамента финансовых услуг штата Нью-Йорк для своей дочерней компании Circle New York Trust. Генеральный директор Circle Джереми Аллер назвал получение лицензии долгосрочной целью компании. Однако, несмотря на это регулирующее одобрение, акции Circle (CRCL) 31 июля снизились на 2,54%, что, вероятно, указывает на сдержанную реакцию инвесторов на данную новость. Параллельно ARK Invest также совершила крупные покупки акций Tesla, SpaceX и Nvidia на общую сумму около 40,2 млн долларов, одновременно сократив свои доли в таких компаниях, как Shopify, Cloudflare и CrowdStrike.

cryptonews.ru3 ч. назад

Компания ARK Invest Кэти Вуд купила 109,129 акций Circle на $6,83 млн

cryptonews.ru3 ч. назад

Торговля

Спот

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на S (S) представлены ниже.

Новая статья AMD меняет представления: нестабильность обучения с FP4 вызвана не недостатком случайности

Введение

Что такое MXFP4

Поисковая экспериментальная работа: корень нестабильности

Сквозная эффективность: пропускная способность шага обучения +20%, общее ускорение 9-10%

Заключение

Трендовые криптовалюты

Связанные с этим вопросы

Похожее

В Южной Корее наблюдается взрывной рост объёмов торгов 15 альткоинами!

Компания Дональда Трампа продала очередную крупную партию биткоинов!

Паркер Льюис ответил, почему биткоин остаётся лучшими деньгами

Почему биткоин удерживает $64 000 после жесткой паузы ФРС

Компания ARK Invest Кэти Вуд купила 109,129 акций Circle на $6,83 млн

Торговля

Популярные статьи

Как купить S

Sonic: Обновления под руководством Андре Кронье – новая звезда Layer-1 на фоне спада рынка

HTX Learn: Пройдите обучение по "Sonic" и разделите 1000 USDT

Обсуждения

Топ вопросы

Популярные категории

Популярные теги