Новая работа лауреата премии Тьюринга Саттона: Использование формулы 1967 года для устранения важного недостатка потокового обучения с подкреплением

marsbitОпубликовано 2026-05-10Обновлено 2026-05-10

Введение

В декабре 2024 года исследователи из Университета Альберты столкнулись с проблемой «потокового барьера» в глубоком обучении с подкреплением: при обучении в потоковом режиме (без буфера воспроизведения и с размером пакета, равным 1) обучение становилось нестабильным. Год спустя, команда с участием лауреата премии Тьюринга Ричарда Саттона предложила решение — метод «интенциональных обновлений» (Intentional Updates). Идея, восходящая к алгоритму NLMS 1967 года, заключается в том, чтобы напрямую задавать желаемое изменение выхода функции (например, уменьшение ошибки прогноза на фиксированный процент), а затем вычислять необходимый размер шага обновления параметров, а не наоборот. Этот подход обеспечивает стабильное влияние каждого обновления на результат. Метод был применён как к обучению ценности (Intentional TD/Q), так и к обучению политики (Intentional Policy Gradient), сочетаясь с такими техниками, как RMSProp и следы пригодности. В экспериментах на задачах непрерывного (MuJoCo) и дискретного (Atari) управления алгоритмы показали производительность, сопоставимую с современными методами (SAC, DQN), использующими большие буферы, но при значительно меньших вычислительных затратах и с лучшей устойчивостью. Хотя метод демонстрирует высокую эффективность и робастность, авторы отмечают потенциальную проблему смещения в обновлениях политики и необходимость дальнейшей работы для её устранения. «Интенциональные обновления» представляют собой значительный шаг в сторону создания ИИ, с...

В конце 2024 года научное сообщество широко обсуждало статью под названием «Потоковое глубокое обучение с подкреплением, наконец, заработало» (arXiv:2410.14606). Авторы из команды Махмуда из Университета Альберты посвятили значительную часть описанию неловкой реальности: обучение с подкреплением, как метод, по своей сути предназначенный для «обучения на ходу», почти не может этого делать в эпоху глубоких нейронных сетей. Стоит убрать буфер воспроизведения или установить размер пакета равным 1, как обучение разваливается. Они назвали это «потоковым барьером» (stream barrier).

В той статье алгоритмы серии StreamX, благодаря тщательно подобранным гиперпараметрам, разреженной инициализации и различным методам стабилизации, едва преодолели эту стену.

Однако менее чем через полтора года член той же исследовательской группы вместе с коллабораторами из института Openmind дал совершенно другой ответ: корень потокового барьера не в «недостатке данных», а в «неправильной единице измерения шага обучения».

Название статьи: Intentional Updates for Streaming Reinforcement Learning

Адрес статьи: https://arxiv.org/pdf/2604.19033v1

Репозиторий кода: https://github.com/sharifnassab/Intentional_RL

Одна педаль газа, и большая яма

Представьте, что вы учитесь парковать машину. Инструктор говорит вам каждый раз «давить на газ 0.1 секунды». Проблема в том, что при одинаковом времени в 0.1 секунды машина проедет разное расстояние в зависимости от подъема, спуска, нагрузки и т.д. Иногда не хватит сантиметра, иногда переедет на 30 см и врежется в стену.

Шаг обучения в традиционном градиентном спуске делает именно это: он определяет, насколько параметры должны измениться, но никак не контролирует, насколько изменится выход функции. При обучении пакетами (batch) усреднение ошибок по сотням или тысячам примеров сглаживает крайние случаи, и проблема не так заметна. Но в «потоковой» среде на каждом шаге есть только один пример, усреднять нечего. Как только направление градиента становится нестабильным, величина обновления начинает сильно колебаться — сегодня сдвиг на 30 см вперед, завтра на 50 см назад — процесс обучения разрушается из-за сильных колебаний.

Это явление «перелета и недолета» (overshooting and undershooting) особенно серьезно в обучении с подкреплением, потому что градиент на каждом временном шаге различается не только по величине, но и быстро меняется по направлению.

Переопределение «какой должна быть одна итерация»

В недавней статье Арсалана Шарифнассаба из института Openmind, Мохамеда Эльсаида, А. Рупама Махмуда и Ричарда Саттона из Университета Альберты предложен подход, который меняет угол зрения: вместо того чтобы указывать, насколько должны измениться параметры, лучше прямо указать, насколько должен измениться выход функции.

Эта идея возникла не на пустом месте. В 1967 году японские ученые Нагумо и Нода в статье «A learning method for system identification» в области адаптивной фильтрации предложили алгоритм «нормализованного метода наименьших квадратов» (NLMS); по сути, он тоже использовал ожидаемое изменение выхода для обратного расчета шага, а не наоборот. Просто этот алгоритм был применим только к простым линейным сценариям.

Исследователи распространили эту идею на глубокое обучение с подкреплением. Они назвали это «целенаправленными обновлениями» (Intentional Updates): перед каждым обновлением сначала определяется «чего я хочу достичь на этом шаге», а затем обратным расчетом определяется, каким должен быть размер шага.

Для обучения оценке ценности (т.е. предсказанию будущего вознаграждения) их «цель» определяется так: после каждого обновления ошибка предсказания ценности текущего состояния должна уменьшаться на фиксированную долю — например, на 5%, не больше и не меньше. Для обучения стратегии (т.е. оптимизации принимаемых решений) их цель определяется так: вероятность выбора текущего действия на каждом шаге может измениться только на «умеренную» величину.

Возвращаясь к аналогии с вождением: это как если бы водитель перед каждым действием решал «я хочу сдвинуть машину вперед на 20 см», а затем автоматически вычислял, насколько нужно нажать на газ в зависимости от текущих условий (уклон, нагрузка), вместо того чтобы каждый раз давить на педаль с одинаковой силой и надеяться на лучшее.

Лауреат премии Тьюринга и его пазл

Одним из авторов статьи является Ричард С. Саттон — лауреат премии Тьюринга 2024 года, широко известный как «отец современного обучения с подкреплением».

Положение Саттона в научном мире примерно соответствует положению Фейнмана в физике: он не только предложил два фундаментальных каркаса современного обучения с подкреплением — обучение с временной разницей (TD learning) и градиент стратегии (policy gradient), но и вместе с Эндрю Барто написал самый авторитетный учебник по этой области «Reinforcement Learning: An Introduction» (сейчас вышло второе издание, доступное для бесплатного чтения онлайн). Он и Барто разделили премию Тьюринга 2024 года, в формулировке которой отмечается «заложение концептуальных и алгоритмических основ обучения с подкреплением».

Получив награду, Саттон не ушел на покой, а вложил призовые деньги в созданный им институт Openmind, финансируя молодых исследователей, желающих изучать фундаментальные вопросы «в среде, свободной от коммерческого давления». Эта новая статья — продукт именно этой некоммерческой организации.

А первый автор, Шарифнассаб, недавно опубликовал на ICML 2025 фреймворк MetaOptimize, исследующий автоматическую онлайн-настройку скорости обучения. Оба проекта сосредоточены на одной задаче: как сделать сам шаг обучения более интеллектуальным.

Детали алгоритма: проще, чем кажется

Математический вывод «целенаправленных обновлений» не сложен, его основную формулу можно описать одной фразой: шаг равен «ожидаемому изменению выхода», деленному на «фактическое влияние направления градиента на выход».

При обучении оценке ценности это «фактическое влияние» — это норма вектора градиента (эквивалент измерения «крутизны» текущей области параметров): в более крутых местах шаг меньше, в более пологих — больше, что гарантирует постоянное воздействие каждого обновления на функцию ценности.

При обучении стратегии «ожидаемое изменение» определяется пропорциональным функции преимущества: насколько текущее действие лучше среднего уровня, настолько стратегия и сдвигается в этом направлении — с нормализацией величины с помощью скользящего среднего, что обеспечивает стабильность изменения стратегии в долгосрочной перспективе в объяснимых пределах.

Исследователи также объединили эту основную идею с двумя инженерными практиками: диагональным масштабированием в стиле RMSProp (для обработки различий в масштабах разных параметров) и следами пригодности (eligibility traces, помогающими распространять сигнал вознаграждения на предыдущие временные шаги).

В итоге получились три полных алгоритма: для предсказания ценности — Intentional TD (λ), для управления с дискретными действиями — Intentional Q (λ) и для непрерывного управления — Intentional Policy Gradient.

Результаты экспериментов: без GPU, наравне с SAC

Статья оценивает этот подход на нескольких стандартных бенчмарках, и результаты впечатляют.

В задачах непрерывного управления MuJoCo (включая сложных симулированных роботов, таких как Ant, Humanoid, HalfCheetah) новый метод Intentional AC в потоковой настройке (размер пакета = 1, без буфера воспроизведения) по конечной производительности многократно приближался или даже превосходил SAC — алгоритм, использующий большой буфер воспроизведения и являющийся практически золотым стандартом для текущих задач непрерывного управления. Что касается вычислительных затрат, количество операций с плавающей запятой, необходимое для одного обновления Intentional AC, составляет примерно 1/140 от одного обновления SAC.

В играх с дискретными действиями Atari и MinAtar Intentional Q-learning показал результаты, сравнимые с DQN, использующим буфер воспроизведения, причем для всех задач использовались одни и те же гиперпараметры без индивидуальной настройки.

Исследователи также специально проверили, достигается ли на самом деле «цель»: они измерили отношение фактического изменения к ожидаемому. В упрощенной настройке без следов пригодности стандартное отклонение этого отношения составило всего от 0.016 до 0.029, 99-й процентиль — в пределах 1.07; это означает, что в подавляющем большинстве случаев обновление действительно делало «ровно то, что планировалось».

Кроме того, набор экспериментов по удалению компонентов показал, что если убрать нормализацию RMSProp или σ-член, производительность снижается, но остается конкурентоспособной, причем само «целенаправленное масштабирование» является основным вкладом, а другие компоненты — вспомогательными.

Проблемы все же есть

Фреймворк «целенаправленных обновлений» также продемонстрировал явные преимущества в устойчивости. Когда исследователи последовательно убирали различные вспомогательные методы стабилизации, от которых зависит метод StreamX (разреженная инициализация, масштабирование вознаграждения, нормализация входных данных, LayerNorm), снижение производительности Intentional AC было значительно меньше, чем у оригинального StreamAC, что указывает на то, что целенаправленное масштабирование уменьшает зависимость от внешних «костылей» на фундаментальном уровне.

Однако в статье также честно признается одна проблема, которая еще не полностью решена: при обучении стратегии шаг зависит от текущего выбранного действия, что может неявно присваивать разный «вес» разным действиям, потенциально меняя ожидаемое направление градиента стратегии. В задачах Humanoid и HumanoidStandup, измеряя косинусное сходство ожидаемого направления обновления, исследователи обнаружили, что это смещение на ключевых этапах обучения близко к 0.96 (почти не влияет); но в Ant-v4 согласованность упала до медианного значения 0.63, что указывает на то, что проблемой нельзя всегда пренебрегать.

Авторы отмечают, что будущие исследования должны искать стратегии выбора шага, независимые от действия, чтобы «цель» оставалась несмещенной и в математическом ожидании. Это четкое задание для последователей в этом направлении.

Заключение: Пусть ИИ учится на ходу, как человек

Текущая преобладающая парадигма обучения больших моделей зависит от пакетной обработки огромных объемов данных: «скормить» все тексты и код из интернета, многократно итерации, в итоге возникает удивительная способность. Этот путь доказал свою эффективность, но он принципиально является «сначала выучить, потом использовать»: после завершения обучения модель замораживается и не может непрерывно обновляться на основе каждого последующего реального взаимодействия.

Потоковое обучение с подкреплением стремится к совершенно другому режиму обучения: не зависеть от массивного воспроизведения, не зависеть от огромных кластеров GPU, каждое переживание немедленно преобразуется в обновление параметров, непрерывно, дешево, адаптивно. Это больше похоже на реальный способ обучения людей и животных.

От первоначального прорыва Эльсаида и др. в 2024 году «наконец заработало» до принципа «целенаправленных обновлений», предложенного в этой статье, потоковое глубокое обучение с подкреплением развивается с удивительной скоростью. Оно не заменит большие модели, обученные пакетным методом, но для роботов, периферийных устройств, требующих долгосрочной онлайн-адаптации, и любых сценариев, где невозможно поддерживать большие буферы воспроизведения и кластеры GPU, этот путь становится все более убедительным.

Шаг обучения — это не просто гиперпараметр, это обещание ИИ «сколько сделать» на каждом шаге. Когда это обещание наконец стало контролируемым, само обучение стабилизировалось.

Эта статья взята из официального аккаунта WeChat «机器之心» (ID: almosthuman2014), автор: 关注RL的

Связанные с этим вопросы

QЧто такое «потоковый барьер» (stream barrier) в контексте глубокого обучения с подкреплением?

A«Потоковый барьер» — это термин, введённый командой Махмуда в 2024 году для описания проблемы, когда глубокое обучение с подкреплением (RL), которое по своей природе должно обучаться «на ходу» (в потоковом режиме), не может этого сделать без использования буфера воспроизведения (replay buffer) и пакетов данных большого размера. Если убрать буфер воспроизведения и установить размер пакета равным 1, процесс обучения становится нестабильным и «рушится».

QВ чём заключается основная идея «интенциональных обновлений» (Intentional Updates), предложенных в статье?

AОсновная идея «интенциональных обновлений» заключается в том, чтобы изменить принцип выбора размера шага (learning rate) обновления параметров. Вместо того чтобы заранее фиксировать, на сколько изменить параметры (традиционный подход), предлагается сначала определить «намерение» — насколько должна измениться выходная функция модели (например, предсказание ценности или вероятность выбора действия), а затем рассчитать, какой размер шага параметров необходим для достижения именно этого изменения выхода. Это делает процесс обучения более стабильным.

QКакое историческое открытие вдохновило авторов на создание метода «интенциональных обновлений»?

AАвторы вдохновлялись алгоритмом «нормализованного метода наименьших средних квадратов» (NLMS), который был предложен японскими учёными Нагумо и Нода в 1967 году для задач адаптивной фильтрации и идентификации систем. Суть NLMS также заключается в выборе шага обучения на основе желаемого изменения выходного сигнала, а не наоборот. Авторы распространили эту идею на глубокое обучение с подкреплением.

QКакой ключевой результат показали эксперименты с методом Intentional AC в задачах непрерывного управления (например, MuJoCo)?

AЭксперименты показали, что алгоритм Intentional AC в потоковом режиме (размер пакета = 1, без буфера воспроизведения) достигает конечной производительности, сравнимой с современным алгоритмом SAC (Soft Actor-Critic), который использует большие пакеты данных и буфер воспроизведения. При этом одно обновление Intentional AC требует примерно в 140 раз меньше вычислительных операций (FLOPs), чем одно обновление SAC.

QКакой основной недостаток или нерешённая проблема остаётся у предложенного метода, особенно в обучении стратегии (policy learning)?

AОсновная нерешённая проблема заключается в обучении стратегии (policy). Размер шага (learning rate) зависит от конкретного действия, выбранного в данный момент времени (путём сэмплирования). Это может неявно присваивать разным действиям разный «вес» и смещать ожидаемое направление градиента политики. В некоторых задачах (например, Ant-v4) это смещение может быть значительным (косинусное сходство ожидаемого направления падает до 0.63). Авторы отмечают необходимость в будущих исследованиях найти способ выбора шага, независимого от действия, чтобы сделать обновления «интенциональными» и несмещёнными в математическом ожидании.

Похожее

Южная Корея оштрафовала биржу Bithumb на 210 млн вон за несанкционированные трансграничные передачи данных

Корейская Комиссия по защите персональных данных оштрафовала криптобиржу Bithumb на 210 миллионов вон (около 136 000 долларов США) за незаконную передачу пользовательских данных за границу. Согласно отчёту Korea Herald, нарушения касались передачи номеров участников и деталей ордеров по USDT партнёру BingX, а также отправки имён пользователей и адресов кошельков на 13 иностранных бирж без получения надлежащего отдельного согласия. Помимо штрафа был выдан предписание об устранении нарушений. Этот случай важен, поскольку демонстрирует усиление внимания корейских регуляторов к вопросам приватности данных на крипторынке. Обработка чувствительной информации, такой как данные кошельков и история транзакций, требует строгого соблюдения правил, особенно при трансграничных передачах. Инцидент послужил основой для новых отраслевых правил защиты данных блокчейна и указывает на то, что риски для бирж теперь выходят за рамки только правил торговли, распространяясь на всю операционную деятельность. В результате другим корейским биржам, вероятно, придётся пересмотреть свои процедуры получения согласия на передачу данных. Корректирующее предписание для Bithumb может привести к более значительным операционным изменениям, чем сам штраф. Этот случай — ещё один сигнал о расширении регулирования криптоиндустрии.

bitcoinist38 мин. назад

Южная Корея оштрафовала биржу Bithumb на 210 млн вон за несанкционированные трансграничные передачи данных

bitcoinist38 мин. назад

Пока аналитики становятся быками на Биткоин, лучшее ли это время покупать его падение?

По мере того, как аналитики становятся более бычьими по отношению к биткоину, возникает вопрос: является ли текущее падение наилучшим моментом для покупки BTC? За последние 72 часа на рынке произошли масштабные ликвидации на сумму около $1,8 млрд, преимущественно по длинным позициям, что совпало с недельным снижением цены биткоина более чем на 5%. Этот процесс снизил избыточное кредитное плечо и очистил позиции, потенциально создавая почву для восстановления, если вернется спрос со стороны спотового рынка. Макроэкономический фон остается неоднозначным. Хотя опасения (FUD) вокруг геополитики ослабевают, ожидания повышения ставки ФРС выросли до более чем 27%, что добавляет неопределенности. При этом почти 11 миллионов BTC сейчас находятся в убытке — рекордный уровень, причем около 37% монет, хранящихся долгосрочными держателями (LTH), оцениваются ниже цены покупки. Это увеличивает риск капитуляции LTH. Таким образом, несмотря на улучшение макрофона и сброс плеча, слабый спрос, неопределенность в политике ФРС и растущие убытки долгосрочных инвесторов означают, что риски дальнейшего снижения могут быть недооценены, и сильный бычий сценарий на третий квартал пока выглядит неубедительным.

ambcrypto2 ч. назад

Пока аналитики становятся быками на Биткоин, лучшее ли это время покупать его падение?

ambcrypto2 ч. назад

Ark Invest покупает на просадке акции регулируемых криптовалютных компаний во время рыночного отката

Сообщается, что Ark Invest Кэти Вуд увеличила свои позиции в нескольких регулируемых акциях, связанных с криптовалютой, во время рыночного спада. Согласно уведомлениям о сделках ARK, процитированным в источнике, 25 июня 2026 года были куплены акции Coinbase (9 014), Circle (9 264), Robinhood (35 023) и Bullish (9 136). Эти приобретения, распределенные по фондам ARKK, ARKW и ARKF, позволяют Ark получить доступ к различным сегментам регулируемого крипторынка: биржевые и кастодиальные услуги (Coinbase), инфраструктура стейблкоинов (Circle), еще одна биржевая платформа (Bullish) и розничный брокеридж (Robinhood). Это действие демонстрирует сохраняющийся интерес институциональных инвесторов к публичной криптоинфраструктуре даже в слабых рыночных условиях. Для инвесторов это напоминание о том, что крипторынок теперь включает не только прямые токены, но и регулируемые акции, реагирующие на корпоративные результаты и нормативную среду. Внимание будет сосредоточено на том, продолжится ли накопление позиций Ark в случае дальнейшей слабости, что укажет на восприятие спада как возможности для покупки.

bitcoinist3 ч. назад

Ark Invest покупает на просадке акции регулируемых криптовалютных компаний во время рыночного отката

bitcoinist3 ч. назад

Stellar's $0.142 test – Почему это может быть шанс на покупку, которого ждут трейдеры

Stellar (XLM) продолжает снижение, торгуясь на уровне $0,1514, с ежедневным падением на 7,85%, несмотря на рост объема торгов на 10,55% до $236,47 млн. Это указывает на активные продажи, а не на поддержку восстановления. Технический анализ показывает, что цена пробила ключевую горизонтальную поддержку и движется к следующей важной зоне спроса на уровне $0,142. Индикаторы подтверждают контроль медведей: MACD сохраняет медвежий перекрест, Parabolic SAR указывает на нисходящий тренд, а RSI (34,42) близок к зоне перепроданности, но не подает сигналов разворота. Индекс направленного движения (DMI) также показывает превосходство медвежьей силы (-DI над +DI). Текущие условия рынка благоприятствуют дальнейшему снижению к уровню $0,142, прежде чем покупатели смогут предпринять попытку устойчивого восстановления. Для изменения сценария покупателям необходимо перехватить инициативу и закрепиться выше ключевых уровней сопротивления.

ambcrypto4 ч. назад

Stellar's $0.142 test – Почему это может быть шанс на покупку, которого ждут трейдеры

ambcrypto4 ч. назад

Основатель Aave опровергает сообщения о покупке доли в Payward со скидкой в «70%»

Сооснователь Aave Стани Кулечов опроверг сообщения о том, что материнская компания Kraken, Payward, ведет переговоры о покупке 15% доли в Aave Group со скидкой около 70%. Согласно первоначальным сообщениям, сделка оценивалась бы в $71 млн при оценке компании в $385 млн, что значительно ниже оценки с учетом полностью разводненной капитализации токена AAVE. Кулечов отверг такую трактовку, заявив, что AAVE не будет продан с такой большой скидкой, и указав на значительный годовой доход протокола, направляемый в Aave DAO. В статье подчеркивается важность разграничения между различными субъектами экосистемы Aave: Aave Group, Aave Labs, Aave DAO и держателями токенов. Обсуждение долевого участия в одной из связанных компаний не равнозначно продаже протокола или передаче контроля над DAO. Этот эпизод демонстрирует чувствительность крупных протоколов DeFi к слухам об инвестициях и важность точной терминологии. Хотя стратегические обсуждения с потенциальными партнерами продолжаются, Кулечов отрицает возможность продажи со скидкой. Дальнейшее развитие ситуации следует отслеживать через официальные каналы Aave. Рыночная реакция будет зависеть от того, как инвесторы воспримут это опровержение и возможность будущих стратегических размещений токенов.

bitcoinist4 ч. назад

Основатель Aave опровергает сообщения о покупке доли в Payward со скидкой в «70%»

bitcoinist4 ч. назад

Торговля

Спот
活动图片