Известный ведущий технологического подкаста из Кремниевой долины Дваркеш Патель недавно задал вопрос: Каков будет следующий парадигмальный подход к обучению ИИ?

Дваркеш Патель — ведущий и автор технологического подкаста, который быстро набрал популярность в Кремниевой долине за последние несколько лет. В возрасте всего 25 лет он благодаря своему подкасту "Dwarkesh Podcast" вошел в ядро дискуссий об ИИ. Среди его интервьюируемых — Илья Суцкевер, Андрей Карпати, Дарио Амодеи, Демис Хассабис, Марк Цукерберг и многие другие гиганты ИИ и технологий. Журнал TIME включил его в список TIME100 AI 2024 года, назвав его подкаст важным контентом для многих практиков в области ИИ.

В своем последнем выпуске подкаста он обобщил направление, на которое сегодня делают ставки передовые лаборатории ИИ, одним ключевым термином: RLVR, то есть Reinforcement Learning with Verifiable Rewards, обучение с подкреплением на основе проверяемых наград.
Проще говоря, это подход, при котором модель многократно пробует и ошибается на большом количестве задач, где правильность можно проверить автоматически, тем самым обучаясь способностям к планированию, исправлению ошибок, итерациям и долгосрочному выполнению. Быстрый прогресс сегодня в таких областях, как программирование и математика, во многом обусловлен именно этой логикой.
Но Дваркеш действительно хочет задать вопрос: Достаточно ли для следующего поколения ИИ обучения только на таких «проверяемых задачах»?
Его ответ: возможно, нет.
Потому что задача не должна быть просто «проверяемой»; она также должна быть «решаемой многократно».
Ключевое понятие здесь — grindability, способность к "шлифовке". В контексте обучения ИИ это «способность к многократному решению задач» или «возможность масштабированного "развертывания" (rollout)».
Задачи по программированию — типичный пример "решаемых многократно" задач. Вы можете подготовить репозиторий, ошибку для исправления, тестовый пример, затем скопировать ту же среду в тысячи экземпляров и позволить тысячам агентов попытаться ее решить. Кто пройдет тест, тот получает баллы. Этот процесс можно распараллелить, он воспроизводим, сбрасываем, что особенно хорошо подходит для RLVR.
Математические задачи аналогичны. Правильность ответа можно проверить, тренировочную среду тоже легко скопировать.
Но Дваркеш задает очень интересный вопрос: почему прогресс ИИ в «использовании компьютера» идет медленнее, чем в программировании и математике?
На первый взгляд, использование компьютера тоже проверяемо. Например, успешно ли оформлен заказ, забронировано ли место для мероприятия, подана ли налоговая декларация — все эти результаты можно оценить. Но проблема в том, что их трудно масштабированно копировать и воспроизводить. Вы не можете позволить тысяче агентов одновременно запускать один и тот же процесс оформления заказа на Amazon, потому что реальный сайт распознает ботов, блокирует учетные записи, меняет состояния. Конечно, можно создать симуляторы таких приложений, как Slack, Gmail, Amazon, но на нынешнем этапе это все еще инженерная задача с высокими затратами и низкой масштабируемостью.
Дваркеш указывает: ИИ быстро прогрессирует в какой-либо области не только потому, что в ней можно проверить ответ, но и потому, что эту область можно упаковать в тренировочную среду, которую можно копировать, воспроизводить и использовать для параллельных проб и ошибок.
Это также объясняет, почему задачи, связанные с программированием, математикой и играми, становятся естественной питательной средой для RLVR, в то время как многие задачи реального мира трудно напрямую включить в эту парадигму обучения.
Далее он переносит вопрос в более сложный реальный мир.
- Если мы хотим обучить ИИ создавать бизнес с нуля, как быть?
- Если хотим обучить его выиграть судебный процесс, как быть?
- Если хотим обучить его стабильно зарабатывать на рынке или помочь кандидату выиграть выборы, как быть?
Конечно, у этих задач тоже есть результат. Успешен ли бизнес, выиграно ли дело, получена ли прибыль, выиграны ли выборы — в конечном итоге можно оценить.
Но их проблема в следующем: обратная связь приходит слишком медленно, переменных слишком много, мир невозможно "сбросить", его также нельзя скопировать тысячу раз в дата-центре.
Один стартап может длиться несколько лет. Политическая кампания зависит от конкретного региона, кандидата, настроения избирателей, медиасреды и случайных событий. Юридическое дело также нельзя скопировать из одной отправной точки в тысячу параллельных вселенных, чтобы разные агенты пробовали свои силы по отдельности.
Такая среда в обучении с подкреплением близка к так называемой среде без сброса (reset-free) и нестационарной (non-stationary environment): ее нельзя произвольно сбрасывать, и сама среда постоянно меняется.
Поэтому Дваркеш задает вопрос: Агенты, обученные методом RLVR в проверяемой, "решаемой многократно" среде, действительно смогут обобщить свои знания для этих задач реального мира?
Это не вопрос, на который можно ответить лозунгом, это эмпирический вопрос.
Оптимисты скажут, что если среды для RLVR будут достаточно многочисленны и сложны, модель в конечном итоге научится универсальным способностям агента. Способности к планированию и пробам-ошибкам, которые она приобретет, работая с кодом, математикой, веб-страницами, использованием инструментов, в конечном итоге перенесутся на такие области, как предпринимательство, управление организациями, политика, право, научные исследования.
Но Дваркеш относится к этому скептически.
Потому что самые ценные знания в реальном мире часто появляются не в виде четких, проверяемых, повторяемых форм. Они могут исходить из двусмысленного отзыва клиента, провальной встречи, неявного внутреннего процесса организации, модели неудачи, которая проявляется только при выполнении реальной задачи. Чтобы научиться этому, модель не может полагаться только на «решение задач», она также должна обладать подлинной эффективностью выборки.
Это приводит обсуждение к самому важному моменту статьи: learning back to the weights, возврат обучения обратно в веса.
Современные большие языковые модели уже хорошо умеют учиться в контексте (in-context learning). Они могут прочитать много материалов в длинном контексте, понять предысторию проекта, временно адаптироваться к потребностям пользователя или организации. Но проблема в том, что это обучение в основном остается в пределах контекстного окна. После завершения сессии модель не обязательно по-настоящему «запоминает».
Дваркеш считает, что это огромная трата.
Потому что по-настоящему ценные обучающие сигналы для модели появляются именно после развертывания. Модель используется реальными пользователями, попадает в реальные организации, участвует в реальных задачах, сталкивается с реальными ошибками. Она видит, как работает компания изнутри, что люди на самом деле с ней делают, где часто случаются неудачи, какие советы в реальности не работают.
Но если этот опыт не может быть осажден обратно в веса модели, то это всего лишь временная адаптация в рамках одной сессии, а не долгосрочный рост способностей.
Он приводит аналогию с обучением человека: люди становятся сильнее не потому, что заучивают наизусть каждое слово, произошедшее за день. Сотрудник становится полезным после полугода работы не потому, что помнит каждое письмо, каждую запись совещания, а потому, что сжимает этот опыт в способность к суждению, интуицию, понимание процессов и моделей проблем.
С моделью должно быть так же.
Подлинное непрерывное обучение (continual learning) — это не бесконечное увеличение кэша ключей-значений (KV cache), не засовывание всей истории в контекст, а извлечение из реального опыта небольшого количества действительно полезных знаний и их сжатие в веса.
Именно эту проблему, по мнению Дваркеша, должно решить следующее поколение парадигм обучения.
Итак, как именно это сделать?
Он упоминает одно из обсуждаемых направлений: on-policy self-distillation, сокращенно OPSD.
Это можно приблизительно понять так: позволить модели, которая уже накопила большой опыт в длинных сессиях, выступать в роли «опытного сотрудника» или учителя (teacher); затем обучать базовую модель, чтобы она даже без этого полного контекста могла делать суждения, похожие на суждения учителя.
Другими словами, дистиллировать то, чему модель научилась в контексте выполнения одной реальной задачи, обратно в веса самой модели.
Это отличается от обычного SFT (Supervised Fine-Tuning). Самое простое SFT может заключаться лишь в том, чтобы заставить модель предсказывать токены, встречавшиеся в сессии, что эквивалентно пересказу всего рабочего журнала. Но это неэффективное обучение. Важно не запомнить все детали, а извлечь ключевые инсайты, которые помогут модели в следующий раз действовать лучше.
Преимущество OPSD в том, что ему не обязательно нужна внешняя проверяемая награда. Достаточно, чтобы модель смогла научиться чему-то полезному в контексте, и тогда «модель после обучения» можно использовать как учителя, приближая к ней базовую модель.
Кроме того, по сравнению с обычным обучением с подкреплением, где есть только финальная награда, OPSD может обеспечить более плотный сигнал надзора. Оно может сравнивать различия в вероятностных распределениях учителя и ученика на уровне токенов, тем самым сжимая скудный опыт одной реальной задачи в более мелкие, более точные обновления весов.
Помимо OPSD, Дваркеш предлагает еще одно направление: dreaming.
Здесь dreaming означает, что ИИ на основе наблюдений за реальным миром сам конструирует симулированную среду, а затем многократно тренируется в ней, пробует стратегии, усиливает эффективное поведение.
Это звучит очень похоже на model-based RL (обучение с подкреплением на основе модели) в традиции обучения с подкреплением, а также на идею Саттона, который всегда подчеркивал, что агент накапливает опыт через взаимодействие со средой. Разница в том, что Дваркеш помещает это в контекст больших языковых моделей и реального развертывания.
Например, ИИ, наблюдая за определенным бизнес-процессом в реальной компании, не просто пишет резюме, а тратит значительные вычислительные ресурсы на создание «игровой версии» симулированной среды этого процесса. Затем он тестирует в ней различные коммуникативные стратегии, пути выполнения и способы продвижения проекта, чтобы понять, что с большей вероятностью приведет к успеху. Наконец, сжимает опыт, полученный в этих симуляционных тренировках, обратно в модель.
Если этот подход окажется работоспособным, он может стать новой осью масштабирования (scaling axis).
В прошлом масштабирование ИИ в основном происходило по трем осям: предобучение (pretraining), обучение с подкреплением (RL) и вычисления во время вывода (inference-time compute). Дваркеш предполагает, что в будущем может добавиться четвертая ось: обучение во время тестирования (test-time training) или dreaming. Модель не только рассуждает, но и в процессе рассуждения и выполнения задач конструирует симулированные среды для конкретного пользователя, конкретной организации, конкретного проекта и тренируется в них.
Вот почему в комментариях кто-то упомянул статью Дэвида Сильвера и Ричарда Саттона «Welcome to the Era of Experience»: та статья также подчеркивает, что ИИ не может вечно полагаться на человеческие данные, и ключом к следующему этапу станет получение опыта агентом от взаимодействия с окружающей средой.

Дваркеш же конкретизирует этот макро-прогноз для современных проблем обучения больших языковых моделей: RLVR — важный переходный этап, позволяющий модели развить агентские способности на проверяемых задачах; но чтобы войти в более сложный реальный мир, модель должна научиться непрерывно учиться на реальном развертывании и записывать опыт обратно в веса.
По представлению Дваркеша, к 2027 или 2028 году процесс обучения может выглядеть так:
- Во-первых, RLVR обучает базово компетентного агента. Этот агент попадает в незнакомую проблему и как минимум может разобраться в ситуации, попробовать разные стратегии, продолжить итерации после встречи с препятствиями;
- Затем этот агент развертывается в реальном мире и начинает выполнять реальную работу. Он может непрерывно работать неделю с пользователем, участвуя в проекте, не входящем в исходное распределение обучения;
- По окончании недели пользователь дает ему одобрение (thumbs up) или неодобрение (thumbs down) или даже пишет рабочую оценку. Если результат положительный, модель дистиллирует то, чему научилась в этой задаче, обратно в базовую модель. Этот процесс может использовать OPSD, dreaming или какую-то новую технологию, которой пока еще нет.
Как только этот путь будет пройден, границы возможностей ИИ больше не будут ограничиваться первоначальными «проверяемыми задачами».
Он сначала через RLVR может научиться программированию, математике, работе с веб-страницами, вызовам инструментов; затем через реальное развертывание — управлению организациями, бизнес-процессам, сложному взаимодействию; и, отталкиваясь от этого опыта, продолжать расширяться на смежные области.
Это также означает, что основной источник прогресса ИИ может измениться.
Раньше модель обучалась до выпуска, и пользователи просто ее использовали. Модель следующего поколения может быть такой: сначала до выпуска обучается базовый агент, после выпуска продолжает учиться на огромном количестве реальных задач. Каждое взаимодействие с пользователем, каждый выполненный реальный проект, каждая неудача и исправление могут стать материалом для следующего раунда повышения способностей.
Таким образом, «следующая парадигма обучения», о которой говорит Дваркеш, — это не просто утверждение, что модели должны быть больше, данных должно быть больше, RL должен быть сильнее.
Она действительно указывает на: переход ИИ от обучения до выпуска к обучению после выпуска; от человеческих данных к опыту взаимодействия со средой; от временной адаптации в контексте к долгосрочным способностям, заложенным в весах.
Самые важные обучающие данные для ИИ в будущем могут больше не быть просто существующими текстами в интернете или хорошо сконструированными проверяемыми задачами в лаборатории, а опытом, который ИИ сам накопит, выполняя реальные задачи в реальном мире.
Ссылки для справки:
https://x.com/dwarkesh_sp/status/2070551894674555081
Эта статья взята с официального аккаунта WeChat "Машина, подобная разуму" (ID:almosthuman2014), автор: внимание к обучению ИИ.








