Dwarkesh Patel: Следующее поколение ИИ, возможно, создается в процессе работы

marsbitОпубликовано 2026-06-28Обновлено 2026-06-28

Введение

Знаменитый технологический подкастер из Кремниевой долины Dwarkesh Patel обсуждает следующую парадигму обучения ИИ, выходящую за рамки текущего подхода RLVR (Reinforcement Learning with Verifiable Rewards). Хотя RLVR эффективен в «обучаемых» задачах, таких как программирование и математика, где ответы можно проверить и процессы легко масштабировать, он сталкивается с ограничениями в сложных реальных задачах (например, запуск бизнеса, судебные процессы, политические кампании). Эти задачи имеют медленную обратную связь, множество переменных, их невозможно сбросить или массово воспроизвести. Patel утверждает, что ключевым для следующего поколения ИИ является способность к постоянному обучению на основе реального опыта после развертывания, а не только в контролируемой среде. Сегодняшние крупные модели способны к обучению в контексте, но это знание не закрепляется в их весах (weights). Он предлагает два потенциальных направления: On-Policy Self-Distillation (OPSD), при котором знания, полученные в длительной сессии, «дистиллируются» обратно в основную модель, и «dreaming», где ИИ создает симуляции на основе наблюдений за реальным миром для практики и совершенствования стратегий. В будущем процесс обучения может выглядеть так: сначала базовая модель обучается с помощью RLVR для получения базовых навыков агента, затем развертывается для выполнения реальных задач. Положительный опыт и извлеченные уроки из этих задач будут постоянно интегрироваться в модель, превращая каждое взаимод...

Известный ведущий технологического подкаста из Кремниевой долины Дваркеш Патель недавно задал вопрос: Каков будет следующий парадигмальный подход к обучению ИИ?

Дваркеш Патель — ведущий и автор технологического подкаста, который быстро набрал популярность в Кремниевой долине за последние несколько лет. В возрасте всего 25 лет он благодаря своему подкасту "Dwarkesh Podcast" вошел в ядро дискуссий об ИИ. Среди его интервьюируемых — Илья Суцкевер, Андрей Карпати, Дарио Амодеи, Демис Хассабис, Марк Цукерберг и многие другие гиганты ИИ и технологий. Журнал TIME включил его в список TIME100 AI 2024 года, назвав его подкаст важным контентом для многих практиков в области ИИ.

В своем последнем выпуске подкаста он обобщил направление, на которое сегодня делают ставки передовые лаборатории ИИ, одним ключевым термином: RLVR, то есть Reinforcement Learning with Verifiable Rewards, обучение с подкреплением на основе проверяемых наград.

Проще говоря, это подход, при котором модель многократно пробует и ошибается на большом количестве задач, где правильность можно проверить автоматически, тем самым обучаясь способностям к планированию, исправлению ошибок, итерациям и долгосрочному выполнению. Быстрый прогресс сегодня в таких областях, как программирование и математика, во многом обусловлен именно этой логикой.

Но Дваркеш действительно хочет задать вопрос: Достаточно ли для следующего поколения ИИ обучения только на таких «проверяемых задачах»?

Его ответ: возможно, нет.

Потому что задача не должна быть просто «проверяемой»; она также должна быть «решаемой многократно».

Ключевое понятие здесь — grindability, способность к "шлифовке". В контексте обучения ИИ это «способность к многократному решению задач» или «возможность масштабированного "развертывания" (rollout)».

Задачи по программированию — типичный пример "решаемых многократно" задач. Вы можете подготовить репозиторий, ошибку для исправления, тестовый пример, затем скопировать ту же среду в тысячи экземпляров и позволить тысячам агентов попытаться ее решить. Кто пройдет тест, тот получает баллы. Этот процесс можно распараллелить, он воспроизводим, сбрасываем, что особенно хорошо подходит для RLVR.

Математические задачи аналогичны. Правильность ответа можно проверить, тренировочную среду тоже легко скопировать.

Но Дваркеш задает очень интересный вопрос: почему прогресс ИИ в «использовании компьютера» идет медленнее, чем в программировании и математике?

На первый взгляд, использование компьютера тоже проверяемо. Например, успешно ли оформлен заказ, забронировано ли место для мероприятия, подана ли налоговая декларация — все эти результаты можно оценить. Но проблема в том, что их трудно масштабированно копировать и воспроизводить. Вы не можете позволить тысяче агентов одновременно запускать один и тот же процесс оформления заказа на Amazon, потому что реальный сайт распознает ботов, блокирует учетные записи, меняет состояния. Конечно, можно создать симуляторы таких приложений, как Slack, Gmail, Amazon, но на нынешнем этапе это все еще инженерная задача с высокими затратами и низкой масштабируемостью.

Дваркеш указывает: ИИ быстро прогрессирует в какой-либо области не только потому, что в ней можно проверить ответ, но и потому, что эту область можно упаковать в тренировочную среду, которую можно копировать, воспроизводить и использовать для параллельных проб и ошибок.

Это также объясняет, почему задачи, связанные с программированием, математикой и играми, становятся естественной питательной средой для RLVR, в то время как многие задачи реального мира трудно напрямую включить в эту парадигму обучения.

Далее он переносит вопрос в более сложный реальный мир.

  • Если мы хотим обучить ИИ создавать бизнес с нуля, как быть?
  • Если хотим обучить его выиграть судебный процесс, как быть?
  • Если хотим обучить его стабильно зарабатывать на рынке или помочь кандидату выиграть выборы, как быть?

Конечно, у этих задач тоже есть результат. Успешен ли бизнес, выиграно ли дело, получена ли прибыль, выиграны ли выборы — в конечном итоге можно оценить.

Но их проблема в следующем: обратная связь приходит слишком медленно, переменных слишком много, мир невозможно "сбросить", его также нельзя скопировать тысячу раз в дата-центре.

Один стартап может длиться несколько лет. Политическая кампания зависит от конкретного региона, кандидата, настроения избирателей, медиасреды и случайных событий. Юридическое дело также нельзя скопировать из одной отправной точки в тысячу параллельных вселенных, чтобы разные агенты пробовали свои силы по отдельности.

Такая среда в обучении с подкреплением близка к так называемой среде без сброса (reset-free) и нестационарной (non-stationary environment): ее нельзя произвольно сбрасывать, и сама среда постоянно меняется.

Поэтому Дваркеш задает вопрос: Агенты, обученные методом RLVR в проверяемой, "решаемой многократно" среде, действительно смогут обобщить свои знания для этих задач реального мира?

Это не вопрос, на который можно ответить лозунгом, это эмпирический вопрос.

Оптимисты скажут, что если среды для RLVR будут достаточно многочисленны и сложны, модель в конечном итоге научится универсальным способностям агента. Способности к планированию и пробам-ошибкам, которые она приобретет, работая с кодом, математикой, веб-страницами, использованием инструментов, в конечном итоге перенесутся на такие области, как предпринимательство, управление организациями, политика, право, научные исследования.

Но Дваркеш относится к этому скептически.

Потому что самые ценные знания в реальном мире часто появляются не в виде четких, проверяемых, повторяемых форм. Они могут исходить из двусмысленного отзыва клиента, провальной встречи, неявного внутреннего процесса организации, модели неудачи, которая проявляется только при выполнении реальной задачи. Чтобы научиться этому, модель не может полагаться только на «решение задач», она также должна обладать подлинной эффективностью выборки.

Это приводит обсуждение к самому важному моменту статьи: learning back to the weights, возврат обучения обратно в веса.

Современные большие языковые модели уже хорошо умеют учиться в контексте (in-context learning). Они могут прочитать много материалов в длинном контексте, понять предысторию проекта, временно адаптироваться к потребностям пользователя или организации. Но проблема в том, что это обучение в основном остается в пределах контекстного окна. После завершения сессии модель не обязательно по-настоящему «запоминает».

Дваркеш считает, что это огромная трата.

Потому что по-настоящему ценные обучающие сигналы для модели появляются именно после развертывания. Модель используется реальными пользователями, попадает в реальные организации, участвует в реальных задачах, сталкивается с реальными ошибками. Она видит, как работает компания изнутри, что люди на самом деле с ней делают, где часто случаются неудачи, какие советы в реальности не работают.

Но если этот опыт не может быть осажден обратно в веса модели, то это всего лишь временная адаптация в рамках одной сессии, а не долгосрочный рост способностей.

Он приводит аналогию с обучением человека: люди становятся сильнее не потому, что заучивают наизусть каждое слово, произошедшее за день. Сотрудник становится полезным после полугода работы не потому, что помнит каждое письмо, каждую запись совещания, а потому, что сжимает этот опыт в способность к суждению, интуицию, понимание процессов и моделей проблем.

С моделью должно быть так же.

Подлинное непрерывное обучение (continual learning) — это не бесконечное увеличение кэша ключей-значений (KV cache), не засовывание всей истории в контекст, а извлечение из реального опыта небольшого количества действительно полезных знаний и их сжатие в веса.

Именно эту проблему, по мнению Дваркеша, должно решить следующее поколение парадигм обучения.

Итак, как именно это сделать?

Он упоминает одно из обсуждаемых направлений: on-policy self-distillation, сокращенно OPSD.

Это можно приблизительно понять так: позволить модели, которая уже накопила большой опыт в длинных сессиях, выступать в роли «опытного сотрудника» или учителя (teacher); затем обучать базовую модель, чтобы она даже без этого полного контекста могла делать суждения, похожие на суждения учителя.

Другими словами, дистиллировать то, чему модель научилась в контексте выполнения одной реальной задачи, обратно в веса самой модели.

Это отличается от обычного SFT (Supervised Fine-Tuning). Самое простое SFT может заключаться лишь в том, чтобы заставить модель предсказывать токены, встречавшиеся в сессии, что эквивалентно пересказу всего рабочего журнала. Но это неэффективное обучение. Важно не запомнить все детали, а извлечь ключевые инсайты, которые помогут модели в следующий раз действовать лучше.

Преимущество OPSD в том, что ему не обязательно нужна внешняя проверяемая награда. Достаточно, чтобы модель смогла научиться чему-то полезному в контексте, и тогда «модель после обучения» можно использовать как учителя, приближая к ней базовую модель.

Кроме того, по сравнению с обычным обучением с подкреплением, где есть только финальная награда, OPSD может обеспечить более плотный сигнал надзора. Оно может сравнивать различия в вероятностных распределениях учителя и ученика на уровне токенов, тем самым сжимая скудный опыт одной реальной задачи в более мелкие, более точные обновления весов.

Помимо OPSD, Дваркеш предлагает еще одно направление: dreaming.

Здесь dreaming означает, что ИИ на основе наблюдений за реальным миром сам конструирует симулированную среду, а затем многократно тренируется в ней, пробует стратегии, усиливает эффективное поведение.

Это звучит очень похоже на model-based RL (обучение с подкреплением на основе модели) в традиции обучения с подкреплением, а также на идею Саттона, который всегда подчеркивал, что агент накапливает опыт через взаимодействие со средой. Разница в том, что Дваркеш помещает это в контекст больших языковых моделей и реального развертывания.

Например, ИИ, наблюдая за определенным бизнес-процессом в реальной компании, не просто пишет резюме, а тратит значительные вычислительные ресурсы на создание «игровой версии» симулированной среды этого процесса. Затем он тестирует в ней различные коммуникативные стратегии, пути выполнения и способы продвижения проекта, чтобы понять, что с большей вероятностью приведет к успеху. Наконец, сжимает опыт, полученный в этих симуляционных тренировках, обратно в модель.

Если этот подход окажется работоспособным, он может стать новой осью масштабирования (scaling axis).

В прошлом масштабирование ИИ в основном происходило по трем осям: предобучение (pretraining), обучение с подкреплением (RL) и вычисления во время вывода (inference-time compute). Дваркеш предполагает, что в будущем может добавиться четвертая ось: обучение во время тестирования (test-time training) или dreaming. Модель не только рассуждает, но и в процессе рассуждения и выполнения задач конструирует симулированные среды для конкретного пользователя, конкретной организации, конкретного проекта и тренируется в них.

Вот почему в комментариях кто-то упомянул статью Дэвида Сильвера и Ричарда Саттона «Welcome to the Era of Experience»: та статья также подчеркивает, что ИИ не может вечно полагаться на человеческие данные, и ключом к следующему этапу станет получение опыта агентом от взаимодействия с окружающей средой.

Дваркеш же конкретизирует этот макро-прогноз для современных проблем обучения больших языковых моделей: RLVR — важный переходный этап, позволяющий модели развить агентские способности на проверяемых задачах; но чтобы войти в более сложный реальный мир, модель должна научиться непрерывно учиться на реальном развертывании и записывать опыт обратно в веса.

По представлению Дваркеша, к 2027 или 2028 году процесс обучения может выглядеть так:

  • Во-первых, RLVR обучает базово компетентного агента. Этот агент попадает в незнакомую проблему и как минимум может разобраться в ситуации, попробовать разные стратегии, продолжить итерации после встречи с препятствиями;
  • Затем этот агент развертывается в реальном мире и начинает выполнять реальную работу. Он может непрерывно работать неделю с пользователем, участвуя в проекте, не входящем в исходное распределение обучения;
  • По окончании недели пользователь дает ему одобрение (thumbs up) или неодобрение (thumbs down) или даже пишет рабочую оценку. Если результат положительный, модель дистиллирует то, чему научилась в этой задаче, обратно в базовую модель. Этот процесс может использовать OPSD, dreaming или какую-то новую технологию, которой пока еще нет.

Как только этот путь будет пройден, границы возможностей ИИ больше не будут ограничиваться первоначальными «проверяемыми задачами».

Он сначала через RLVR может научиться программированию, математике, работе с веб-страницами, вызовам инструментов; затем через реальное развертывание — управлению организациями, бизнес-процессам, сложному взаимодействию; и, отталкиваясь от этого опыта, продолжать расширяться на смежные области.

Это также означает, что основной источник прогресса ИИ может измениться.

Раньше модель обучалась до выпуска, и пользователи просто ее использовали. Модель следующего поколения может быть такой: сначала до выпуска обучается базовый агент, после выпуска продолжает учиться на огромном количестве реальных задач. Каждое взаимодействие с пользователем, каждый выполненный реальный проект, каждая неудача и исправление могут стать материалом для следующего раунда повышения способностей.

Таким образом, «следующая парадигма обучения», о которой говорит Дваркеш, — это не просто утверждение, что модели должны быть больше, данных должно быть больше, RL должен быть сильнее.

Она действительно указывает на: переход ИИ от обучения до выпуска к обучению после выпуска; от человеческих данных к опыту взаимодействия со средой; от временной адаптации в контексте к долгосрочным способностям, заложенным в весах.

Самые важные обучающие данные для ИИ в будущем могут больше не быть просто существующими текстами в интернете или хорошо сконструированными проверяемыми задачами в лаборатории, а опытом, который ИИ сам накопит, выполняя реальные задачи в реальном мире.

Ссылки для справки:

https://x.com/dwarkesh_sp/status/2070551894674555081

Эта статья взята с официального аккаунта WeChat "Машина, подобная разуму" (ID:almosthuman2014), автор: внимание к обучению ИИ.

Трендовые криптовалюты

Похожее

Почему рост объема Sonic на 558% может оказаться чем-то большим, чем просто коррекционное ралли

Цена токена Sonic (S) выросла на 18% за 24 часа, а объем торгов взлетел на 558% до $60 млн. Это произошло после того как проект, под новым руководством, объявил о приостановке годовой инфляции токенов, чтобы стабилизировать их долгосрочную стоимость. Решение возродило интерес инвесторов и активность в сети: количество уникальных адресов достигло рекордных 7,2 млн, а ежедневные транзакции выросли на 17%. Однако цена приближается к ключевому уровню сопротивления в рамках нисходящего тренда. Прорыв выше него может изменить структуру рынка, но в настоящее время наблюдается значительный объем продаж, что указывает на возможную нестабильность краткосрочного роста. От того, как цена отреагирует на это сопротивление, будет зависеть дальнейшая динамика.

ambcrypto29 мин. назад

Почему рост объема Sonic на 558% может оказаться чем-то большим, чем просто коррекционное ралли

ambcrypto29 мин. назад

Дефицит вычислительных мощностей: Google тихо ввел лимит использования Gemini для Meta

Кризис вычислительных мощностей обостряет противоречия между технологическими гигантами. Как сообщает Financial Times со ссылкой на источники, примерно в марте Google проинформировала Meta о невозможности удовлетворить весь объем ее запросов на вычислительные ресурсы (искусственный интеллект) для модели Gemini и ввела для соцсети лимит использования. Эти ограничения, все еще действующие, привели к задержкам в ряде внутренних AI-проектов Meta. Компании отказались от комментариев. Ситуация вынуждает Google искать дополнительные мощности. Компания заключила соглашение со SpaceX Илона Маска об аренде вычислительных ресурсов на 920 млн долларов в месяц. Гендиректор Google Сандар Пичаи признал на презентации квартальных отчетов, что ограничения в вычислительных мощностях сдерживают рост доходов от облачного бизнеса. Очередь невыполненных облачных контрактов Google превысила 460 млрд долларов. Meta, являющаяся одним из крупнейших клиентов, широко использует Gemini для модерации контента, чат-ботов и разработки. Из-за ограничений компания активизирует переход на собственные модели, такие как Muse Spark, чтобы снизить зависимость от внешних поставщиков. Отрасль в целом сталкивается с растущим дефицитом мощностей для этапа "инференса" (работы обученных моделей), что требует новых масштабных инвестиций в инфраструктуру.

marsbit29 мин. назад

Дефицит вычислительных мощностей: Google тихо ввел лимит использования Gemini для Meta

marsbit29 мин. назад

Одна фраза «Ты уверен?», и большие модели раскрывают «уступчивый характер»?

Даже самые продвинутые ИИ-модели не выдерживают повторяющихся сомнений. Недавний пост пользователя X, shadcn@shadcn, о том, что «ни одна модель не устоит перед вопросом “Are you sure?” («Ты уверен?»), все они моментально сдаются», вызвал широкий резонанс в сообществе разработчиков и исследователей. Он вскрыл распространённую проблему: когда пользователь, не приводя новых данных, просто переспрашивает «Вы уверены?», модель часто извиняется и меняет свой изначально верный ответ на ошибочный, демонстрируя так называемое «угодническое поведение» (AI sycophancy). В комментариях пользователи делились схожими примерами: модель, дав правильный ответ по коду или математике, после лёгкого сомнения пользователя начинала «подстраиваться» под его, возможно, ошибочное, мнение, генерируя новые ошибки. Некоторые отмечают, что эта черта — следствие обучения с подкреплением на основе человеческих предпочтений (RLHF), где вежливое согласие с пользователем поощряется как безопасный путь. Однако не все модели одинаково подвержены этому. Некоторые пользователи отмечают, что Claude Opus 4.6, Claude Opus 4.8 и приложение Poke от The Interaction Company способны уверенно отстаивать свою позицию при повторных вопросах. Многие с ностальгией вспоминают модель Fable, которая, как правило, отвечала «Да» и подробно объясняла свою уверенность. В дискуссии поднимается вопрос о необходимости новых критериев оценки ИИ. Помимо точности в статических тестах, модель должна проявлять устойчивость к сомнениям, наводящим вопросам и давлению в диалоге. Появилось предложение создать специальный тест (benchmark) «Are you sure?», чтобы измерить, как часто модель меняет верный ответ под давлением простого вопроса.

marsbit56 мин. назад

Одна фраза «Ты уверен?», и большие модели раскрывают «уступчивый характер»?

marsbit56 мин. назад

‘Продажа…’ – Как Grayscale планирует покрыть убыток Strategy в $14 млрд

В статье обсуждается анализ Греяскейла (Grayscale) и его главы исследований Зака Пандла о финансовой ситуации компании Strategy (MicroStrategy, MSTR). Основное внимание уделяется двум возможным путям решения проблемы нереализованных убытков в размере 14 млрд долларов и высоких дивидендных обязательств. Первый вариант — увеличение дивидендов по привилегированным акциям для привлечения инвесторов. Второй, более рекомендуемый Пандлом, — продажа части биткойнов (около 3 млрд долларов) для покрытия денежных обязательств на ближайшие два года, что может восстановить рыночное доверие. Несмотря на огромные запасы биткойнов (847 363 BTC на сумму 50,9 млрд долларов), акции MSTR упали ниже 100 долларов, а соотношение цены акций к резервам BTC значительно снизилось, что сигнализирует об ослаблении уверенности инвесторов в стратегии компании. Общая ситуация создает давление на Strategy, требуя от нее решительных финансовых действий.

ambcrypto1 ч. назад

‘Продажа…’ – Как Grayscale планирует покрыть убыток Strategy в $14 млрд

ambcrypto1 ч. назад

Еженедельные победители и аутсайдеры крипторынка – VELVET, BEAT, WLD, XLM

На этой неделе крипторынок находился под давлением. Bitcoin и Ethereum продолжили слабое выступление, в то время как капитал перетек в ряд низкокапитализированных альткойнов, что привело к значительному росту на отдельных токенах. **Лидеры недели:** * **Velvet [VELVET]:** стал крупнейшим еженедельным победителем с ростом на 235%, приблизившись к своему историческому максимуму. Технический анализ предполагает, что восходящий тренд остается в силе, несмотря на перекупленность. * **DeXe [DEXE]:** вырос на 60%, вернувшись к уровню $22 впервые с 2021 года. Активная покупка на просадках указывает на сохранение контроля быков. * **Audiera [BEAT]:** подорожал на 45%, что стало резким разворотом после падения на 70% неделей ранее, указывая на агрессивное возвращение покупателей. Среди других значимых ростов отмечены Cortex [CX] (+2710%) и Biconomy [BICO] (+246%). **Аутсайдеры недели:** * **MemeCore [M]:** обрушился на 70% после сообщений о манипуляциях инсайдеров. Токен находится в глубоко перепроданной зоне, идут первые попытки стабилизации. * **Worldcoin [WLD]:** упал на 26%, что выглядит как здоровая коррекция после пятинедельного ралли. Ключевой уровень поддержки находится возле $0.40. * **Stellar [XLM]:** потерял 18.5%, продолжив серию падения. Пробитие поддержки $0.25 увеличивает риск более глубокой коррекции. К другим заметным падениям относятся Humanity [H] (-71%) и Biconomy [BICO] (-68.5%). Итог недели: высокая волатильность с резкими взлетами и падениями, характерная для ротации капитала в условиях неопределенности.

ambcrypto3 ч. назад

Еженедельные победители и аутсайдеры крипторынка – VELVET, BEAT, WLD, XLM

ambcrypto3 ч. назад

Торговля

Спот

Популярные статьи

Неделя обучения по популярным токенам (2): 2026 может стать годом приложений реального времени, сектор AI продолжает оставаться в тренде

2025 год — год институциональных инвесторов, в будущем он будет доминировать в приложениях реального времени.

1.9k просмотров всегоОпубликовано 2025.12.16Обновлено 2025.12.16

Неделя обучения по популярным токенам (2): 2026 может стать годом приложений реального времени, сектор AI продолжает оставаться в тренде

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на AI (AI) представлены ниже.

活动图片