Автор: Andrej Karpathy
Компиляция: Tim, PANews
2025 год стал годом стремительного развития и перемен в области больших языковых моделей (LLM), принеся обильные плоды. Ниже представлены «парадигмальные сдвиги», которые, на мой личный взгляд, заслуживают внимания и оказались несколько неожиданными; они изменили ландшафт и произвели на меня глубокое впечатление, по крайней мере, на концептуальном уровне.
1. Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR)
В начале 2025 года стек технологий для производства LLM в большинстве AI-лабораторий в целом выглядел следующим образом:
- Предварительное обучение (GPT-2/3, 2020 год);
- Контролируемое тонкое обучение (InstructGPT, 2022 год);
- и Обучение с подкреплением на основе человеческих предпочтений (RLHF, 2022 год).
Долгое время это был стабильный и зрелый технологический стек для обучения больших языковых моделей производственного уровня. К 2025 году обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало основной широко применяемой ключевой технологией. Обучая большие языковые модели в средах с множеством автоматически верифицируемых вознаграждений (например, решение математических и программистских задач), эти модели спонтанно формируют стратегии, которые человеку кажутся похожими на «рассуждения». Они учатся разбивать решение проблем на промежуточные вычислительные шаги и осваивают множество стратегий решения путём многократных итеративных рассуждений (см. примеры в статье DeepSeek-R1). В предыдущем стеке эти стратегии было трудно реализовать, поскольку для больших языковых моделей оптимальный путь рассуждений и механизмы backtracking'а не были очевидны — их приходилось исследовать через оптимизацию вознаграждения, чтобы найти подходящие решения.
В отличие от этапов контролируемого тонкого обучения и обучения с подкреплением на основе человеческих предпочтений (эти этапы относительно коротки и требуют меньших вычислительных затрат, являясь тонкой настройкой), обучение с подкреплением с верифицируемыми вознаграждениями предполагает длительное обучение с оптимизацией под объективные, не поддающиеся манипуляциям функции вознаграждения. Оказалось, что запуск RLVR даёт значительное повышение способностей на единицу затрат, что поглотило огромное количество вычислительных ресурсов, изначально запланированных для предварительного обучения. Следовательно, прогресс в возможностях больших языковых моделей в 2025 году в основном проявился в том, что крупные AI-лаборатории освоили огромные вычислительные потребности, вызванные этой новой технологией. В целом, мы видим, что масштабы моделей примерно сопоставимы, но время обучения с подкреплением значительно увеличилось. Ещё одна уникальная особенность этой новой технологии — мы получили совершенно новое измерение для регулирования (и соответствующие законы масштабирования), а именно: способность модели можно контролировать как функцию вычислительных затрат во время тестирования, генерируя более длинные цепочки рассуждений, увеличивая «время на размышление». Модель o1 от OpenAI (выпущена в конце 2024 года) стала первой демонстрацией модели на основе RLVR, а выпуск o3 (начало 2025 года) стал явным переломным моментом, позволившим直观но ощутить качественный скачок.
2. Призрачный интеллект vs. Зубчатый интеллект животных
2025 год заставил меня (и, я думаю, всю отрасль) впервые начать понимать «форму» интеллекта больших языковых моделей с более интуитивной точки зрения. Мы не «эволюционируем и не выращиваем животных», мы «призываем призраков». Весь технологический стек LLM (нейроархитектура, данные для обучения, алгоритмы обучения и, особенно, цели оптимизации) кардинально отличается, поэтому неудивительно, что мы получаем в сфере интеллекта сущности, радикально отличные от биологического интеллекта, и рассматривать их через призму животных неправильно. С точки зрения обучающей информации, человеческие нейронные сети оптимизированы для выживания в племенных условиях джунглей, а нейронные сети LLM оптимизированы для имитации человеческого текста, получения вознаграждения за решение математических головоломок и выигрыша одобрения людей на аренах. Поскольку верифицируемые области создали условия для RLVR, способности LLM в этих областях испытывают «резкие скачки», в целом демонстрируя интересную, зубчатую характеристику производительности. Они могут одновременно быть эрудированными гениями и озадаченными, когнитивно ограниченными школьниками, готовыми в любой момент при наводящем вопросе раскрыть ваши данные.
Человеческий интеллект: синий, ИИ-интеллект: красный. Мне нравится эта версия мема (извините, не могу найти оригинал в Twitter), потому что она указывает, что человеческий интеллект тоже по-своему имеет зубчатую, волнообразную форму.
Связано с этим то, что в 2025 году у меня развилось общее безразличие и недоверие к различным тестовым наборам (бенчмаркам). Ключевая проблема заключается в том, что по своей сути тестовые среды почти всегда являются верифицируемыми, поэтому они чрезвычайно подвержены влиянию RLVR и более слабых форм воздействия через генерацию синтетических данных. В типичном процессе «максимизации баллов» команды разработчиков LLM неизбежно создают учебные среды вблизи небольших участков вложенного пространства, где находятся бенчмарки, и покрывают эти области «зубцами способностей». «Обучение на тестовом наборе» стало новой нормой.
Что толку от того, что мы побеждаем во всех бенчмарках, но всё ещё не достигаем общего искусственного интеллекта?
3. Cursor: Новый уровень приложений на основе LLM
Что больше всего впечатлило меня в Cursor (помимо его стремительного взлёта в этом году), так это то, что он убедительно揭示л новый уровень «LLM-приложений», поскольку люди начали говорить о «Cursor для такой-то области». Как я подчеркнул в своём выступлении на Y Combinator в этом году, суть LLM-приложений, подобных Cursor, заключается в интеграции и оркестровке вызовов LLM для конкретной вертикали:
- Они отвечают за «инженерию контекста»;
- На низком уровне организуют множественные вызовы LLM во всё более сложные направленные ациклические графы, тонко балансируя между производительностью и стоимостью;
- Предоставляют специфический для приложения графический интерфейс для человека в цикле;
- И предоставляют «ползунок автономности».
В 2025 году велось много дискуссий о пространстве для развития вокруг этого emerging слоя приложений. Захват ли платформы больших языковых моделей все приложения, или для LLM-приложений ещё останется广阔ное пространство? Я лично предполагаю, что платформы LLM будут постепенно приближаться к роли «универсальных выпускников университетов», в то время как LLM-приложения будут организовывать этих «выпускников», проводить их тонкую настройку и, предоставляя приватные данные, сенсоры, исполнительные механизмы и петли обратной связи, превращать их в реальные «профессиональные команды», готовые к работе в конкретных вертикалях.
4. Claude Code: ИИ, работающий локально
Появление Claude Code впервые убедительно продемонстрировало форму LLM-агентов, которые циклически сочетают использование инструментов и процесс рассуждений для достижения более устойчивого решения сложных проблем. Кроме того, меня впечатлило в Claude Code то, что он работает на персональном компьютере пользователя, глубоко интегрируясь с его приватной средой, данными и контекстом. Я считаю, что OpenAI ошиблась в своих суждениях по этому направлению, поскольку сосредоточила усилия по разработке ассистентов по коду и агентов на облачном развёртывании — в контейнеризированных средах, оркестрируемых ChatGPT, а не на локальной среде localhost. Хотя кластеры агентов, работающие в облаке, кажутся «конечной формой на пути к AGI», мы сейчас находимся в переходной фазе с неравномерным развитием способностей и относительно медленным прогрессом. В этих реальных условиях развёртывание агентов непосредственно на локальном компьютере, в тесной координации с разработчиком и его конкретной рабочей средой, является более разумным путём. Claude Code точно уловил этот приоритет и воплотил его в виде简洁 (лаконичного), элегантного и чрезвычайно привлекательного инструмента командной строки, переосмыслив то, как представляется ИИ. Это больше не просто веб-сайт, который нужно посещать, как Google, а маленький дух или призрак, «живущий» в вашем компьютере. Это новая, уникальная парадигма взаимодействия с ИИ.
5. Vibe Coding (Виб-кодинг, атмосферное программирование)
В 2025 году ИИ пересёк ключевой порог возможностей, позволив создавать самые удивительные программы, просто описывая их на английском языке, при этом людям даже не нужно заботиться о лежащем в основе коде. Интересно, что я придумал термин «Vibe Coding» в случайном твите во время душа, совершенно не ожидая, что он разовьётся до нынешнего уровня. В парадигме Vibe Coding программирование перестало быть строго ограниченной областью высококвалифицированных профессионалов и стало доступным для всех. С этой точки зрения, это ещё один пример явления, описанного мной в статье «Расширение возможностей людей: как большие языковые модели меняют модель распространения технологий». В отличие от всех других технологий до сих пор, обычные люди получают от больших языковых моделей больше пользы, чем профессионалы, компании и правительства. Но Vibe Coding не только позволяет обычным людям приобщиться к программированию, но и позволяет профессиональным разработчикам создавать больше программ, которые «никогда бы не были реализованы». При разработке nanochat я использовал Vibe Coding, чтобы написать на Rust собственный эффективный BPE-токенизатор, не полагаясь на существующие библиотеки и не углубляясь в изучение Rust. В этом году я также быстро реализовал несколько прототипов проектов с помощью Vibe Coding, просто чтобы проверить, осуществимы ли некоторые идеи. Я даже написал целые одноразовые приложения только для того, чтобы локализовать конкретную ошибку, потому что код внезапно стал бесплатным, мимолетным, податливым, одноразовым. Vibe Coding переформатирует экосистему разработки программного обеспечения и глубоко изменит границы профессиональных определений.
6. Nano banana: Графический интерфейс для LLM
Gemini Nano banana от Google стал одним из самых disruptive парадигмальных сдвигов 2025 года. На мой взгляд, большие языковые модели являются следующей крупной вычислительной парадигмой после компьютеров 1970-80-х годов. Следовательно, мы увидим аналогичные инновации, основанные на схожих фундаментальных причинах, подобно эволюции персональных вычислений, микроконтроллеров и даже интернета. В частности, на уровне взаимодействия человека с компьютером, текущий «разговорный» режим общения с LLM в некотором роде похож на ввод команд в компьютерный терминал в 1980-х годах. Текст — это самое примитивное представление данных для компьютера (и LLM), но не предпочтительный способ для человека (особенно при вводе). Люди на самом деле не любят читать текст, это медленно и требует усилий. Вместо этого люди предпочитают получать информацию через визуальные и пространственные измерения, что и стало причиной появления графического пользовательского интерфейса в традиционных вычислениях. Аналогично, большие языковые модели должны общаться с нами в форме, предпочтительной для человека: через изображения, инфографику, слайды, доски, анимации, видео, веб-приложения и другие носители. Текущие ранние формы уже реализованы через смайлики и «визуальные текстовые украшения», такие как разметка Markdown (заголовки, жирный шрифт, списки, таблицы и другие элементы форматирования). Но кто же в конечном итоге построит графический интерфейс для LLM? С этой точки зрения, nano banana является ранним прототипом этого будущего. Стоит отметить, что прорыв nano banana заключается не только в самой возможности генерации изображений, но и в комплексной способности, возникающей из переплетения генерации текста, генерации изображений и знаний о мире внутри весов модели.







