6 парадигмальных сдвигов в ИИ к 2025 году: от обучения с подкреплением с верифицируемыми вознаграждениями и «виб-кодинга» до Nano banana

marsbitОпубликовано 2025-12-22Обновлено 2025-12-22

Введение

К 2025 году в развитии больших языковых моделей (LLM) произошли ключевые изменения. Основные парадигмальные сдвиги включают: 1. **RLVR (обучение с подкреплением на основе проверяемых вознаграждений)**: заменило RLHF, позволив моделям самостоятельно формировать стратегии «рассуждений» через оптимизацию в объективных областях (математика, программирование). 2. **«Призрачный» интеллект ИИ vs. «зубчатый» интеллект человека**: ИИ демонстрирует резкие скачки в возможностях на проверяемых задачах, но остаётся уязвимым в других областях, что подрывает доверие к бенчмаркам. 3. **Cursor как новая категория приложений**: вертикально-ориентированные платформы, которые организуют вызовы LLM, управляют контекстом и предоставляют интерфейсы для конкретных задач. 4. **Claude Code: локальные ИИ-агенты**: работают непосредственно на устройствах пользователей, интегрируясь с приватными данными и средой, что открывает новые формы взаимодействия. 5. **Vibe Coding (программирование по описанию):** ИИ позволяет создавать программы через текстовые описания, делая кодирование доступным даже для непрограммистов и расширяя возможности разработчиков. 6. **Nano banana: визуальный интерфейс для LLM**: переход от текстового взаимодействия к визуальному (изображения, диаграммы, анимации), что соответствует естественному для человека способу восприятия информации. Эти изменения переопределяют то, как ИИ обучается, применяется и взаимодействует с миром.

Автор: Andrej Karpathy

Компиляция: Tim, PANews

2025 год стал годом стремительного развития и перемен в области больших языковых моделей (LLM), принеся обильные плоды. Ниже представлены «парадигмальные сдвиги», которые, на мой личный взгляд, заслуживают внимания и оказались несколько неожиданными; они изменили ландшафт и произвели на меня глубокое впечатление, по крайней мере, на концептуальном уровне.

1. Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR)

В начале 2025 года стек технологий для производства LLM в большинстве AI-лабораторий в целом выглядел следующим образом:

Предварительное обучение (GPT-2/3, 2020 год);
Контролируемое тонкое обучение (InstructGPT, 2022 год);
и Обучение с подкреплением на основе человеческих предпочтений (RLHF, 2022 год).

Долгое время это был стабильный и зрелый технологический стек для обучения больших языковых моделей производственного уровня. К 2025 году обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало основной широко применяемой ключевой технологией. Обучая большие языковые модели в средах с множеством автоматически верифицируемых вознаграждений (например, решение математических и программистских задач), эти модели спонтанно формируют стратегии, которые человеку кажутся похожими на «рассуждения». Они учатся разбивать решение проблем на промежуточные вычислительные шаги и осваивают множество стратегий решения путём многократных итеративных рассуждений (см. примеры в статье DeepSeek-R1). В предыдущем стеке эти стратегии было трудно реализовать, поскольку для больших языковых моделей оптимальный путь рассуждений и механизмы backtracking'а не были очевидны — их приходилось исследовать через оптимизацию вознаграждения, чтобы найти подходящие решения.

В отличие от этапов контролируемого тонкого обучения и обучения с подкреплением на основе человеческих предпочтений (эти этапы относительно коротки и требуют меньших вычислительных затрат, являясь тонкой настройкой), обучение с подкреплением с верифицируемыми вознаграждениями предполагает длительное обучение с оптимизацией под объективные, не поддающиеся манипуляциям функции вознаграждения. Оказалось, что запуск RLVR даёт значительное повышение способностей на единицу затрат, что поглотило огромное количество вычислительных ресурсов, изначально запланированных для предварительного обучения. Следовательно, прогресс в возможностях больших языковых моделей в 2025 году в основном проявился в том, что крупные AI-лаборатории освоили огромные вычислительные потребности, вызванные этой новой технологией. В целом, мы видим, что масштабы моделей примерно сопоставимы, но время обучения с подкреплением значительно увеличилось. Ещё одна уникальная особенность этой новой технологии — мы получили совершенно новое измерение для регулирования (и соответствующие законы масштабирования), а именно: способность модели можно контролировать как функцию вычислительных затрат во время тестирования, генерируя более длинные цепочки рассуждений, увеличивая «время на размышление». Модель o1 от OpenAI (выпущена в конце 2024 года) стала первой демонстрацией модели на основе RLVR, а выпуск o3 (начало 2025 года) стал явным переломным моментом, позволившим直观но ощутить качественный скачок.

2. Призрачный интеллект vs. Зубчатый интеллект животных

2025 год заставил меня (и, я думаю, всю отрасль) впервые начать понимать «форму» интеллекта больших языковых моделей с более интуитивной точки зрения. Мы не «эволюционируем и не выращиваем животных», мы «призываем призраков». Весь технологический стек LLM (нейроархитектура, данные для обучения, алгоритмы обучения и, особенно, цели оптимизации) кардинально отличается, поэтому неудивительно, что мы получаем в сфере интеллекта сущности, радикально отличные от биологического интеллекта, и рассматривать их через призму животных неправильно. С точки зрения обучающей информации, человеческие нейронные сети оптимизированы для выживания в племенных условиях джунглей, а нейронные сети LLM оптимизированы для имитации человеческого текста, получения вознаграждения за решение математических головоломок и выигрыша одобрения людей на аренах. Поскольку верифицируемые области создали условия для RLVR, способности LLM в этих областях испытывают «резкие скачки», в целом демонстрируя интересную, зубчатую характеристику производительности. Они могут одновременно быть эрудированными гениями и озадаченными, когнитивно ограниченными школьниками, готовыми в любой момент при наводящем вопросе раскрыть ваши данные.

Человеческий интеллект: синий, ИИ-интеллект: красный. Мне нравится эта версия мема (извините, не могу найти оригинал в Twitter), потому что она указывает, что человеческий интеллект тоже по-своему имеет зубчатую, волнообразную форму.

Связано с этим то, что в 2025 году у меня развилось общее безразличие и недоверие к различным тестовым наборам (бенчмаркам). Ключевая проблема заключается в том, что по своей сути тестовые среды почти всегда являются верифицируемыми, поэтому они чрезвычайно подвержены влиянию RLVR и более слабых форм воздействия через генерацию синтетических данных. В типичном процессе «максимизации баллов» команды разработчиков LLM неизбежно создают учебные среды вблизи небольших участков вложенного пространства, где находятся бенчмарки, и покрывают эти области «зубцами способностей». «Обучение на тестовом наборе» стало новой нормой.

Что толку от того, что мы побеждаем во всех бенчмарках, но всё ещё не достигаем общего искусственного интеллекта?

3. Cursor: Новый уровень приложений на основе LLM

Что больше всего впечатлило меня в Cursor (помимо его стремительного взлёта в этом году), так это то, что он убедительно揭示л новый уровень «LLM-приложений», поскольку люди начали говорить о «Cursor для такой-то области». Как я подчеркнул в своём выступлении на Y Combinator в этом году, суть LLM-приложений, подобных Cursor, заключается в интеграции и оркестровке вызовов LLM для конкретной вертикали:

Они отвечают за «инженерию контекста»;
На низком уровне организуют множественные вызовы LLM во всё более сложные направленные ациклические графы, тонко балансируя между производительностью и стоимостью;
Предоставляют специфический для приложения графический интерфейс для человека в цикле;
И предоставляют «ползунок автономности».

В 2025 году велось много дискуссий о пространстве для развития вокруг этого emerging слоя приложений. Захват ли платформы больших языковых моделей все приложения, или для LLM-приложений ещё останется广阔ное пространство? Я лично предполагаю, что платформы LLM будут постепенно приближаться к роли «универсальных выпускников университетов», в то время как LLM-приложения будут организовывать этих «выпускников», проводить их тонкую настройку и, предоставляя приватные данные, сенсоры, исполнительные механизмы и петли обратной связи, превращать их в реальные «профессиональные команды», готовые к работе в конкретных вертикалях.

4. Claude Code: ИИ, работающий локально

Появление Claude Code впервые убедительно продемонстрировало форму LLM-агентов, которые циклически сочетают использование инструментов и процесс рассуждений для достижения более устойчивого решения сложных проблем. Кроме того, меня впечатлило в Claude Code то, что он работает на персональном компьютере пользователя, глубоко интегрируясь с его приватной средой, данными и контекстом. Я считаю, что OpenAI ошиблась в своих суждениях по этому направлению, поскольку сосредоточила усилия по разработке ассистентов по коду и агентов на облачном развёртывании — в контейнеризированных средах, оркестрируемых ChatGPT, а не на локальной среде localhost. Хотя кластеры агентов, работающие в облаке, кажутся «конечной формой на пути к AGI», мы сейчас находимся в переходной фазе с неравномерным развитием способностей и относительно медленным прогрессом. В этих реальных условиях развёртывание агентов непосредственно на локальном компьютере, в тесной координации с разработчиком и его конкретной рабочей средой, является более разумным путём. Claude Code точно уловил этот приоритет и воплотил его в виде简洁 (лаконичного), элегантного и чрезвычайно привлекательного инструмента командной строки, переосмыслив то, как представляется ИИ. Это больше не просто веб-сайт, который нужно посещать, как Google, а маленький дух или призрак, «живущий» в вашем компьютере. Это новая, уникальная парадигма взаимодействия с ИИ.

5. Vibe Coding (Виб-кодинг, атмосферное программирование)

В 2025 году ИИ пересёк ключевой порог возможностей, позволив создавать самые удивительные программы, просто описывая их на английском языке, при этом людям даже не нужно заботиться о лежащем в основе коде. Интересно, что я придумал термин «Vibe Coding» в случайном твите во время душа, совершенно не ожидая, что он разовьётся до нынешнего уровня. В парадигме Vibe Coding программирование перестало быть строго ограниченной областью высококвалифицированных профессионалов и стало доступным для всех. С этой точки зрения, это ещё один пример явления, описанного мной в статье «Расширение возможностей людей: как большие языковые модели меняют модель распространения технологий». В отличие от всех других технологий до сих пор, обычные люди получают от больших языковых моделей больше пользы, чем профессионалы, компании и правительства. Но Vibe Coding не только позволяет обычным людям приобщиться к программированию, но и позволяет профессиональным разработчикам создавать больше программ, которые «никогда бы не были реализованы». При разработке nanochat я использовал Vibe Coding, чтобы написать на Rust собственный эффективный BPE-токенизатор, не полагаясь на существующие библиотеки и не углубляясь в изучение Rust. В этом году я также быстро реализовал несколько прототипов проектов с помощью Vibe Coding, просто чтобы проверить, осуществимы ли некоторые идеи. Я даже написал целые одноразовые приложения только для того, чтобы локализовать конкретную ошибку, потому что код внезапно стал бесплатным, мимолетным, податливым, одноразовым. Vibe Coding переформатирует экосистему разработки программного обеспечения и глубоко изменит границы профессиональных определений.

6. Nano banana: Графический интерфейс для LLM

Gemini Nano banana от Google стал одним из самых disruptive парадигмальных сдвигов 2025 года. На мой взгляд, большие языковые модели являются следующей крупной вычислительной парадигмой после компьютеров 1970-80-х годов. Следовательно, мы увидим аналогичные инновации, основанные на схожих фундаментальных причинах, подобно эволюции персональных вычислений, микроконтроллеров и даже интернета. В частности, на уровне взаимодействия человека с компьютером, текущий «разговорный» режим общения с LLM в некотором роде похож на ввод команд в компьютерный терминал в 1980-х годах. Текст — это самое примитивное представление данных для компьютера (и LLM), но не предпочтительный способ для человека (особенно при вводе). Люди на самом деле не любят читать текст, это медленно и требует усилий. Вместо этого люди предпочитают получать информацию через визуальные и пространственные измерения, что и стало причиной появления графического пользовательского интерфейса в традиционных вычислениях. Аналогично, большие языковые модели должны общаться с нами в форме, предпочтительной для человека: через изображения, инфографику, слайды, доски, анимации, видео, веб-приложения и другие носители. Текущие ранние формы уже реализованы через смайлики и «визуальные текстовые украшения», такие как разметка Markdown (заголовки, жирный шрифт, списки, таблицы и другие элементы форматирования). Но кто же в конечном итоге построит графический интерфейс для LLM? С этой точки зрения, nano banana является ранним прототипом этого будущего. Стоит отметить, что прорыв nano banana заключается не только в самой возможности генерации изображений, но и в комплексной способности, возникающей из переплетения генерации текста, генерации изображений и знаний о мире внутри весов модели.

Трендовые криптовалюты

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

ZRX（0X）ZRX

PancakeSwapCAKE

Связанные с этим вопросы

QЧто такое RLVR (обучение с подкреплением на основе проверяемых вознаграждений) и как оно изменило процесс обучения больших языковых моделей в 2025 году?

ARLVR (Reinforcement Learning with Verifiable Rewards) — это метод обучения ИИ, при котором модели тренируются в средах с автоматически проверяемыми вознаграждениями (например, решение математических или программистских задач). В 2025 году RLVR стал ключевой технологией, заменив или дополнив традиционные этапы обучения, такие как предобучение, тонкая настройка с учителем и RLHF. Это позволило моделям развивать стратегии, напоминающие человеческое рассуждение, и значительно улучшило их способности, хотя и потребовало больших вычислительных ресурсов.

QЧто означает концепция 'Призрачный интеллект vs. Зубчатый интеллект животных' в контексте ИИ?

AКонцепция описывает разницу между интеллектом ИИ и биологическим интеллектом. 'Призрачный интеллект' ИИ оптимизирован для имитации текста, решения задач с чёткими правилами и получения одобрения человека, что создаёт неравномерную, 'зубчатую' кривую способностей — гениальность в одних областях и слабость в других. В отличие от этого, человеческий интеллект эволюционно оптимизирован для выживания в социальной среде и также имеет свои 'зубцы', но иного характера.

QКак Cursor представляет собой новый уровень приложений на основе больших языковых моделей (LLM)?

ACursor демонстрирует новый класс LLM-приложений, которые специализируются на конкретных вертикалях (например, программирование). Они организуют вызовы LLM в сложные графы, управляют контекстом, предоставляют интерфейсы для взаимодействия с человеком и позволяют настраивать уровень автономности. Это не просто платформа, а система', которая превращает 'универсальных выпускников' (базовые LLM) в 'специализированные команды' для конкретных задач.

QВ чём уникальность подхода Claude Code и почему он изменил представление о локальном ИИ?

AClaude Code — это ИИ-агент, который работает непосредственно на локальном компьютере пользователя, а не в облаке. Он интегрируется с личными данными, средой и контекстом пользователя, что обеспечивает более тесное и безопасное взаимодействие. Этот подход, реализованный в виде элегантной командной строки, изменил парадигму, представив ИИ не как удалённый сервис, а как 'локального духа', живущего в устройстве пользователя.

QЧто такое 'Vibe Coding' (атмосферное программирование) и как оно повлияло на разработку программного обеспечения в 2025 году?

AVibe Coding — это парадигма программирования, при которой программы создаются путём простого описания на естественном языке, без необходимости писать код вручную. В 2025 году ИИ достиг уровня, когда это стало возможным для широкого круга задач. Это демократизировало программирование, позволив непрофессионалам создавать ПО, а разработчикам — быстро прототипировать идеи и создавать 'одноразовые' приложения, что изменило границы профессии и экосистему разработки.

Похожее

Треугольник невозможного — это вообще псевдопроблема

Автор Билли Гао утверждает, что основное ограничение для массового внедрения блокчейн-технологий не в классической «трилемме» (масштабируемость, децентрализация, безопасность), а в двух фундаментальных недостатках: отсутствии легитимности и конфиденциальности. Несмотря на создание мощнейшей криптографической системы, все транзакции и балансы по умолчанию прозрачны для всех, что аналогично постоянному налогу из-за MEV (максимально извлекаемой стоимости) и препятствует входу институционального капитала. Блокчейн — это медленный, дорогой, но беспристрастный компьютер общего пользования, идеально подходящий для учета активов, которыми и является сам этот учет (например, деньги). Однако его реальное использование ограничивается узкой прослойкой пользователей, тогда как крупные фонды и обычные люди не могут его применять из-за юридических рисков и полной публичности финансовой деятельности. Первый недостаток — легитимность — начинает решаться через регулирование (например, закон GENIUS). Второй и главный — «прозрачность как налог» — требует внедрения конфиденциальности по умолчанию с помощью современных криптографических инструментов, таких как доказательства с нулевым разглашением. Это позволит доказывать соответствие правилам (например, платежеспособность или KYC), не раскрывая самих данных. Таким образом, добавление проверяемой конфиденциальности к децентрализованному консенсусу — это чистое улучшение, которое откроет блокчейн для триллионов долларов институциональных и частных капиталов, для которых он изначально и был предназначен.

marsbit6 ч. назад

Треугольник невозможного — это вообще псевдопроблема

marsbit6 ч. назад

Трилемма невозможности — это искусственная проблема

**Резюме: "Невозможный треугольник" — это псевдопроблема** Криптоиндустрия построила мощнейшую криптографическую систему, но она не обеспечивает приватности финансовых операций по умолчанию. Все транзакции и балансы публичны. Основная причина, по которой триллионы долларов не переходят на блокчейн — не в масштабируемости (старая "трилемма" решена), а в двух других, более фундаментальных недостатках: **легитимности и конфиденциальности**. **Легитимность**: Безграничный доступ (permissionless) создаёт правовую неопределённость для крупного капитала. Однако с появлением регуляторных рамок (например, закона GENIUS) этот барьер начинает снижаться. **Конфиденциальность (Приватность)**: Прозрачность блокчейна — это не преимущество, а **налог**. Публичность каждой позиции и транзакции приводит к потерям от MEV, фронтраннинга и слежки, что неприемлемо для институциональных инвесторов, фондов и обычных пользователей. Парадокс в том, что система, построенная на криптографии, не шифрует основную деятельность пользователей — их финансы. Однако современные криптографические примитивы (например, доказательства с нулевым разглашением — zk-SNARKs) позволяют решить эту проблему, не жертвуя проверяемостью (аудитом) или соблюдением норм (compliance). Можно доказать платёжеспособность, пройденный KYC или соответствие лимитам, не раскрывая самих данных. **Вывод**: Добавление **доказуемой приватности с возможностью контролируемого раскрытия информации** — это чистое улучшение текущей модели. Оно закрывает главные барьеры для институционального капитала, превращая блокчейн из "публичной таблицы" в конфиденциальный и легитимный расчётный слой, для которого он, по сути, и был предназначен. Только тогда наступит переход к массовому использованию.

链捕手6 ч. назад

Трилемма невозможности — это искусственная проблема

链捕手6 ч. назад

Оптические чипы: коллективное расширение производства

Рост спроса на оптические чипы для ИИ-инфраструктуры стимулирует глобальную волну расширения производственных мощностей. В США Coherent получает государственное финансирование для расширения завода по производству 6-дюймовых InP-пластин, а также заключает стратегические сделки с NVIDIA. Nokia наращивает мощности по тестированию и упаковке фотонных чипов. В Японии JX Advanced Metals инвестирует в увеличение производства InP-подложек в 7–10 раз. Европейские компании, такие как Tower Semiconductor и ST, активно расширяют производство кремниевой фотоники, заключая долгосрочные соглашения. Китай демонстрирует агрессивный рост: Soarse расширяет производство чипов и модулей, Sanan Photonics наращивает выпуск InP-чипов, а Yunnan Germanium увеличивает мощности по производству пластин. Основной движущей силой является растущая потребность ИИ-центров обработки данных в пропускной способности, что требует большего количества оптических компонентов независимо от того, будут ли использоваться традиционные съемные модули или перспективные технологии, такие как CPO, NPO или гибридные архитектуры. Гонка за лидерство в эпоху фотоники набирает обороты, поскольку США, Япония, Европа и Китай стремятся укрепить свои позиции в цепочке поставок.

marsbit8 ч. назад

Оптические чипы: коллективное расширение производства

marsbit8 ч. назад

1996 или 1999? Первым испытанием Уолша стало «Как смотреть на ИИ»

Назначенный председателем ФРС Вош столкнулся с ключевой дилеммой: как оценить текущий бум искусственного интеллекта? Экономисты разделились на два лагеря. Одни считают, что рост производительности благодаря ИИ скоро подавит инфляцию, позволяя ФРС бездействовать. Другие предупреждают, что спрос опережает предложение, и промедление с повышением ставок приведёт к необходимости более резких мер в будущем. Вош, судя по заявлениям, склоняется к подходу 1996 года, когда Алан Гринспен не стал повышать ставки во время бума производительности, что оказалось верным решением. Однако нынешняя ситуация отличается: растущие тарифы, большой дефицит бюджета и снижение выгод глобализации создают дополнительное инфляционное давление. Критики, такие как глава Чикагского ФРС Гулсби, утверждают, что ожидаемый всеми рост производительности от ИИ уже сейчас вызывает перегрев экономики, так как люди и компании увеличивают расходы в ожидании будущих выгод. Это требует более жёсткой денежно-кредитной политики. Оппоненты отмечают, что многие домохозяйства не могут брать кредиты под будущий рост доходов, что ослабляет этот эффект. Вош также сталкивается с парадоксом: он хочет отказаться от практики «прогнозирующего руководства» (forward guidance), установленной как раз в 1999 году для предупреждения рынков о ужесточении политики. Если экономика пойдёт по сценарию 1999 года, ему придётся либо использовать эту практику, либо рисковать вызвать рыночные потрясения молчанием. Таким образом, первый серьёзный вызов для Воша — определить, повторяет ли экономика оптимистичный сценарий 1996 года или ведёт к необходимости жёстких мер по образцу 1999 года. От этого выбора зависит не только ближайшая политика ФРС, но и его историческая репутация.

marsbit10 ч. назад

1996 или 1999? Первым испытанием Уолша стало «Как смотреть на ИИ»

marsbit10 ч. назад

Отчет по Ethereum за первый квартал 2026 года: снижение комиссий, рекордное количество пользователей и транзакций

В первом квартале 2026 года сеть Ethereum продемонстрировала парадоксальную динамику: количество активных пользователей, транзакций и пропускная способность достигли исторических максимумов, в то время как комиссии за транзакции, общая заблокированная стоимость (TVL), объем торгов и рыночная капитализация ETH снизились. Этот феномен объясняется стратегическим переходом к этапу «низких комиссий для роста масштаба» после обновления Fusaka, которое удешевило блок-пространство. Парадокс Джевонса проявляется в том, что снижение стоимости использования высвобождает новый спрос. Ключевой тренд — смещение нарратива от DeFi-платформы к глобальному расчетному слою для институциональных финансов. Ethereum сохраняет доминирующую позицию в сегментах стейблкоинов (61,8% среди топ-5 сетей), токенизированных фондов (73%) и товаров (84%), привлекающих таких гигантов, как BlackRock и JPMorgan. Инвестиции в масштабирование и снижение комиссий нацелены на укрепление сетевых эффектов и долгосрочную ценность ETH как базового актива для расчетов в цифровой экономике.

marsbit12 ч. назад

Отчет по Ethereum за первый квартал 2026 года: снижение комиссий, рекордное количество пользователей и транзакций