3B-модель поставила рекорд в программировании наравне с Opus 4.5: китайская модель вызвала горячие споры

marsbitОпубликовано 2026-06-18Обновлено 2026-06-18

Введение

В последние дни небольшая модель VibeThinker-3B (3 миллиарда параметров) привлекла большое внимание, продемонстрировав результаты, сопоставимые с передовыми крупными моделями, такими как GPT-5 high и Claude Opus 4.5, в задачах верифицируемого рассуждения — программировании, математике и STEM. Разработанная командой Weibo (Sina), она основана на Qwen2.5-Coder-3B и использует усовершенствованный конвейер Spectrum-to-Signal, включая обучение с подкреплением (RL) и дистилляцию. Модель показала выдающиеся результаты: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 на LiveCodeBench v6 и 96.1% успеха в свежих соревнованиях LeetCode. Метод Claim-Level Reliability (CLR) ещё повысил её точность. Важным выводом работы является «гипотеза параметрического сжатия»: возможности верифицируемого рассуждения (логика, проверка) могут быть эффективно сжаты в компактной модели, в отличие от общих знаний, требующих больших параметров. Это указывает на частичное разделение рассуждений и фактологических знаний. Цель авторов — не замена больших моделей, а исследование предела малых моделей в специфических областях с чёткими правилами и обратной связью. Модель доступна для загрузки, но её эффективность ограничена задачами с надёжной проверкой, а не общими диалогами.

В последние дни небольшая модель на 3B стала хитом в X, потому что на некоторых сложных, но проверяемых задачах на рассуждение (например, программирование) она вошла в диапазон производительности передовых моделей, таких как Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, при этом её размер значительно меньше, чем у этих моделей.

Эта модель называется VibeThinker-3B. Это плотная модель для рассуждений с 3 миллиардами параметров, цель которой — исследовать, насколько можно продвинуть проверяемую способность к рассуждению при строго ограниченном небольшом размере модели.

После публикации модели многие были поражены её результатами и выразили желание попробовать её в деле.

Стоит отметить, что это также отечественная модель от команды Weibo (Сина Вэйбо).

Технический отчёт показывает, что модель специально разработана для задач с надёжными сигналами верификации, включая математические рассуждения, спортивное программирование, STEM-рассуждения, а также выполнение инструкций с чёткими ограничениями.

Поэтому она показывает выдающиеся результаты по всем контрольным тестам. В тесте AIME26 она набрала 94,3 балла, в тесте HMMT25 — 89,3 балла, в тесте LiveCodeBench v6 — 80,2 балла (Pass@1), а в самых свежих непубличных еженедельных и двухнедельных соревнованиях LeetCode с 25 апреля по 31 мая 2026 года достигла процента успешных решений 96,1%.

Как обучалась эта модель? Технический отчёт раскрывает некоторые детали.

Во-первых, она построена на основе Qwen2.5-Coder-3B и проходит последующее обучение по усовершенствованному процессу Spectrum-to-Signal. Этот процесс усиливает синтез данных, фильтрацию качества и поурочное обучение при контролируемом тонком обучении (SFT), расширяет обучение с подкреплением в стиле MGPO на несколько проверяемых областей, сохраняет полные траектории рассуждений в длинном контексте и укрепляет все способности с помощью авто-дистилляции вне сети и обучения с подкреплением на инструкциях (Instruct RL).

Общий процесс обучения VibeThinker-3B.

Процесс Spectrum-to-Signal.

Кроме того, VibeThinker-3B внедряет оценку надёжности на уровне утверждений (Claim-Level Reliability, CLR) — это стратегия масштабирования во время тестирования, ориентированная на проверяемые рассуждения с ответами. CLR дополнительно повышает производительность на математических тестах, увеличивая результат AIME26 с 94,3 до 97,1, HMMT25 с 89,3 до 95,4 и поднимая BruMO25 до 99,2.

Конкретный процесс обучения выглядит следующим образом:

Двухэтапное SFT на основе учебного плана. Первый этап сосредоточен на широком охвате способностей, включая математику, программирование, STEM-рассуждения, общий диалог и следование инструкциям. Второй этап переходит к более сложным и широким по охвату выборкам для рассуждений. Дистилляция с исследованием разнообразия используется для сохранения нескольких эффективных путей решения.
Обучение с подкреплением для рассуждений в нескольких областях. VibeThinker-3B повторно использует MGPO. Обучение с подкреплением последовательно применяется к математическим, программистским и STEM-задачам на рассуждение. Для обучения используется одно окно длинного контекста на 64K токенов, чтобы сохранить полные траектории длинных рассуждений.
Авто-дистилляция вне сети. Высококачественные траектории отбираются и очищаются из контрольных точек обучения с подкреплением по математике, программированию и STEM, в конечном итоге формируя единую студенческую модель. Оценка потенциала обучения используется для приоритизации тех траекторий, которые правильны, но ещё не были хорошо усвоены студенческой моделью.
Instruct RL. Финальный этап повышает управляемость для пользовательских промптов. Для учебных данных, чувствительных к формату и открытых, используются основанные на правилах валидаторы и модели вознаграждения на основе критериев оценки.

В недавнем посте известный исследователь ИИ и блогер Себастьян Рашка систематически обобщил ключевые моменты, раскрытые в техническом отчёте VibeThinker-3B, включая следующие:

Если вас заинтересовало это содержание, вы можете подробно изучить их технический отчёт. В настоящее время модель также доступна для публичного скачивания.

Название отчёта: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Ссылка на отчёт: https://arxiv.org/pdf/2606.16140

Ссылка на HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Однако область применения этой модели чётко ограничена, поскольку в областях, требующих общих знаний, она не показывает выдающихся результатов.

Разработчики также чётко указали на это и выдвинули «гипотезу сжатия параметров для покрытия»: разные способности по-разному зависят от параметров модели. Проверяемое рассуждение ближе к высокосжимаемой, параметрически плотной способности, ядро которой заключается в многошаговом рассуждении, удовлетворении ограничений, самокоррекции и проверке ответов. Когда пространство задач имеет достаточно чёткую структуру и сигналы обратной связи достаточно надёжны, компактная модель также может обладать способностью к рассуждениям, близкой к передовому уровню. В отличие от этого, знания в открытой области, общий диалог и понимание длинных хвостов сценариев в большей степени зависят от масштаба параметров для широкого покрытия фактов, концепций и знаний о мире. Эта гипотеза очень вдохновляет. VentureBeat в своём репортаже написали: «Она раскрывает частичное разделение между способностью к рассуждению и фактическими знаниями, и первая может быть сжата более эффективно, чем предполагалось ранее — это понимание имеет далеко идущие последствия для того, как индустрия рассматривает дизайн моделей, стоимость развёртывания и доступность продвинутых функций искусственного интеллекта.»

Авторы заявляют, что их цель — не создать небольшую модель как замену крупным моделям, а изучить истинные границы небольших моделей вдоль определённых измерений способностей. С помощью VibeThinker-3B они хотят показать, что небольшие модели не должны рассматриваться лишь как компромисс для снижения стоимости развёртывания. В областях способностей с чёткими механизмами обратной связи и проверки небольшие языковые модели открывают перспективный исследовательский путь, потенциально позволяющий достичь передового уровня производительности и создать фундаментально дополняющие отношения с традиционной парадигмой масштабирования по параметрам.

В настоящее время в сообществе к этой модели всё ещё есть некоторые сомнения. Если вам интересна эта модель,不妨 попробуйте её сами.

Ссылки:

https://x.com/orcus108/status/2066876960073281582

Эта статья взята с официального аккаунта WeChat «Машинный разум» (ID: almosthuman2014), автор: Чжан Цянь.

Связанные с этим вопросы

QЧто такое VibeThinker-3B и почему он привлёк к себе внимание?

AVibeThinker-3B — это небольшая языковая модель с 3 миллиардами параметров, разработанная командой Weibo (Sina Weibo). Она привлекла внимание, потому что в таких поддающихся проверке рассуждениях, как программирование, показала результаты, сравнимые с крупными передовыми моделями, такими как GPT-5 high и Claude Opus 4.5, при значительно меньшем размере.

QКаковы ключевые характеристики производительности модели VibeThinker-3B?

AМодель показывает выдающиеся результаты в проверяемых задачах: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 балла (Pass@1) на LiveCodeBench v6 и 96.1% проходимость на недавних непубличных соревнованиях LeetCode (апрель-май 2026). Использование стратегии CLR (Claim-Level Reliability) дополнительно повышает её показатели.

QКак тренировали модель VibeThinker-3B?

AМодель основана на Qwen2.5-Coder-3B. Её обучение включает: 1) Двухэтапный SFT по учебному плану с акцентом на математику, программирование, STEM и общий диалог. 2) Обучение с подкреплением (RL) в нескольких областях рассуждений. 3) Оффлайн само-дистилляцию для объединения знаний. 4) Instruct RL для улучшения управляемости при взаимодействии с пользователем. Используется процесс Spectrum-to-Signal.

QВ чём заключается «гипотеза параметрического сжатия и покрытия», предложенная авторами?

AАвторы предполагают, что разные способности по-разному зависят от параметров модели. Проверяемое рассуждение (логика, решение задач) — это «сжимаемая», параметрически-плотная способность, которая может быть эффективно реализована в компактной модели при наличии чёткой структуры задачи и надёжной обратной связи. В то время как общие знания и понимание мира требуют больших параметров для широкого покрытия фактов. Это означает частичное разделение логического мышления и фактологических знаний.

QКаковы ограничения модели VibeThinker-3B и где она неэффективна?

AVibeThinker-3B специализируется на задачах с чёткими правилами и возможностью проверки (математика, программирование, STEM). В областях, требующих обширных общих знаний, понимания открытого мира или работы с длинными хвостами редких сценариев, её производительность значительно ниже, чем у крупных моделей. Она не предназначена для замены больших моделей в общих диалогах или решениях неструктурированных задач.

Похожее

Фонд отступает, Ethlabs выходит на первый план: в Ethereum происходит крупнейшая в истории реорганизация

23 июня произошли два ключевых события в экосистеме Ethereum. Бывшие исследователи Ethereum Foundation основали независимую некоммерческую организацию Ethlabs, получившую основное финансирование от крупных держателей ETH, таких как Bitmine и SharpLink. Ethlabs сосредоточится на ключевых потребностях институционального внедрения, включая скорость расчетов, выпуск нативных активов и масштабирование. Почти одновременно Ethereum Foundation объявил о завершении реструктуризации, сократив 20% персонала (54 человека), и перепозиционировал себя как более легкого управляющего протоколом, а не основного разработчика. Эти изменения сигнализируют о важной корректировке управления: Foundation отходит на второй план, позволяя таким организациям, как Ethlabs, взять на себя больше исполнительных функций. Ethlabs, поддержанный крупными держателями, но без прямого одобрения Виталика Бутерина, должен доказать свою эффективность в решении практических задач, таких как институциональное внедрение и улучшение пользовательского опыта. Таким образом, Ethereum пытается перейти от модели, чрезмерно зависящей от Foundation и его основателя, к более распределенной структуре с множеством организаций. Задача Foundation — сохранять «правильность» и нейтралитет протокола, в то время как новые структуры, подобные Ethlabs, должны доказать его «эффективность» и способность привлекать капитал и инновации в условиях растущей конкуренции.

链捕手5 ч. назад

Фонд отступает, Ethlabs выходит на первый план: в Ethereum происходит крупнейшая в истории реорганизация

链捕手5 ч. назад

Bitbase World Trading Clash (BWTC) 2026 стартовал — регистрация открыта до конца июля

Bitbase открыла регистрацию на глобальный торговый конкурс BWTC (Bitbase World Trading Clash) 2026, который пройдет с двумя параллельными треками: командным (Futures Team Pro) и индивидуальным (Trophy Picks). Призовой фонд Promotion Pool может достигнуть 1 000 000 USDT и динамически разблокируется по мере подтвержденного участия трейдеров. Командный трек оценивается как по общему объему торгов, так и по доходности капитала, поощряя эффективное использование средств, а не только высокие обороты. Индивидуальный трек ранжируется по личному объему. Регистрация открыта с 22 июня по 23 июля. Формирование команд необходимо завершить до 9 июля. Параллельно работает реферальная программа Scout Program, поощряющая приглашение новых пользователей. Большинство наград выплачиваются в виде кредита для торговли фьючерсами USDT, который можно использовать вместе с собственными средствами, а полученная прибыль доступна для вывода. По данным на момент публикации, за первые 36 часов зарегистрировались более 2000 трейдеров, и призовой фонд разблокировался до 10 000 USDT. Bitbase подчеркивает прозрачность условий конкурса и свой подход, основанный на доверии, инфраструктуре институционального уровня и четко определенных правилах.

TheNewsCrypto7 ч. назад

Bitbase World Trading Clash (BWTC) 2026 стартовал — регистрация открыта до конца июля

TheNewsCrypto7 ч. назад

Вторая половина политики США в отношении криптовалют: закон CLARITY на пути к 60 голосам, «комиссия одного человека» в CFTC — главная неизвестная

В США продолжается работа над криптополитикой. Основное внимание уделяется продвижению закона CLARITY в Сенате, для принятия которого необходимо собрать 60 голосов. Успех зависит от компромиссов между республиканцами и администрацией Белого дома, а также от привлечения колеблющихся сенаторов. Законодательный календарь переполнен: осталось лишь около 40 рабочих дней, что делает временное окно крайне узким. На повестке дня также находятся налоговые предложения, выделенные из нового законопроекта PARITY, и Блокчейнский закон о регуляторной определенности, направленный на защиту разработчиков. Параллельно идет доработка правил GENUIS. Вызывает озабоченность кадровая ситуация в CFTC (Комиссия по торговле товарными фьючерсами), где не хватает четырех уполномоченных, что замедляет процесс принятия решений. Также остается открытым вопрос о юрисдикции над рынками прогнозирования: будут ли они регулироваться штатами, CFTC, SEC (Комиссия по ценным бумагам и биржам) или Верховным судом. Криптоиндустрия готовится к уходу двух ключевых фигур: уполномоченного SEC Хестер Пирс, которая возглавляла целевую группу по криптовалютам, и сенатора Синтии Ламмис, сыгравшей важную роль в двухпартийных переговорах. Эксперты отмечают, что шансы на принятие CLARITY в текущем созыве Конгресса невелики из-за нехватки времени и выборов, поэтому основная регуляторная нагрузка ляжет на SEC и CFTC. Налоговые инициативы, вероятно, будут продвигаться в составе более крупных законопроектов. Что касается рынков прогнозирования, CFTC работает над созданием для них постоянной регуляторной базы, стремясь избежать их классификации исключительно как азартных игр. В целом, для достижения существенных результатов к 2026 году отрасли необходимы непрерывные двухпартийные усилия и прагматичный подход в условиях сжатых сроков.

marsbit8 ч. назад

Вторая половина политики США в отношении криптовалют: закон CLARITY на пути к 60 голосам, «комиссия одного человека» в CFTC — главная неизвестная

marsbit8 ч. назад

Dan Koe: Как выжить в волне замещения AI и избежать участи наёмного работника

Даниел Коу рассуждает о необходимости избавления от «зарплатного рабства» и построения собственного дела в эпоху ИИ. Он утверждает, что настоящая угроза — не технологии, а зависимость от внешних обстоятельств и нежелание меняться. Коу подчеркивает, что рутинная работа часто ведет к скуке и потере смысла, поскольку не позволяет достигать состояния потока. Выход из этого положения автор видит в развитии пяти ключевых навыков: личной инициативы, вкуса (умения оценивать качество), способности убеждать, настойчивости и итеративного подхода (постоянного улучшения на основе обратной связи). Эти навыки, по его мнению, лучше всего развиваются через создание собственного проекта. Коу предлагает конкретный план действий. Первый шаг — радикально изменить свое окружение и привычки, чтобы начать мыслить как предприниматель. Второй — выбрать «среду» для деятельности, где можно получать честную обратную связь через эксперименты и ошибки. Автор считает, что в современном мире особенно ценными навыками являются создание контента (медиа) и программирование, при этом медиа-навыки — создание уникального, субъективного контента — становятся все более важными. В заключительной части статьи приводится практическое упражнение. Читателю предлагается за 15 минут ответить на вопросы, чтобы обнаружить свои глубочайшие интересы и «непопулярные» убеждения в своей области. Пересечение этих ответов и станет основой для личного проекта. Финальный и самый важный шаг — немедленно опубликовать первую мысль или работу, чтобы начать получать реальную обратную связь от мира и учиться на ней.

marsbit9 ч. назад

Dan Koe: Как выжить в волне замещения AI и избежать участи наёмного работника

marsbit9 ч. назад

Анализ отчета: Morgan Stanley объясняет SanDisk SNDK, правду о ценовой власти в облачных центрах обработки данных и дивидендах AI-инференса

**Обзор отчета Morgan Stanley о компании SANDisk (SNDK)** 22 июня аналитики Morgan Stanley повысили целевую цену акций SANDisk с $1100 до $1750, сохранив рекомендацию «Повышать». Ключевой тезис: спрос на вычисления для ИИ-инференса меняет правила игры на рынке NAND-памяти. **Структурный сдвиг спроса.** Облачный бизнес SANDisk в первом квартале вырос на 233% г/г, чему способствует потребность облачных провайдеров в высокопроизводительной памяти (TLC) для кэшей (KV Cache) и хранения контекста в ИИ-моделях. Эти клиенты, в отличие от потребительского сегмента, заключают долгосрочные контракты и менее чувствительны к цене. **Новая бизнес-модель (NBM) и устойчивая прибыль.** SANDisk уже зафиксировала в контрактах NBM более трети объема поставок на 2027 финансовый год. Соглашения (сроком 3-5 лет) с фиксированной ценой или коридорами обеспечивают маржинальность около 80% даже на нижнем пределе. Это создает «защитный буфер» прибыли. Morgan Stanley ожидает, что доля продаж по NBM может достичь 70-80%, что резко снизит цикличность бизнеса. **Контроль над ценообразованием и рост.** В условиях дефицита поставок NAND, который может продлиться до середины 2027 года, SANDisk обладает преимуществом в ценообразовании. Ожидается, что выручка вырастет с $7.36 млрд в FY25 до $48.83 млрд в FY27, а EPS — с $2.74 до $14.73. Рост будет в основном обеспечиваться высокомаржинальным облачным сегментом. **Потенциал и риски.** Позитивными катализаторами могут стать более быстрое внедрение корпоративных SSD, развитие edge-AI и новые технологии (например, HBM). К рискам относятся замедление роста отрасли, усиление конкуренции (включая китайские компании, такие как YMTC) и возможная потеря доли рынка SANDisk в дата-центрах. **Итог.** Логика повышения оценки основана на трех факторах: структурном росте спроса от ИИ-инференса, защите маржи через контракты NBM и сохраняющейся напряженности на рынке NAND. Целевая цена $1750 соответствует ~28x P/E на прогноз EPS за FY27.

marsbit9 ч. назад

Анализ отчета: Morgan Stanley объясняет SanDisk SNDK, правду о ценовой власти в облачных центрах обработки данных и дивидендах AI-инференса

marsbit9 ч. назад

Торговля

Спот

Фьючерсы