3B-модель поставила рекорд в программировании наравне с Opus 4.5: китайская модель вызвала горячие споры

marsbitОпубликовано 2026-06-18Обновлено 2026-06-18

Введение

В последние дни небольшая модель VibeThinker-3B (3 миллиарда параметров) привлекла большое внимание, продемонстрировав результаты, сопоставимые с передовыми крупными моделями, такими как GPT-5 high и Claude Opus 4.5, в задачах верифицируемого рассуждения — программировании, математике и STEM. Разработанная командой Weibo (Sina), она основана на Qwen2.5-Coder-3B и использует усовершенствованный конвейер Spectrum-to-Signal, включая обучение с подкреплением (RL) и дистилляцию. Модель показала выдающиеся результаты: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 на LiveCodeBench v6 и 96.1% успеха в свежих соревнованиях LeetCode. Метод Claim-Level Reliability (CLR) ещё повысил её точность. Важным выводом работы является «гипотеза параметрического сжатия»: возможности верифицируемого рассуждения (логика, проверка) могут быть эффективно сжаты в компактной модели, в отличие от общих знаний, требующих больших параметров. Это указывает на частичное разделение рассуждений и фактологических знаний. Цель авторов — не замена больших моделей, а исследование предела малых моделей в специфических областях с чёткими правилами и обратной связью. Модель доступна для загрузки, но её эффективность ограничена задачами с надёжной проверкой, а не общими диалогами.

В последние дни небольшая модель на 3B стала хитом в X, потому что на некоторых сложных, но проверяемых задачах на рассуждение (например, программирование) она вошла в диапазон производительности передовых моделей, таких как Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, при этом её размер значительно меньше, чем у этих моделей.

Эта модель называется VibeThinker-3B. Это плотная модель для рассуждений с 3 миллиардами параметров, цель которой — исследовать, насколько можно продвинуть проверяемую способность к рассуждению при строго ограниченном небольшом размере модели.

После публикации модели многие были поражены её результатами и выразили желание попробовать её в деле.

Стоит отметить, что это также отечественная модель от команды Weibo (Сина Вэйбо).

Технический отчёт показывает, что модель специально разработана для задач с надёжными сигналами верификации, включая математические рассуждения, спортивное программирование, STEM-рассуждения, а также выполнение инструкций с чёткими ограничениями.

Поэтому она показывает выдающиеся результаты по всем контрольным тестам. В тесте AIME26 она набрала 94,3 балла, в тесте HMMT25 — 89,3 балла, в тесте LiveCodeBench v6 — 80,2 балла (Pass@1), а в самых свежих непубличных еженедельных и двухнедельных соревнованиях LeetCode с 25 апреля по 31 мая 2026 года достигла процента успешных решений 96,1%.

Как обучалась эта модель? Технический отчёт раскрывает некоторые детали.

Во-первых, она построена на основе Qwen2.5-Coder-3B и проходит последующее обучение по усовершенствованному процессу Spectrum-to-Signal. Этот процесс усиливает синтез данных, фильтрацию качества и поурочное обучение при контролируемом тонком обучении (SFT), расширяет обучение с подкреплением в стиле MGPO на несколько проверяемых областей, сохраняет полные траектории рассуждений в длинном контексте и укрепляет все способности с помощью авто-дистилляции вне сети и обучения с подкреплением на инструкциях (Instruct RL).

Общий процесс обучения VibeThinker-3B.

Процесс Spectrum-to-Signal.

Кроме того, VibeThinker-3B внедряет оценку надёжности на уровне утверждений (Claim-Level Reliability, CLR) — это стратегия масштабирования во время тестирования, ориентированная на проверяемые рассуждения с ответами. CLR дополнительно повышает производительность на математических тестах, увеличивая результат AIME26 с 94,3 до 97,1, HMMT25 с 89,3 до 95,4 и поднимая BruMO25 до 99,2.

Конкретный процесс обучения выглядит следующим образом:

Двухэтапное SFT на основе учебного плана. Первый этап сосредоточен на широком охвате способностей, включая математику, программирование, STEM-рассуждения, общий диалог и следование инструкциям. Второй этап переходит к более сложным и широким по охвату выборкам для рассуждений. Дистилляция с исследованием разнообразия используется для сохранения нескольких эффективных путей решения.
Обучение с подкреплением для рассуждений в нескольких областях. VibeThinker-3B повторно использует MGPO. Обучение с подкреплением последовательно применяется к математическим, программистским и STEM-задачам на рассуждение. Для обучения используется одно окно длинного контекста на 64K токенов, чтобы сохранить полные траектории длинных рассуждений.
Авто-дистилляция вне сети. Высококачественные траектории отбираются и очищаются из контрольных точек обучения с подкреплением по математике, программированию и STEM, в конечном итоге формируя единую студенческую модель. Оценка потенциала обучения используется для приоритизации тех траекторий, которые правильны, но ещё не были хорошо усвоены студенческой моделью.
Instruct RL. Финальный этап повышает управляемость для пользовательских промптов. Для учебных данных, чувствительных к формату и открытых, используются основанные на правилах валидаторы и модели вознаграждения на основе критериев оценки.

В недавнем посте известный исследователь ИИ и блогер Себастьян Рашка систематически обобщил ключевые моменты, раскрытые в техническом отчёте VibeThinker-3B, включая следующие:

Если вас заинтересовало это содержание, вы можете подробно изучить их технический отчёт. В настоящее время модель также доступна для публичного скачивания.

Название отчёта: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Ссылка на отчёт: https://arxiv.org/pdf/2606.16140

Ссылка на HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Однако область применения этой модели чётко ограничена, поскольку в областях, требующих общих знаний, она не показывает выдающихся результатов.

Разработчики также чётко указали на это и выдвинули «гипотезу сжатия параметров для покрытия»: разные способности по-разному зависят от параметров модели. Проверяемое рассуждение ближе к высокосжимаемой, параметрически плотной способности, ядро которой заключается в многошаговом рассуждении, удовлетворении ограничений, самокоррекции и проверке ответов. Когда пространство задач имеет достаточно чёткую структуру и сигналы обратной связи достаточно надёжны, компактная модель также может обладать способностью к рассуждениям, близкой к передовому уровню. В отличие от этого, знания в открытой области, общий диалог и понимание длинных хвостов сценариев в большей степени зависят от масштаба параметров для широкого покрытия фактов, концепций и знаний о мире. Эта гипотеза очень вдохновляет. VentureBeat в своём репортаже написали: «Она раскрывает частичное разделение между способностью к рассуждению и фактическими знаниями, и первая может быть сжата более эффективно, чем предполагалось ранее — это понимание имеет далеко идущие последствия для того, как индустрия рассматривает дизайн моделей, стоимость развёртывания и доступность продвинутых функций искусственного интеллекта.»

Авторы заявляют, что их цель — не создать небольшую модель как замену крупным моделям, а изучить истинные границы небольших моделей вдоль определённых измерений способностей. С помощью VibeThinker-3B они хотят показать, что небольшие модели не должны рассматриваться лишь как компромисс для снижения стоимости развёртывания. В областях способностей с чёткими механизмами обратной связи и проверки небольшие языковые модели открывают перспективный исследовательский путь, потенциально позволяющий достичь передового уровня производительности и создать фундаментально дополняющие отношения с традиционной парадигмой масштабирования по параметрам.

В настоящее время в сообществе к этой модели всё ещё есть некоторые сомнения. Если вам интересна эта модель,不妨 попробуйте её сами.

Ссылки:

https://x.com/orcus108/status/2066876960073281582

Эта статья взята с официального аккаунта WeChat «Машинный разум» (ID: almosthuman2014), автор: Чжан Цянь.

Связанные с этим вопросы

QЧто такое VibeThinker-3B и почему он привлёк к себе внимание?

AVibeThinker-3B — это небольшая языковая модель с 3 миллиардами параметров, разработанная командой Weibo (Sina Weibo). Она привлекла внимание, потому что в таких поддающихся проверке рассуждениях, как программирование, показала результаты, сравнимые с крупными передовыми моделями, такими как GPT-5 high и Claude Opus 4.5, при значительно меньшем размере.

QКаковы ключевые характеристики производительности модели VibeThinker-3B?

AМодель показывает выдающиеся результаты в проверяемых задачах: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 балла (Pass@1) на LiveCodeBench v6 и 96.1% проходимость на недавних непубличных соревнованиях LeetCode (апрель-май 2026). Использование стратегии CLR (Claim-Level Reliability) дополнительно повышает её показатели.

QКак тренировали модель VibeThinker-3B?

AМодель основана на Qwen2.5-Coder-3B. Её обучение включает: 1) Двухэтапный SFT по учебному плану с акцентом на математику, программирование, STEM и общий диалог. 2) Обучение с подкреплением (RL) в нескольких областях рассуждений. 3) Оффлайн само-дистилляцию для объединения знаний. 4) Instruct RL для улучшения управляемости при взаимодействии с пользователем. Используется процесс Spectrum-to-Signal.

QВ чём заключается «гипотеза параметрического сжатия и покрытия», предложенная авторами?

AАвторы предполагают, что разные способности по-разному зависят от параметров модели. Проверяемое рассуждение (логика, решение задач) — это «сжимаемая», параметрически-плотная способность, которая может быть эффективно реализована в компактной модели при наличии чёткой структуры задачи и надёжной обратной связи. В то время как общие знания и понимание мира требуют больших параметров для широкого покрытия фактов. Это означает частичное разделение логического мышления и фактологических знаний.

QКаковы ограничения модели VibeThinker-3B и где она неэффективна?

AVibeThinker-3B специализируется на задачах с чёткими правилами и возможностью проверки (математика, программирование, STEM). В областях, требующих обширных общих знаний, понимания открытого мира или работы с длинными хвостами редких сценариев, её производительность значительно ниже, чем у крупных моделей. Она не предназначена для замены больших моделей в общих диалогах или решениях неструктурированных задач.

Похожее

По мере перетока капитала из криптовалют в ИИ, у трейдеров Zoomex уже есть доступ к обоим

Поскольку институциональный капитал перетекает с криптовалютных рынков на акции искусственного интеллекта и полупроводников, криптобиржа Zoomex представляет решение Zoomex Stocks. Оно предлагает токенизированные акции и ETF (включая TSLAx, NVDAx, QQQx и другие), позволяя трейдерам получить доступ к обоим классам активов из единого счета. Товар работает на базе модели xStocks, обеспеченной активами 1:1, соответствует стандартам MiFID II и торгуется 24/7 за USDT с комиссией 0,50%. Это устраняет необходимость в отдельном брокерском счете, конвертации валюты и привязке к рыночным часам, обеспечивая мгновенное расчеты на блокчейне. Для существующих пользователей Zoomex это возможность диверсифицировать портфель, хеджируя волатильность крипторынка, без вывода средств и прохождения новых процедур KYC. Платформа Zoomex, имеющая более 3 миллионов пользователей и регулируемые лицензии, фокусируется на простоте, скорости и безопасности торговли.

TheNewsCrypto17 мин. назад

По мере перетока капитала из криптовалют в ИИ, у трейдеров Zoomex уже есть доступ к обоим

TheNewsCrypto17 мин. назад

Суровая правда о FDV 535 миллионов долларов CARDS: чистая выручка всего 43 миллиона, маржа прибыли упала вдвое

Коллектор Крипт (CARDS) продемонстрировал значительный оборот в $635 млн, однако 90,6% этой суммы немедленно возвращается пользователям через автоматический выкуп карт, оставляя чистыми лишь $43 млн (коэффициент удержания 6,7%). Активность сосредоточена среди небольшой группы крупных игроков, а не коллекционеров: вторичные продажи на eBay и внутри платформы составляют менее $5 млн, а их доля падает шесть кварталов подряд. С ростом объемов чистая прибыльность платформы сократилась вдвое — с 11,2% до 5,8%. Финансовая модель напоминает казино: ежедневно около 420 активных пользователей генерируют высокие обороты при низкой марже. Захват стоимости токеном CARDS минимален: сжигание и выкупы составили лишь $1,4 млн (3,4% от чистой выручки). При этом операционные кошельки вывели $45,7 млн USDC. Текущая полная разводненная стоимость (FDV) в $535 млн в 7,3 раза превышает годовую чистую выручку. Доля инсайдеров составляет 72% от предложения токенов, а 79,5% эмиссии заблокировано до ноября 2027 года, что создает значительный потенциал для продажного давления в будущем.

Foresight News30 мин. назад

Суровая правда о FDV 535 миллионов долларов CARDS: чистая выручка всего 43 миллиона, маржа прибыли упала вдвое

Foresight News30 мин. назад

Обновление Van Rossem для Cardano приближается к Mainnet по мере продвижения фазы управления

Обновление Van Rossem в сети Cardano переходит на более глубокую стадию управления и готовности, привлекая внимание трейдеров ADA к способности сети обеспечить плавный переход к активации в основной сети. Ключевые моменты: * **Van Rossem** — следующий крупный путь обновления протокола Cardano. * Последние обновления от **Intersect** показывают прогресс в тестовой сети **PreProd** и активность в управлении основной сетью, но окончательное внедрение еще требует подтверждения. * Обновление важно, так как тестирует процесс ончейн-управления Cardano после фазы **Voltaire**. Обновление проходит финальные этапы валидации и утверждения. Успешное развертывание может укрепить доверие к дорожной карте блокчейна, в то время как задержки или неясности могут негативно повлиять на настроения рынка. Основная задача Cardano — продемонстрировать, что его децентрализованная модель управления способна координировать значимые технические изменения без сбоев. Хотя успех в тестовой сети PreProd является важным шагом, ключевым рубежом остается активация в основной сети. Реакция цены ADA может зависеть как от условий общего рынка, так и от четкости процесса обновления. Для Cardano оптимальным исходом является «скучное» исполнение: плавное обновление инфраструктуры, подтверждение со стороны управления и бирж, а также отсутствие серьезных сбоев для пользователей. Доказательство работоспособности этого процесса является главным катализатором для сети, сделавшей управление центральной частью своей идентичности.

bitcoinist39 мин. назад

Обновление Van Rossem для Cardano приближается к Mainnet по мере продвижения фазы управления

bitcoinist39 мин. назад

BitTorrent запускает BTTInferGrid: децентрализованный инфраструктурный слой для масштабируемого вывода AI

BitTorrent запускает BTTInferGrid: децентрализованный сетевой уровень для масштабируемого AI-инференса. BTTInferGrid — это децентрализованная сеть GPU-вычислений, созданная специально для задач инференса искусственного интеллекта. Платформа объединяет разрозненные и неиспользуемые глобальные GPU-ресурсы, предлагая разработчикам ИИ доступную, проверяемую и оплачиваемую по факту использования вычислительную инфраструктуру. Запуск платформы происходит в момент, когда до 70% вычислительных нагрузок ИИ смещаются от обучения моделей к их инференсу — фазе промышленной эксплуатации, на которую приходится до 95% затрат. BTTInferGrid решает ключевые проблемы централизованных облачных провайдеров: неэластичность при пиковых нагрузках, высокие цены на аренду GPU и наличие изолированных, простаивающих вычислительных мощностей по всему миру. Архитектура BTTInferGrid основана на модели DePIN. Со стороны предложения она агрегирует неиспользуемые GPU в общую сеть, позволяя владельцам монетизировать свои ресурсы. Со стороны спроса предоставляет разработчикам масштабируемые и экономичные инференс-услуги с проверкой результатов в блокчейне. Ключевыми преимуществами заявлены: беспрепятственный доступ для поставщиков ресурсов, проверяемое качество услуг через криптографические проверки и экономика, основанная на реальном спросе, а не на спекулятивных токенных эмиссиях. Платформа будет развиваться поэтапно: от начальной стадии запуска сети (2026) через диверсификацию поддерживаемых моделей ИИ (2027) к становлению в качестве фундаментального инфраструктурного уровня Web3 для крупномасштабных AI-приложений (2028 и далее). BTTInferGrid создается на базе проверенной архитектуры BitTorrent File System (BTFS), что обеспечивает ей преимущество в оркестрации ресурсов и децентрализованном управлении.

TheNewsCrypto1 ч. назад

BitTorrent запускает BTTInferGrid: децентрализованный инфраструктурный слой для масштабируемого вывода AI

TheNewsCrypto1 ч. назад

Годовая доходность 15–25%: ETF на биткойн от BlackRock — возможность или ловушка?

Компания BlackRock запускает биткоин-ETF BITA, целью которого является получение годового дохода в 15-25% при сохранении не менее 70% потенциального роста биткоина. Этот продукт, основанный на фонде IBIT, генерирует прибыль за счет продажи покрытых колл-опционов, предлагая инвесторам стабильный денежный поток, но ограничивая участие в резком росте цены биткоина. Сторонники продукта считают, что он привлечет новый капитал и будет способствовать росту цены биткоина, ссылаясь на устойчивый приток средств в IBIT и оптимистичные прогнозы крупных банков. Опытные инвесторы, такие как Майкл Терпин, видят возможности в текущем рыночном цикле и предсказывают значительный долгосрочный рост. Критики, включая технического директора Bitfinex Паоло Ардоино, предупреждают, что концентрация биткоина в ETF противоречит принципам децентрализации и может представлять собой «ловушку доходности». Они отмечают, что продукт не создает новый спрос, а лишь перераспределяет существующий, ограничивая прибыль при росте, но оставляя полные риски при падении. Влияние BITA на рынок станет ясно по динамике потоков средств. Устойчивое поглощение биткоина фондами поддержит бычий сценарий, в то время как простое перераспределение капитала подтвердит опасения критиков. Текущая цена около $65 000 многими рассматривается не как пик, а как потенциальная основа для нового цикла.

Foresight News1 ч. назад

Годовая доходность 15–25%: ETF на биткойн от BlackRock — возможность или ловушка?