3B-модель поставила рекорд в программировании наравне с Opus 4.5: китайская модель вызвала горячие споры

marsbitОпубликовано 2026-06-18Обновлено 2026-06-18

Введение

В последние дни небольшая модель VibeThinker-3B (3 миллиарда параметров) привлекла большое внимание, продемонстрировав результаты, сопоставимые с передовыми крупными моделями, такими как GPT-5 high и Claude Opus 4.5, в задачах верифицируемого рассуждения — программировании, математике и STEM. Разработанная командой Weibo (Sina), она основана на Qwen2.5-Coder-3B и использует усовершенствованный конвейер Spectrum-to-Signal, включая обучение с подкреплением (RL) и дистилляцию. Модель показала выдающиеся результаты: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 на LiveCodeBench v6 и 96.1% успеха в свежих соревнованиях LeetCode. Метод Claim-Level Reliability (CLR) ещё повысил её точность. Важным выводом работы является «гипотеза параметрического сжатия»: возможности верифицируемого рассуждения (логика, проверка) могут быть эффективно сжаты в компактной модели, в отличие от общих знаний, требующих больших параметров. Это указывает на частичное разделение рассуждений и фактологических знаний. Цель авторов — не замена больших моделей, а исследование предела малых моделей в специфических областях с чёткими правилами и обратной связью. Модель доступна для загрузки, но её эффективность ограничена задачами с надёжной проверкой, а не общими диалогами.

В последние дни небольшая модель на 3B стала хитом в X, потому что на некоторых сложных, но проверяемых задачах на рассуждение (например, программирование) она вошла в диапазон производительности передовых моделей, таких как Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, при этом её размер значительно меньше, чем у этих моделей.

Эта модель называется VibeThinker-3B. Это плотная модель для рассуждений с 3 миллиардами параметров, цель которой — исследовать, насколько можно продвинуть проверяемую способность к рассуждению при строго ограниченном небольшом размере модели.

После публикации модели многие были поражены её результатами и выразили желание попробовать её в деле.

Стоит отметить, что это также отечественная модель от команды Weibo (Сина Вэйбо).

Технический отчёт показывает, что модель специально разработана для задач с надёжными сигналами верификации, включая математические рассуждения, спортивное программирование, STEM-рассуждения, а также выполнение инструкций с чёткими ограничениями.

Поэтому она показывает выдающиеся результаты по всем контрольным тестам. В тесте AIME26 она набрала 94,3 балла, в тесте HMMT25 — 89,3 балла, в тесте LiveCodeBench v6 — 80,2 балла (Pass@1), а в самых свежих непубличных еженедельных и двухнедельных соревнованиях LeetCode с 25 апреля по 31 мая 2026 года достигла процента успешных решений 96,1%.

Как обучалась эта модель? Технический отчёт раскрывает некоторые детали.

Во-первых, она построена на основе Qwen2.5-Coder-3B и проходит последующее обучение по усовершенствованному процессу Spectrum-to-Signal. Этот процесс усиливает синтез данных, фильтрацию качества и поурочное обучение при контролируемом тонком обучении (SFT), расширяет обучение с подкреплением в стиле MGPO на несколько проверяемых областей, сохраняет полные траектории рассуждений в длинном контексте и укрепляет все способности с помощью авто-дистилляции вне сети и обучения с подкреплением на инструкциях (Instruct RL).

Общий процесс обучения VibeThinker-3B.

Процесс Spectrum-to-Signal.

Кроме того, VibeThinker-3B внедряет оценку надёжности на уровне утверждений (Claim-Level Reliability, CLR) — это стратегия масштабирования во время тестирования, ориентированная на проверяемые рассуждения с ответами. CLR дополнительно повышает производительность на математических тестах, увеличивая результат AIME26 с 94,3 до 97,1, HMMT25 с 89,3 до 95,4 и поднимая BruMO25 до 99,2.

Конкретный процесс обучения выглядит следующим образом:

  • Двухэтапное SFT на основе учебного плана. Первый этап сосредоточен на широком охвате способностей, включая математику, программирование, STEM-рассуждения, общий диалог и следование инструкциям. Второй этап переходит к более сложным и широким по охвату выборкам для рассуждений. Дистилляция с исследованием разнообразия используется для сохранения нескольких эффективных путей решения.
  • Обучение с подкреплением для рассуждений в нескольких областях. VibeThinker-3B повторно использует MGPO. Обучение с подкреплением последовательно применяется к математическим, программистским и STEM-задачам на рассуждение. Для обучения используется одно окно длинного контекста на 64K токенов, чтобы сохранить полные траектории длинных рассуждений.
  • Авто-дистилляция вне сети. Высококачественные траектории отбираются и очищаются из контрольных точек обучения с подкреплением по математике, программированию и STEM, в конечном итоге формируя единую студенческую модель. Оценка потенциала обучения используется для приоритизации тех траекторий, которые правильны, но ещё не были хорошо усвоены студенческой моделью.
  • Instruct RL. Финальный этап повышает управляемость для пользовательских промптов. Для учебных данных, чувствительных к формату и открытых, используются основанные на правилах валидаторы и модели вознаграждения на основе критериев оценки.

В недавнем посте известный исследователь ИИ и блогер Себастьян Рашка систематически обобщил ключевые моменты, раскрытые в техническом отчёте VibeThinker-3B, включая следующие:

Если вас заинтересовало это содержание, вы можете подробно изучить их технический отчёт. В настоящее время модель также доступна для публичного скачивания.

Название отчёта: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Ссылка на отчёт: https://arxiv.org/pdf/2606.16140

Ссылка на HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Однако область применения этой модели чётко ограничена, поскольку в областях, требующих общих знаний, она не показывает выдающихся результатов.

Разработчики также чётко указали на это и выдвинули «гипотезу сжатия параметров для покрытия»: разные способности по-разному зависят от параметров модели. Проверяемое рассуждение ближе к высокосжимаемой, параметрически плотной способности, ядро которой заключается в многошаговом рассуждении, удовлетворении ограничений, самокоррекции и проверке ответов. Когда пространство задач имеет достаточно чёткую структуру и сигналы обратной связи достаточно надёжны, компактная модель также может обладать способностью к рассуждениям, близкой к передовому уровню. В отличие от этого, знания в открытой области, общий диалог и понимание длинных хвостов сценариев в большей степени зависят от масштаба параметров для широкого покрытия фактов, концепций и знаний о мире. Эта гипотеза очень вдохновляет. VentureBeat в своём репортаже написали: «Она раскрывает частичное разделение между способностью к рассуждению и фактическими знаниями, и первая может быть сжата более эффективно, чем предполагалось ранее — это понимание имеет далеко идущие последствия для того, как индустрия рассматривает дизайн моделей, стоимость развёртывания и доступность продвинутых функций искусственного интеллекта.»

Авторы заявляют, что их цель — не создать небольшую модель как замену крупным моделям, а изучить истинные границы небольших моделей вдоль определённых измерений способностей. С помощью VibeThinker-3B они хотят показать, что небольшие модели не должны рассматриваться лишь как компромисс для снижения стоимости развёртывания. В областях способностей с чёткими механизмами обратной связи и проверки небольшие языковые модели открывают перспективный исследовательский путь, потенциально позволяющий достичь передового уровня производительности и создать фундаментально дополняющие отношения с традиционной парадигмой масштабирования по параметрам.

В настоящее время в сообществе к этой модели всё ещё есть некоторые сомнения. Если вам интересна эта модель,不妨 попробуйте её сами.

Ссылки:

https://x.com/orcus108/status/2066876960073281582

Эта статья взята с официального аккаунта WeChat «Машинный разум» (ID: almosthuman2014), автор: Чжан Цянь.

Связанные с этим вопросы

QЧто такое VibeThinker-3B и почему он привлёк к себе внимание?

AVibeThinker-3B — это небольшая языковая модель с 3 миллиардами параметров, разработанная командой Weibo (Sina Weibo). Она привлекла внимание, потому что в таких поддающихся проверке рассуждениях, как программирование, показала результаты, сравнимые с крупными передовыми моделями, такими как GPT-5 high и Claude Opus 4.5, при значительно меньшем размере.

QКаковы ключевые характеристики производительности модели VibeThinker-3B?

AМодель показывает выдающиеся результаты в проверяемых задачах: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 балла (Pass@1) на LiveCodeBench v6 и 96.1% проходимость на недавних непубличных соревнованиях LeetCode (апрель-май 2026). Использование стратегии CLR (Claim-Level Reliability) дополнительно повышает её показатели.

QКак тренировали модель VibeThinker-3B?

AМодель основана на Qwen2.5-Coder-3B. Её обучение включает: 1) Двухэтапный SFT по учебному плану с акцентом на математику, программирование, STEM и общий диалог. 2) Обучение с подкреплением (RL) в нескольких областях рассуждений. 3) Оффлайн само-дистилляцию для объединения знаний. 4) Instruct RL для улучшения управляемости при взаимодействии с пользователем. Используется процесс Spectrum-to-Signal.

QВ чём заключается «гипотеза параметрического сжатия и покрытия», предложенная авторами?

AАвторы предполагают, что разные способности по-разному зависят от параметров модели. Проверяемое рассуждение (логика, решение задач) — это «сжимаемая», параметрически-плотная способность, которая может быть эффективно реализована в компактной модели при наличии чёткой структуры задачи и надёжной обратной связи. В то время как общие знания и понимание мира требуют больших параметров для широкого покрытия фактов. Это означает частичное разделение логического мышления и фактологических знаний.

QКаковы ограничения модели VibeThinker-3B и где она неэффективна?

AVibeThinker-3B специализируется на задачах с чёткими правилами и возможностью проверки (математика, программирование, STEM). В областях, требующих обширных общих знаний, понимания открытого мира или работы с длинными хвостами редких сценариев, её производительность значительно ниже, чем у крупных моделей. Она не предназначена для замены больших моделей в общих диалогах или решениях неструктурированных задач.

Похожее

По мере перетока капитала из криптовалют в ИИ, у трейдеров Zoomex уже есть доступ к обоим

Поскольку институциональный капитал перетекает с криптовалютных рынков на акции искусственного интеллекта и полупроводников, криптобиржа Zoomex представляет решение Zoomex Stocks. Оно предлагает токенизированные акции и ETF (включая TSLAx, NVDAx, QQQx и другие), позволяя трейдерам получить доступ к обоим классам активов из единого счета. Товар работает на базе модели xStocks, обеспеченной активами 1:1, соответствует стандартам MiFID II и торгуется 24/7 за USDT с комиссией 0,50%. Это устраняет необходимость в отдельном брокерском счете, конвертации валюты и привязке к рыночным часам, обеспечивая мгновенное расчеты на блокчейне. Для существующих пользователей Zoomex это возможность диверсифицировать портфель, хеджируя волатильность крипторынка, без вывода средств и прохождения новых процедур KYC. Платформа Zoomex, имеющая более 3 миллионов пользователей и регулируемые лицензии, фокусируется на простоте, скорости и безопасности торговли.

TheNewsCrypto17 мин. назад

По мере перетока капитала из криптовалют в ИИ, у трейдеров Zoomex уже есть доступ к обоим

TheNewsCrypto17 мин. назад

Суровая правда о FDV 535 миллионов долларов CARDS: чистая выручка всего 43 миллиона, маржа прибыли упала вдвое

Коллектор Крипт (CARDS) продемонстрировал значительный оборот в $635 млн, однако 90,6% этой суммы немедленно возвращается пользователям через автоматический выкуп карт, оставляя чистыми лишь $43 млн (коэффициент удержания 6,7%). Активность сосредоточена среди небольшой группы крупных игроков, а не коллекционеров: вторичные продажи на eBay и внутри платформы составляют менее $5 млн, а их доля падает шесть кварталов подряд. С ростом объемов чистая прибыльность платформы сократилась вдвое — с 11,2% до 5,8%. Финансовая модель напоминает казино: ежедневно около 420 активных пользователей генерируют высокие обороты при низкой марже. Захват стоимости токеном CARDS минимален: сжигание и выкупы составили лишь $1,4 млн (3,4% от чистой выручки). При этом операционные кошельки вывели $45,7 млн USDC. Текущая полная разводненная стоимость (FDV) в $535 млн в 7,3 раза превышает годовую чистую выручку. Доля инсайдеров составляет 72% от предложения токенов, а 79,5% эмиссии заблокировано до ноября 2027 года, что создает значительный потенциал для продажного давления в будущем.

Foresight News30 мин. назад

Суровая правда о FDV 535 миллионов долларов CARDS: чистая выручка всего 43 миллиона, маржа прибыли упала вдвое

Foresight News30 мин. назад

Обновление Van Rossem для Cardano приближается к Mainnet по мере продвижения фазы управления

Обновление Van Rossem в сети Cardano переходит на более глубокую стадию управления и готовности, привлекая внимание трейдеров ADA к способности сети обеспечить плавный переход к активации в основной сети. Ключевые моменты: * **Van Rossem** — следующий крупный путь обновления протокола Cardano. * Последние обновления от **Intersect** показывают прогресс в тестовой сети **PreProd** и активность в управлении основной сетью, но окончательное внедрение еще требует подтверждения. * Обновление важно, так как тестирует процесс ончейн-управления Cardano после фазы **Voltaire**. Обновление проходит финальные этапы валидации и утверждения. Успешное развертывание может укрепить доверие к дорожной карте блокчейна, в то время как задержки или неясности могут негативно повлиять на настроения рынка. Основная задача Cardano — продемонстрировать, что его децентрализованная модель управления способна координировать значимые технические изменения без сбоев. Хотя успех в тестовой сети PreProd является важным шагом, ключевым рубежом остается активация в основной сети. Реакция цены ADA может зависеть как от условий общего рынка, так и от четкости процесса обновления. Для Cardano оптимальным исходом является «скучное» исполнение: плавное обновление инфраструктуры, подтверждение со стороны управления и бирж, а также отсутствие серьезных сбоев для пользователей. Доказательство работоспособности этого процесса является главным катализатором для сети, сделавшей управление центральной частью своей идентичности.

bitcoinist39 мин. назад

Обновление Van Rossem для Cardano приближается к Mainnet по мере продвижения фазы управления

bitcoinist39 мин. назад

BitTorrent запускает BTTInferGrid: децентрализованный инфраструктурный слой для масштабируемого вывода AI

BitTorrent запускает BTTInferGrid: децентрализованный сетевой уровень для масштабируемого AI-инференса. BTTInferGrid — это децентрализованная сеть GPU-вычислений, созданная специально для задач инференса искусственного интеллекта. Платформа объединяет разрозненные и неиспользуемые глобальные GPU-ресурсы, предлагая разработчикам ИИ доступную, проверяемую и оплачиваемую по факту использования вычислительную инфраструктуру. Запуск платформы происходит в момент, когда до 70% вычислительных нагрузок ИИ смещаются от обучения моделей к их инференсу — фазе промышленной эксплуатации, на которую приходится до 95% затрат. BTTInferGrid решает ключевые проблемы централизованных облачных провайдеров: неэластичность при пиковых нагрузках, высокие цены на аренду GPU и наличие изолированных, простаивающих вычислительных мощностей по всему миру. Архитектура BTTInferGrid основана на модели DePIN. Со стороны предложения она агрегирует неиспользуемые GPU в общую сеть, позволяя владельцам монетизировать свои ресурсы. Со стороны спроса предоставляет разработчикам масштабируемые и экономичные инференс-услуги с проверкой результатов в блокчейне. Ключевыми преимуществами заявлены: беспрепятственный доступ для поставщиков ресурсов, проверяемое качество услуг через криптографические проверки и экономика, основанная на реальном спросе, а не на спекулятивных токенных эмиссиях. Платформа будет развиваться поэтапно: от начальной стадии запуска сети (2026) через диверсификацию поддерживаемых моделей ИИ (2027) к становлению в качестве фундаментального инфраструктурного уровня Web3 для крупномасштабных AI-приложений (2028 и далее). BTTInferGrid создается на базе проверенной архитектуры BitTorrent File System (BTFS), что обеспечивает ей преимущество в оркестрации ресурсов и децентрализованном управлении.

TheNewsCrypto1 ч. назад

BitTorrent запускает BTTInferGrid: децентрализованный инфраструктурный слой для масштабируемого вывода AI

TheNewsCrypto1 ч. назад

Годовая доходность 15–25%: ETF на биткойн от BlackRock — возможность или ловушка?

Компания BlackRock запускает биткоин-ETF BITA, целью которого является получение годового дохода в 15-25% при сохранении не менее 70% потенциального роста биткоина. Этот продукт, основанный на фонде IBIT, генерирует прибыль за счет продажи покрытых колл-опционов, предлагая инвесторам стабильный денежный поток, но ограничивая участие в резком росте цены биткоина. Сторонники продукта считают, что он привлечет новый капитал и будет способствовать росту цены биткоина, ссылаясь на устойчивый приток средств в IBIT и оптимистичные прогнозы крупных банков. Опытные инвесторы, такие как Майкл Терпин, видят возможности в текущем рыночном цикле и предсказывают значительный долгосрочный рост. Критики, включая технического директора Bitfinex Паоло Ардоино, предупреждают, что концентрация биткоина в ETF противоречит принципам децентрализации и может представлять собой «ловушку доходности». Они отмечают, что продукт не создает новый спрос, а лишь перераспределяет существующий, ограничивая прибыль при росте, но оставляя полные риски при падении. Влияние BITA на рынок станет ясно по динамике потоков средств. Устойчивое поглощение биткоина фондами поддержит бычий сценарий, в то время как простое перераспределение капитала подтвердит опасения критиков. Текущая цена около $65 000 многими рассматривается не как пик, а как потенциальная основа для нового цикла.

Foresight News1 ч. назад

Годовая доходность 15–25%: ETF на биткойн от BlackRock — возможность или ловушка?

Foresight News1 ч. назад

Торговля

Спот
Фьючерсы
活动图片