3B-модель поставила рекорд в программировании наравне с Opus 4.5: китайская модель вызвала горячие споры

marsbitОпубликовано 2026-06-18Обновлено 2026-06-18

Введение

В последние дни небольшая модель VibeThinker-3B (3 миллиарда параметров) привлекла большое внимание, продемонстрировав результаты, сопоставимые с передовыми крупными моделями, такими как GPT-5 high и Claude Opus 4.5, в задачах верифицируемого рассуждения — программировании, математике и STEM. Разработанная командой Weibo (Sina), она основана на Qwen2.5-Coder-3B и использует усовершенствованный конвейер Spectrum-to-Signal, включая обучение с подкреплением (RL) и дистилляцию. Модель показала выдающиеся результаты: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 на LiveCodeBench v6 и 96.1% успеха в свежих соревнованиях LeetCode. Метод Claim-Level Reliability (CLR) ещё повысил её точность. Важным выводом работы является «гипотеза параметрического сжатия»: возможности верифицируемого рассуждения (логика, проверка) могут быть эффективно сжаты в компактной модели, в отличие от общих знаний, требующих больших параметров. Это указывает на частичное разделение рассуждений и фактологических знаний. Цель авторов — не замена больших моделей, а исследование предела малых моделей в специфических областях с чёткими правилами и обратной связью. Модель доступна для загрузки, но её эффективность ограничена задачами с надёжной проверкой, а не общими диалогами.

В последние дни небольшая модель на 3B стала хитом в X, потому что на некоторых сложных, но проверяемых задачах на рассуждение (например, программирование) она вошла в диапазон производительности передовых моделей, таких как Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, при этом её размер значительно меньше, чем у этих моделей.

Эта модель называется VibeThinker-3B. Это плотная модель для рассуждений с 3 миллиардами параметров, цель которой — исследовать, насколько можно продвинуть проверяемую способность к рассуждению при строго ограниченном небольшом размере модели.

После публикации модели многие были поражены её результатами и выразили желание попробовать её в деле.

Стоит отметить, что это также отечественная модель от команды Weibo (Сина Вэйбо).

Технический отчёт показывает, что модель специально разработана для задач с надёжными сигналами верификации, включая математические рассуждения, спортивное программирование, STEM-рассуждения, а также выполнение инструкций с чёткими ограничениями.

Поэтому она показывает выдающиеся результаты по всем контрольным тестам. В тесте AIME26 она набрала 94,3 балла, в тесте HMMT25 — 89,3 балла, в тесте LiveCodeBench v6 — 80,2 балла (Pass@1), а в самых свежих непубличных еженедельных и двухнедельных соревнованиях LeetCode с 25 апреля по 31 мая 2026 года достигла процента успешных решений 96,1%.

Как обучалась эта модель? Технический отчёт раскрывает некоторые детали.

Во-первых, она построена на основе Qwen2.5-Coder-3B и проходит последующее обучение по усовершенствованному процессу Spectrum-to-Signal. Этот процесс усиливает синтез данных, фильтрацию качества и поурочное обучение при контролируемом тонком обучении (SFT), расширяет обучение с подкреплением в стиле MGPO на несколько проверяемых областей, сохраняет полные траектории рассуждений в длинном контексте и укрепляет все способности с помощью авто-дистилляции вне сети и обучения с подкреплением на инструкциях (Instruct RL).

Общий процесс обучения VibeThinker-3B.

Процесс Spectrum-to-Signal.

Кроме того, VibeThinker-3B внедряет оценку надёжности на уровне утверждений (Claim-Level Reliability, CLR) — это стратегия масштабирования во время тестирования, ориентированная на проверяемые рассуждения с ответами. CLR дополнительно повышает производительность на математических тестах, увеличивая результат AIME26 с 94,3 до 97,1, HMMT25 с 89,3 до 95,4 и поднимая BruMO25 до 99,2.

Конкретный процесс обучения выглядит следующим образом:

Двухэтапное SFT на основе учебного плана. Первый этап сосредоточен на широком охвате способностей, включая математику, программирование, STEM-рассуждения, общий диалог и следование инструкциям. Второй этап переходит к более сложным и широким по охвату выборкам для рассуждений. Дистилляция с исследованием разнообразия используется для сохранения нескольких эффективных путей решения.
Обучение с подкреплением для рассуждений в нескольких областях. VibeThinker-3B повторно использует MGPO. Обучение с подкреплением последовательно применяется к математическим, программистским и STEM-задачам на рассуждение. Для обучения используется одно окно длинного контекста на 64K токенов, чтобы сохранить полные траектории длинных рассуждений.
Авто-дистилляция вне сети. Высококачественные траектории отбираются и очищаются из контрольных точек обучения с подкреплением по математике, программированию и STEM, в конечном итоге формируя единую студенческую модель. Оценка потенциала обучения используется для приоритизации тех траекторий, которые правильны, но ещё не были хорошо усвоены студенческой моделью.
Instruct RL. Финальный этап повышает управляемость для пользовательских промптов. Для учебных данных, чувствительных к формату и открытых, используются основанные на правилах валидаторы и модели вознаграждения на основе критериев оценки.

В недавнем посте известный исследователь ИИ и блогер Себастьян Рашка систематически обобщил ключевые моменты, раскрытые в техническом отчёте VibeThinker-3B, включая следующие:

Если вас заинтересовало это содержание, вы можете подробно изучить их технический отчёт. В настоящее время модель также доступна для публичного скачивания.

Название отчёта: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Ссылка на отчёт: https://arxiv.org/pdf/2606.16140

Ссылка на HuggingFace: https://huggingface.co/WeiboAI/VibeThinker-3B

Однако область применения этой модели чётко ограничена, поскольку в областях, требующих общих знаний, она не показывает выдающихся результатов.

Разработчики также чётко указали на это и выдвинули «гипотезу сжатия параметров для покрытия»: разные способности по-разному зависят от параметров модели. Проверяемое рассуждение ближе к высокосжимаемой, параметрически плотной способности, ядро которой заключается в многошаговом рассуждении, удовлетворении ограничений, самокоррекции и проверке ответов. Когда пространство задач имеет достаточно чёткую структуру и сигналы обратной связи достаточно надёжны, компактная модель также может обладать способностью к рассуждениям, близкой к передовому уровню. В отличие от этого, знания в открытой области, общий диалог и понимание длинных хвостов сценариев в большей степени зависят от масштаба параметров для широкого покрытия фактов, концепций и знаний о мире. Эта гипотеза очень вдохновляет. VentureBeat в своём репортаже написали: «Она раскрывает частичное разделение между способностью к рассуждению и фактическими знаниями, и первая может быть сжата более эффективно, чем предполагалось ранее — это понимание имеет далеко идущие последствия для того, как индустрия рассматривает дизайн моделей, стоимость развёртывания и доступность продвинутых функций искусственного интеллекта.»

Авторы заявляют, что их цель — не создать небольшую модель как замену крупным моделям, а изучить истинные границы небольших моделей вдоль определённых измерений способностей. С помощью VibeThinker-3B они хотят показать, что небольшие модели не должны рассматриваться лишь как компромисс для снижения стоимости развёртывания. В областях способностей с чёткими механизмами обратной связи и проверки небольшие языковые модели открывают перспективный исследовательский путь, потенциально позволяющий достичь передового уровня производительности и создать фундаментально дополняющие отношения с традиционной парадигмой масштабирования по параметрам.

В настоящее время в сообществе к этой модели всё ещё есть некоторые сомнения. Если вам интересна эта модель,不妨 попробуйте её сами.

Ссылки:

https://x.com/orcus108/status/2066876960073281582

Эта статья взята с официального аккаунта WeChat «Машинный разум» (ID: almosthuman2014), автор: Чжан Цянь.

Связанные с этим вопросы

QЧто такое VibeThinker-3B и почему он привлёк к себе внимание?

AVibeThinker-3B — это небольшая языковая модель с 3 миллиардами параметров, разработанная командой Weibo (Sina Weibo). Она привлекла внимание, потому что в таких поддающихся проверке рассуждениях, как программирование, показала результаты, сравнимые с крупными передовыми моделями, такими как GPT-5 high и Claude Opus 4.5, при значительно меньшем размере.

QКаковы ключевые характеристики производительности модели VibeThinker-3B?

AМодель показывает выдающиеся результаты в проверяемых задачах: 94.3 балла на AIME26, 89.3 на HMMT25, 80.2 балла (Pass@1) на LiveCodeBench v6 и 96.1% проходимость на недавних непубличных соревнованиях LeetCode (апрель-май 2026). Использование стратегии CLR (Claim-Level Reliability) дополнительно повышает её показатели.

QКак тренировали модель VibeThinker-3B?

AМодель основана на Qwen2.5-Coder-3B. Её обучение включает: 1) Двухэтапный SFT по учебному плану с акцентом на математику, программирование, STEM и общий диалог. 2) Обучение с подкреплением (RL) в нескольких областях рассуждений. 3) Оффлайн само-дистилляцию для объединения знаний. 4) Instruct RL для улучшения управляемости при взаимодействии с пользователем. Используется процесс Spectrum-to-Signal.

QВ чём заключается «гипотеза параметрического сжатия и покрытия», предложенная авторами?

AАвторы предполагают, что разные способности по-разному зависят от параметров модели. Проверяемое рассуждение (логика, решение задач) — это «сжимаемая», параметрически-плотная способность, которая может быть эффективно реализована в компактной модели при наличии чёткой структуры задачи и надёжной обратной связи. В то время как общие знания и понимание мира требуют больших параметров для широкого покрытия фактов. Это означает частичное разделение логического мышления и фактологических знаний.

QКаковы ограничения модели VibeThinker-3B и где она неэффективна?

AVibeThinker-3B специализируется на задачах с чёткими правилами и возможностью проверки (математика, программирование, STEM). В областях, требующих обширных общих знаний, понимания открытого мира или работы с длинными хвостами редких сценариев, её производительность значительно ниже, чем у крупных моделей. Она не предназначена для замены больших моделей в общих диалогах или решениях неструктурированных задач.

Похожее

В результате взлома Coldcard, одного из крупнейших взломов биткоин-кошельков за последнее время, началась новая волна убытков! Убытки растут

В результате взлома Coldcard, одного из крупнейших взломов биткоин-кошельков за последнее время, произошла третья волна атак. Исследовательская компания Galaxy Research сообщает, что из кошельков, созданных на этих устройствах, было выведено еще 207,73 BTC. Общие потери теперь составляют около 1367 BTC (примерно 88,6 млн долларов США) по 4585 адресам. Первые две волны атак демонстрировали схожие черты, что указывало на одного злоумышленника. Однако третья волна отличается по методам: используются отдельные адреса для каждой жертвы, адреса P2WSH вместо P2WPKH, и атака нацелена на стандартный путь генерации. Это может означать либо модификацию инструментов первоначальным взломщиком, либо появление нового. Похищенные биткоины, общая стоимость которых оценивается в 88,6 млн долларов, пока не были потрачены злоумышленниками. Анализ показывает, что потери в основном пришлись на кошельки с небольшим балансом, что характерно для индивидуальных пользователей, а не институциональных сервисов. Уязвимое ПО Coldcard было выпущено 17 марта 2021 года, и все украденные средства были созданы после этой даты.

cryptonews.ru39 мин. назад

В результате взлома Coldcard, одного из крупнейших взломов биткоин-кошельков за последнее время, началась новая волна убытков! Убытки растут

cryptonews.ru39 мин. назад

Trump Media продаёт ещё 2628 BTC, запасы снижаются до 4261 BTC

Компания Trump Media & Technology Group (TMTG), стоящая за социальной сетью Truth Social, продолжает сокращать свои вложения в Bitcoin. По данным аналитической платформы Lookonchain, компания продала ещё 2628 BTC на сумму около 165 миллионов долларов через платформу Crypto.com. Это продолжение серии продаж, начавшихся семь месяцев назад. Всего за этот период TMTG продала 7281 BTC на общую сумму примерно 545 миллионов долларов по средней цене 74 855 долларов за монету. Первоначально компания приобрела 11542 BTC по средней цене 118 522 доллара. После последних транзакций её резервы сократились до 4261 BTC (около 269,8 миллиона долларов), что на 63% меньше изначальных холдингов. Эти продажи происходят на фоне усиленного внимания законодателей к криптовалютным интересам, связанным с Дональдом Трампом. В Конгрессе идут дебаты по закону CLARITY Act, который касается этических норм, владения цифровыми активами и потенциальных конфликтов интересов государственных лиц. Критики указывают на такие проекты, как мемкойны TRUMP и MELANIA, а также на токены World Liberty Financial, связывая политическое влияние с частными криптоинтересами.

cointelegraph59 мин. назад

Trump Media продаёт ещё 2628 BTC, запасы снижаются до 4261 BTC

cointelegraph59 мин. назад

Фуцзянь, Цзиньцзян: супер-единорог в сфере памяти тихо делает своё дело

В провинции Фуцзянь в городе Цзиньцзян, известном производством спортивной обуви, находится перспективная компания в области производства чипов памяти — Fujian Jinhua Integrated Circuit Co. (Jinhua). Основанная в 2016 году как часть национального плана по развитию полупроводниковой промышленности, компания столкнулась с серьёзными вызовами. В 2018 году она была внесена в санкционный список Министерства торговли США по обвинению в промышленном шпионаже в пользу американской компании Micron, что привело к остановке производственной линии. После пяти лет судебных разбирательств в феврале 2024 года федеральный суд в Сан-Франциско полностью оправдал Jinhua, сняв все обвинения. Несмотря на правовую победу, компания всё ещё остаётся в санкционном списке, а годы задержек серьёзно замедлили её развитие. Под руководством своего ключевого инженера Чэнь Чжэнкуня, известного как «мастер эффективности», компания сумела адаптировать производство, увеличив долю отечественного оборудования. В отличие от ChangXin Memory Technologies (CXMT) и Yangtze Memory Technologies (YMTC), которые продвинулись дальше в производстве DRAM и NAND-памяти соответственно, Jinhua сосредоточена на специализированной (нишевой) DRAM-памяти для потребительской электроники. Её текущая производственная мощность составляет около 40 000 пластин в месяц. Хотя её доход в 2023 году оценивался примерно в 2 млрд юаней, что значительно меньше, чем у конкурентов, компания остаётся важным игроком. История Jinhua тесно связана с амбициозной промышленной трансформацией города Цзиньцзян. Местные власти оказали компании полную поддержку, включая финансовые гарантии и создание кластера, что демонстрирует стратегическую важность проекта для региона. Несмотря на то, что Jinhua упустила первые годы бума на рынке памяти, её устойчивость в условиях санкций показывает потенциал для восстановления в новом цикле роста, движимом развитием искусственного интеллекта.

marsbit1 ч. назад

Фуцзянь, Цзиньцзян: супер-единорог в сфере памяти тихо делает своё дело

marsbit1 ч. назад

Почему биткойн-фермы внезапно стали новым входом для вычислительных мощностей ИИ на фоне дефицита электроэнергии в 38 ГВт?

Заголовок: Почему майнинговые фермы для биткоина внезапно стали новым входом для вычислительных мощностей ИИ на фоне дефицита электроэнергии в 38 ГВт? Краткое содержание: Когда конкуренция между центрами обработки данных ИИ сместилась с вопроса «кто купит больше GPU» к «кто раньше получит электроэнергию», некоторые майнинговые фермы для биткоина, ранее считавшиеся волатильными активами, начали трансформироваться в центры обработки данных для облачных провайдеров, используя свои готовые возможности подключения к сети, землю и трансформаторные подстанции. По расчетам Morgan Stanley, в период 2026-2028 годов в США может возникнуть дефицит электроэнергии для ЦОДов около 38 ГВт, и модернизация старых майнинговых ферм может обеспечить от 10 до 19 ГВт. Такие компании, как TeraWulf и Hut 8, переориентируются с добычи криптовалют на предоставление инфраструктуры («Powered Shell Provider»), предлагая клиентам из сферы ИИ критически важный ресурс — возможность быстрее конкурентов развернуть значительные вычислительные мощности. Ключевой ценностью становится не вычислительная мощность для майнинга, а дефицитный доступ к электросетям, получение которого «с нуля» в некоторых регионах США теперь может занять 5-7 лет.

华尔街日报1 ч. назад

Почему биткойн-фермы внезапно стали новым входом для вычислительных мощностей ИИ на фоне дефицита электроэнергии в 38 ГВт?

华尔街日报1 ч. назад

Майкл Сэйлор: «Мы никогда не говорили, что никогда не будем продавать биткоины»

Председатель стратегической комиссии Майкл Сэйлор прокомментировал сообщения о новом разрешении компании Strategy на продажу биткоинов. Он заявил, что данное разрешение не является новым — оно было объявлено ещё 29 июня в рамках системы управления капиталом компании. Соглашение позволяет продавать BTC на сумму до 5 миллиардов долларов для определённых целей, но не обязывает компанию к продаже. Сэйлор подчеркнул, что Strategy никогда официально не брала на себя обязательство никогда не продавать свои биткоины, хотя и рассчитывает оставаться чистым покупателем BTC в долгосрочной перспективе. Он назвал текущие новости «старыми», переподанными как новые, и подтвердил, что программа монетизации биткоинов компании не предполагает обязательной продажи её активов.

cryptonews.ru2 ч. назад

Майкл Сэйлор: «Мы никогда не говорили, что никогда не будем продавать биткоины»