3B Small Model's Programming Scores Rival Opus 4.5, Mysterious Model Sparks Heated Discussion, Turns Out to be Domestic

marsbitОпубликовано 2026-06-18Обновлено 2026-06-18

Введение

A 3B parameter dense reasoning model named VibeThinker-3B has gained significant attention for achieving performance comparable to leading models like Gemini 3 Pro, GPT-5 high, and Claude Opus 4.5 in verifiable reasoning tasks such as programming, mathematics, and STEM problem-solving, despite its significantly smaller size. Developed by Sina Weibo's team, the model is built upon Qwen2.5-Coder-3B. Its training employs an upgraded Spectrum-to-Signal pipeline, featuring a curriculum-based two-stage supervised fine-tuning (SFT), multi-domain reinforcement learning (RL) inspired by MGPO, offline self-distillation, and instruction RL to enhance controllability. A key innovation is the Claim-Level Reliability (CLR) assessment, a test-time scaling strategy that further boosts performance on math benchmarks. The model excels in specific, verifiable domains, scoring highly on tests like AIME26 (94.3/97.1 with CLR) and LiveCodeBench v6 (80.2 Pass@1). However, it performs less impressively in areas requiring broad general knowledge. The authors propose a "parameter compression coverage hypothesis," suggesting that verifiable reasoning abilities—reliant on multi-step logic and feedback—are highly compressible, while open-domain knowledge depends more on large-scale parameters. VibeThinker-3B demonstrates that small models, when specialized for tasks with clear verification signals, can reach frontier performance, offering a complementary research path to scaling model size. The model ...

In recent days, a 3B small model has gained popularity on X because in some difficulty-verifiable reasoning tasks (like programming), it has entered the performance range of frontier models like Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, and Kimi K2.5, while its size is far smaller than these models.

This model is named VibeThinker-3B, a dense reasoning model with 3 billion parameters, aiming to explore how far verifiable reasoning capability can be pushed under strictly small model scale constraints.

After the model's release, many were amazed by its results and expressed a desire to try it out.

Notably, it is also a domestic model, coming from the Sina Weibo team.

The technical report shows that this model is designed specifically for tasks with reliable verification signals, including mathematical reasoning, competitive programming, STEM reasoning, and instruction execution with clear constraints.

Therefore, it performs exceptionally well in various benchmark tests. It scored 94.3 on the AIME26 test, 89.3 on the HMMT25 test, 80.2 on the LiveCodeBench v6 test (Pass@1), and achieved a 96.1% pass rate in the latest unpublished weekly and biweekly LeetCode contests between April 25 and May 31, 2026.

How was this model trained? The technical report reveals some details.

First, it is built upon Qwen2.5-Coder-3B and undergoes post-training using an upgraded Spectrum-to-Signal process. This process strengthens data synthesis, quality filtering, and curriculum learning in Supervised Fine-Tuning (SFT), extends MGPO-style reinforcement learning to multiple verifiable domains, preserves complete long-context reasoning trajectories, and consolidates various capabilities through offline self-distillation and instruction reinforcement learning (Instruct RL).

Overall training pipeline of VibeThinker-3B

Spectrum-to-Signal pipeline.

Furthermore, VibeThinker-3B introduces Claim-Level Reliability (CLR) assessment, a test-time scaling strategy for answer-verifiable reasoning. CLR further improves performance on mathematical benchmarks, raising AIME26 from 94.3 to 97.1, HMMT25 from 89.3 to 95.4, and BruMO25 to 99.2.

The specific training pipeline is as follows:

Curriculum-based two-stage SFT. The first stage focuses on broad capability coverage in mathematics, programming, STEM reasoning, general conversation, and instruction following. The second stage shifts to more difficult, broader-scope reasoning samples. Diversity-Exploring Distillation is used to preserve multiple valid solution paths.
Multi-domain reasoning reinforcement learning. VibeThinker-3B reuses MGPO. Reinforcement learning is applied sequentially to mathematical, programming, and STEM reasoning tasks. Training uses a single 64K long-context window to preserve complete long-horizon reasoning trajectories.
Offline self-distillation. High-quality trajectories are filtered and distilled from the mathematical, programming, and STEM RL checkpoints, ultimately forming a unified student model. Learning Potential Scoring is used to prioritize trajectories that are correct but not yet well imitated by the student.
Instruct RL. The final stage improves the controllability for user-facing prompts. For format-sensitive and open-ended instructional data, rule-based verifiers and rubric-based reward models are employed.

In a recent post, well-known AI researcher and blogger Sebastian Raschka systematically summarized key points disclosed in the VibeThinker-3B technical report, including the following:

If you are interested in this content, you can delve into their technical report. Currently, the model is also publicly available for download.

Report Title: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Report Link: https://arxiv.org/pdf/2606.16140

HuggingFace Link: https://huggingface.co/WeiboAI/VibeThinker-3B

However, the model's applicable scope has clear limitations, as it does not perform well in domains requiring general knowledge.

The developers also explicitly point this out and propose the "Parameter Compression Coverage Hypothesis": Different capabilities rely on model parameters in drastically different ways. Verifiable reasoning is closer to a highly compressible, parameter-dense ability whose core lies in multi-step reasoning, constraint satisfaction, self-correction, and answer verification. When the task space structure is clear enough and feedback signals are sufficiently reliable, compact models can also possess near-state-of-the-art reasoning capabilities. In contrast, open-domain knowledge, general conversation, and long-tail scenario understanding rely more on large-scale parameters to extensively cover facts, concepts, and world knowledge. This hypothesis is very insightful. VentureBeat wrote in its report: "It reveals a partial decoupling between reasoning capability and factual knowledge, and that the former can be compressed more efficiently than previously thought — an insight that has profound implications for how the industry thinks about model design, deployment costs, and the accessibility of advanced AI capabilities."

The authors state that their goal is not to create a small model to replace large-scale models, but to examine the true boundaries of small models along specific capability dimensions. With VibeThinker-3B, they hope to demonstrate that small models should not merely be seen as a compromise to reduce deployment costs. In capability domains with clear feedback and verification mechanisms, small language models are revealing a promising research path, potentially achieving frontier-level performance and forming a fundamentally complementary relationship with the traditional paradigm of parameter scaling.

Currently, the model still faces some skepticism within the community. If you are interested in this model, you might want to try it out for yourself.

Reference Links:

https://x.com/orcus108/status/2066876960073281582

This article is from the WeChat public account "Machine Heart" (ID: almosthuman2014), author: Zhang Qian

Связанные с этим вопросы

QWhat is the name and key characteristic of the small AI model discussed in the article?

AThe model is called VibeThinker-3B. Its key characteristic is that despite being a small model with only 3 billion parameters, it achieves reasoning performance on verifiable tasks like programming that is comparable to much larger frontier models.

QWhich company or team developed the VibeThinker-3B model?

AThe VibeThinker-3B model was developed by the Sina Weibo (microblog) team, making it a domestic Chinese model.

QWhat is the core hypothesis proposed by the creators of VibeThinker-3B regarding model capabilities?

AThe core hypothesis is the 'Parameter-Compression Coverage Hypothesis'. It suggests that different capabilities depend on model parameters in distinct ways. Verifiable reasoning (multi-step reasoning, constraint satisfaction) is highly compressible and parameter-dense. In contrast, open-domain knowledge and understanding rely more on large-scale parameters for broad factual coverage.

QOn which specific benchmark tasks did VibeThinker-3B demonstrate exceptional performance?

AVibeThinker-3B demonstrated exceptional performance on verifiable reasoning benchmarks such as AIME26 (97.1 with CLR), HMMT25 (95.4 with CLR), LiveCodeBench v6 (80.2 Pass@1), and recent private LeetCode contests (96.1% pass rate).

QWhat are the main limitations or scope of application for the VibeThinker-3B model as stated in the article?

AThe model's applicability is limited. It excels in domains with clear verification signals (math, programming, STEM) but does not perform well in areas requiring general world knowledge, open-domain dialogue, or understanding of long-tail scenarios, as these rely on broader parametric coverage.

Похожее

От Corning до Ciena: 10-кратные возможности на цепочке оптической связи для ИИ

Переход от меди к оптическим технологиям в дата-центрах ИИ создает инвестиционные возможности не только для известных компаний-производителей чипов, но и для ключевых поставщиков по всей цепочке создания стоимости в фотонике. Основной тезис: по мере перехода от 800G к 1.6T и далее к 3.2T, наибольшую выгоду получат компании, поставляющие критически важные компоненты, которые необходимы всем крупным игрокам, а не только самые разрекламированные бренды. **Ключевые компании и их роль:** * **Corning:** Лидер в производстве оптического волокна. Имеет долгосрочные контракты на миллиарды долларов с такими гигантами, как Meta, Amazon, Microsoft и другими. Высокая рентабельность и эффект масштаба. * **Amphenol:** Крупный производитель высокоскоростных соединителей и кабелей (как медных, так и оптических) для стоек ИИ-серверов. Эффективно интегрирует приобретения, демонстрируя высокий рост и прибыльность. * **Credo Technology:** Предоставляет решения для передачи данных (как по меди, так и по оптике), выступая "мостом" между старыми и новыми технологиями. Имеет высокие темпы роста, но также высокие риски из-за концентрации клиентов. * **Ciena:** Лидер в области когерентной оптики, чьи решения позволяют увеличить пропускную способность существующих волокон без их замены. Имеет значительный портфель заказов. * **AXT и VEO Solutions:** Компании "верхнего уровня" цепочки поставок. AXT производит ключевые материалы для оптических лазеров, но сталкивается с рисками экспортного регулирования. VEO Solutions предоставляет тестовое оборудование, необходимое всем участникам рынка ("лопаты для золотой лихорадки"). Также существуют специализированные ETF, такие как FOTO, для диверсифицированного инвестирования в фотонику. **Вывод:** Физические ограничения меди достигнуты. Переход на оптические технологии в дата-центрах ИИ неизбежен, а выгоды будут распределяться среди ключевых игроков по всей цепочке поставок — от материалов и компонентов до систем и тестирования.

marsbit12 мин. назад

От Corning до Ciena: 10-кратные возможности на цепочке оптической связи для ИИ

marsbit12 мин. назад

Collector Crypt с DAU всего 800 человек уже стал одним из самых прибыльных проектов в криптосфере?

**Collector Crypt (CARDS)**: Высокодоходный проект на Solana, оцифровывающий физические коллекционные карточки (в основном Pokémon). Он создает полную финансовую инфраструктуру вокруг этого актива. **Ключевая бизнес-модель**: Основная прибыль генерируется через систему «Гача» (цифровые кейсы). Платформа покупает карты оптом со скидкой 5-15%, пользователи открывают кейсы и могут либо оставить карты, либо немедленно продать их обратно платформе с дисконтом 7-15%. Средний выигрыш пользователя (EV) составляет около +2%, а платформа захватывает около 4.5% прибыли. **Революция рынка**: Проект бросает вызов таким гигантам, как eBay, где комиссии продавца достигают 16-20%. Collector Crypt взимает всего 2% за сделки, предлагая мгновенные расчеты, застрахованное хранение и удобную торговлю, кардинально улучшая пользовательский опыт. **Финансовые показатели**: В мае годовая прибыль оценивалась в ~53 млн долларов, а в июне темпы роста достигли ~109 млн долларов. При текущей полностью разводненной стоимости (FDV) ~550 млн долларов проект демонстрирует исключительную рентабельность. Помимо «Гачи», будущие источники дохода включают комиссии на вторичном рынке, партнерские доли и инструменты для участия в аукционах eBay. **Токеномика**: Общее предложение токенов — 20 млрд, но реальное циркулирующее предложение к 2027 году, вероятно, будет значительно меньше (около 13 млрд в самых агрессивных предположениях), что делает текущую оценку привлекательной. Команда уже начала выкуп токенов на открытом рынке. **Потенциал**: При всего около 800 ежедневных активных пользователей проект генерирует значительную прибыль. Он позиционирует себя не просто как торговая площадка для карточек, а как финансовая инфраструктура для нового класса активов — коллекционных предметов, открывая этот рынок для институциональных инвесторов. Расширение на спортивные карты и другие категории коллекционирования только начинается.

Foresight News25 мин. назад

Collector Crypt с DAU всего 800 человек уже стал одним из самых прибыльных проектов в криптосфере?

Foresight News25 мин. назад

Сенат США нацелен на осень 2026 года для выпуска законопроекта о налогообложении криптовалют на фоне продвижения закона CLARITY Act

Сенат США планирует представить законопроект о налогообложении криптовалют к осени 2026 года, параллельно продвигая закон CLARITY Act. Сенатор Стив Дэйнс сообщил, что республиканцы уже разработали основу законопроекта, схожую с недавними предложениями Палаты представителей. Растущий интерес Конгресса к четким налоговым правилам для цифровых активов стимулировал эту работу, при этом Комитет по финансам Сената ранее уже обсуждал такие вопросы, как стейкинг и майнинг. В то же время законодатели продолжают работу над всеобъемлющим законом CLARITY Act, который определяет правила регулирования криптовалютного рынка и разграничивает полномочия федеральных органов. Этот законопроект был одобрен Комитетом по банковским делам Сената, и его поддержали более 200 компаний отрасли, считающих, что четкое регулирование стимулирует инновации и инвестиции. Оба проекта — налоговый законопроект Сената и CLARITY Act — рассматриваются как взаимодополняющие шаги по созданию комплексной правовой базы для цифровых активов в США. Активность Конгресса указывает на ускорение процесса разработки соответствующего законодательства.

TheNewsCrypto28 мин. назад

Сенат США нацелен на осень 2026 года для выпуска законопроекта о налогообложении криптовалют на фоне продвижения закона CLARITY Act

TheNewsCrypto28 мин. назад

Новый председатель, старый инфляция, сверхожидаемая занятость: как глобальные активы переоцениваются после дебюта Ваша?

Новый председатель ФРС Кевин Уорш представил свой первый монетарный отчёт. Комитет по открытым рынкам оставил целевую ставку без изменений (3.50%—3.75%). Ключевым сигналом стало упрощение заявления ФРС и отказ от «форвардного руководства». Уорш подчеркнул, что Федрезерв должен сосредоточиться на данных, а не на предварительных обещаниях рынку. Хотя Уорш пытался снизить значимость «точечного графика» прогнозов, он показал сдвиг в сторону более жёсткой позиции: медианный прогноз по ставке на конец года вырос, а прогнозы по инфляции PCE на 2026 год были существенно повышены. Это указывает, что вопрос сейчас не о снижении, а о возможном повышении ставок. Уорш сталкивается со сложной дилеммой: инфляция остаётся высокой, а рынок труда неожиданно силён (безработица 4.3%, добавлено 172 тыс. рабочих мест в мае). Сильные экономические данные сейчас воспринимаются рынком негативно, повышая опасения по поводу политики ФРС. Внутри Федрезерва сохраняются разногласия между «голубями» и «ястребами». На рынках активы переоцениваются. Доллар укрепился, доходность гособлигаций остаётся под давлением. Акции технологического и AI-сектора, такие как полупроводники и облачная инфраструктура, столкнулись с давлением на оценку из-за высоких ставок, хотя их фундаментальный спрос остаётся стабильным. Золото и серебро находятся в подвешенном состоянии между высокими ставками и геополитическими рисками. Оборонные акции могут проявлять относительную устойчивость благодаря долгосрочным госзаказам. В будущем внимание рынка будет приковано к ключевым данным: отчёту по занятости за июнь (2 июля) и индексу потребительских цен (середина июля). Следующее заседание FOMC 28-29 июля станет первым по-настоящему значимым решением Уорша и задаст тон. Политическое давление в преддверии промежуточных выборов также будет проверять заявленную независимость ФРС.

marsbit38 мин. назад

Новый председатель, старый инфляция, сверхожидаемая занятость: как глобальные активы переоцениваются после дебюта Ваша?

marsbit38 мин. назад

Стабильные монеты как зарплата: почему они становятся предпочтительным выбором для международных работников?

**Стабильные монеты в зарплатах: почему они становятся предпочтительным выбором для международных работников?** Современная глобальная система оплаты труда скрывает валютные риски. Фрилансеры из Индии, Аргентины, Турции, работающие на компании США, получают доход в долларах, но тратят его в местной валюте. Принудительная конвертация зарплаты при получении ведет к потере покупательной способности, если местная валюта девальвирует. Например, за последний год индийский дизайнер, конвертировавший всю зарплату в рупии, потерял более 10% покупательной способности. В Аргентине потери могли составить 25%. Решение — сохранять часть дохода в долларах или стейблкоинах, привязанных к доллару. Однако обычным людям сложно открыть долларовый счет за рубежом из-за высоких комиссий (в среднем 6,5% за трансфер) и банковских ограничений. Стейблкоины устраняют эти барьеры: переводы почти мгновенны и стоят несколько долларов, а самохранимые кошельки (например, на платформе Altitude) позволяют напрямую владеть долларовыми активами без разрешения банков. Таким образом, работник может хранить сбережения в стейблкоинах, избегая инфляции, конвертируя в местную валюту только для текущих расходов, и даже получать доход через DeFi-протоколы. Хотя риски остаются (потеря приватного ключа, неясное регулирование), тренд набирает силу. Отчеты показывают, что в странах с высокой инфлацией большинство фрилансеров предпочитают зарплату в долларах или стейблкоинах. Это обеспечивает финансовый суверенитет: низкие издержки, контроль над активами и защита от девальвации. Даже МВФ признает потенциал стейблкоинов, предлагая регулировать, а не запрещать их. Стабильные монеты перестраивают зарплатную экосистему, делая деньги более свободными и гибкими.

Foresight News53 мин. назад

Стабильные монеты как зарплата: почему они становятся предпочтительным выбором для международных работников?