3B Small Model's Programming Scores Rival Opus 4.5, Mysterious Model Sparks Heated Discussion, Turns Out to be Domestic

marsbitPublié le 2026-06-18Dernière mise à jour le 2026-06-18

Résumé

A 3B parameter dense reasoning model named VibeThinker-3B has gained significant attention for achieving performance comparable to leading models like Gemini 3 Pro, GPT-5 high, and Claude Opus 4.5 in verifiable reasoning tasks such as programming, mathematics, and STEM problem-solving, despite its significantly smaller size. Developed by Sina Weibo's team, the model is built upon Qwen2.5-Coder-3B. Its training employs an upgraded Spectrum-to-Signal pipeline, featuring a curriculum-based two-stage supervised fine-tuning (SFT), multi-domain reinforcement learning (RL) inspired by MGPO, offline self-distillation, and instruction RL to enhance controllability. A key innovation is the Claim-Level Reliability (CLR) assessment, a test-time scaling strategy that further boosts performance on math benchmarks. The model excels in specific, verifiable domains, scoring highly on tests like AIME26 (94.3/97.1 with CLR) and LiveCodeBench v6 (80.2 Pass@1). However, it performs less impressively in areas requiring broad general knowledge. The authors propose a "parameter compression coverage hypothesis," suggesting that verifiable reasoning abilities—reliant on multi-step logic and feedback—are highly compressible, while open-domain knowledge depends more on large-scale parameters. VibeThinker-3B demonstrates that small models, when specialized for tasks with clear verification signals, can reach frontier performance, offering a complementary research path to scaling model size. The model ...

In recent days, a 3B small model has gained popularity on X because in some difficulty-verifiable reasoning tasks (like programming), it has entered the performance range of frontier models like Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, and Kimi K2.5, while its size is far smaller than these models.

This model is named VibeThinker-3B, a dense reasoning model with 3 billion parameters, aiming to explore how far verifiable reasoning capability can be pushed under strictly small model scale constraints.

After the model's release, many were amazed by its results and expressed a desire to try it out.

Notably, it is also a domestic model, coming from the Sina Weibo team.

The technical report shows that this model is designed specifically for tasks with reliable verification signals, including mathematical reasoning, competitive programming, STEM reasoning, and instruction execution with clear constraints.

Therefore, it performs exceptionally well in various benchmark tests. It scored 94.3 on the AIME26 test, 89.3 on the HMMT25 test, 80.2 on the LiveCodeBench v6 test (Pass@1), and achieved a 96.1% pass rate in the latest unpublished weekly and biweekly LeetCode contests between April 25 and May 31, 2026.

How was this model trained? The technical report reveals some details.

First, it is built upon Qwen2.5-Coder-3B and undergoes post-training using an upgraded Spectrum-to-Signal process. This process strengthens data synthesis, quality filtering, and curriculum learning in Supervised Fine-Tuning (SFT), extends MGPO-style reinforcement learning to multiple verifiable domains, preserves complete long-context reasoning trajectories, and consolidates various capabilities through offline self-distillation and instruction reinforcement learning (Instruct RL).

Overall training pipeline of VibeThinker-3B

Spectrum-to-Signal pipeline.

Furthermore, VibeThinker-3B introduces Claim-Level Reliability (CLR) assessment, a test-time scaling strategy for answer-verifiable reasoning. CLR further improves performance on mathematical benchmarks, raising AIME26 from 94.3 to 97.1, HMMT25 from 89.3 to 95.4, and BruMO25 to 99.2.

The specific training pipeline is as follows:

  • Curriculum-based two-stage SFT. The first stage focuses on broad capability coverage in mathematics, programming, STEM reasoning, general conversation, and instruction following. The second stage shifts to more difficult, broader-scope reasoning samples. Diversity-Exploring Distillation is used to preserve multiple valid solution paths.
  • Multi-domain reasoning reinforcement learning. VibeThinker-3B reuses MGPO. Reinforcement learning is applied sequentially to mathematical, programming, and STEM reasoning tasks. Training uses a single 64K long-context window to preserve complete long-horizon reasoning trajectories.
  • Offline self-distillation. High-quality trajectories are filtered and distilled from the mathematical, programming, and STEM RL checkpoints, ultimately forming a unified student model. Learning Potential Scoring is used to prioritize trajectories that are correct but not yet well imitated by the student.
  • Instruct RL. The final stage improves the controllability for user-facing prompts. For format-sensitive and open-ended instructional data, rule-based verifiers and rubric-based reward models are employed.

In a recent post, well-known AI researcher and blogger Sebastian Raschka systematically summarized key points disclosed in the VibeThinker-3B technical report, including the following:

If you are interested in this content, you can delve into their technical report. Currently, the model is also publicly available for download.

Report Title: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Report Link: https://arxiv.org/pdf/2606.16140

HuggingFace Link: https://huggingface.co/WeiboAI/VibeThinker-3B

However, the model's applicable scope has clear limitations, as it does not perform well in domains requiring general knowledge.

The developers also explicitly point this out and propose the "Parameter Compression Coverage Hypothesis": Different capabilities rely on model parameters in drastically different ways. Verifiable reasoning is closer to a highly compressible, parameter-dense ability whose core lies in multi-step reasoning, constraint satisfaction, self-correction, and answer verification. When the task space structure is clear enough and feedback signals are sufficiently reliable, compact models can also possess near-state-of-the-art reasoning capabilities. In contrast, open-domain knowledge, general conversation, and long-tail scenario understanding rely more on large-scale parameters to extensively cover facts, concepts, and world knowledge. This hypothesis is very insightful. VentureBeat wrote in its report: "It reveals a partial decoupling between reasoning capability and factual knowledge, and that the former can be compressed more efficiently than previously thought — an insight that has profound implications for how the industry thinks about model design, deployment costs, and the accessibility of advanced AI capabilities."

The authors state that their goal is not to create a small model to replace large-scale models, but to examine the true boundaries of small models along specific capability dimensions. With VibeThinker-3B, they hope to demonstrate that small models should not merely be seen as a compromise to reduce deployment costs. In capability domains with clear feedback and verification mechanisms, small language models are revealing a promising research path, potentially achieving frontier-level performance and forming a fundamentally complementary relationship with the traditional paradigm of parameter scaling.

Currently, the model still faces some skepticism within the community. If you are interested in this model, you might want to try it out for yourself.

Reference Links:

https://x.com/orcus108/status/2066876960073281582

This article is from the WeChat public account "Machine Heart" (ID: almosthuman2014), author: Zhang Qian

Questions liées

QWhat is the name and key characteristic of the small AI model discussed in the article?

AThe model is called VibeThinker-3B. Its key characteristic is that despite being a small model with only 3 billion parameters, it achieves reasoning performance on verifiable tasks like programming that is comparable to much larger frontier models.

QWhich company or team developed the VibeThinker-3B model?

AThe VibeThinker-3B model was developed by the Sina Weibo (microblog) team, making it a domestic Chinese model.

QWhat is the core hypothesis proposed by the creators of VibeThinker-3B regarding model capabilities?

AThe core hypothesis is the 'Parameter-Compression Coverage Hypothesis'. It suggests that different capabilities depend on model parameters in distinct ways. Verifiable reasoning (multi-step reasoning, constraint satisfaction) is highly compressible and parameter-dense. In contrast, open-domain knowledge and understanding rely more on large-scale parameters for broad factual coverage.

QOn which specific benchmark tasks did VibeThinker-3B demonstrate exceptional performance?

AVibeThinker-3B demonstrated exceptional performance on verifiable reasoning benchmarks such as AIME26 (97.1 with CLR), HMMT25 (95.4 with CLR), LiveCodeBench v6 (80.2 Pass@1), and recent private LeetCode contests (96.1% pass rate).

QWhat are the main limitations or scope of application for the VibeThinker-3B model as stated in the article?

AThe model's applicability is limited. It excels in domains with clear verification signals (math, programming, STEM) but does not perform well in areas requiring general world knowledge, open-domain dialogue, or understanding of long-tail scenarios, as these rely on broader parametric coverage.

Lectures associées

Ne vous focalisez pas uniquement sur les licenciements, la nouvelle architecture de la Fondation Ethereum mérite plus d'attention

L’Ethereum Foundation (EF) a réorganisé sa structure, réduisant ses effectifs d’environ 20% (54 personnes) et son budget annuel de 40%. Cette restructuration vise à recentrer ses ressources et sa mission sur les couches fondamentales et difficiles à externaliser du protocole Ethereum. La nouvelle organisation priorise clairement la **couche Protocole** (57 personnes), suivie de la couche d’Accès (34). L’EF concentre désormais ses efforts sur les attributs essentiels d’Ethereum : la sécurité, la résistance à la censure, la vie privée, l’évolution du protocole et les clients. Des enjeux techniques de long terme comme la **sécurité post-quantique**, le **zkEVM**, la vérification formelle et la finalité sont désormais structurés en équipes dédiées et responsabilisées. Cette refonte s’accompagne d’un objectif financier : passer d’une consommation annuelle moyenne de 15% des réserves à environ 5% d’ici 2030, pour assurer la pérennité de la fondation. Parallèlement, l’EF encourage l’émergence de « nœuds » externes dans l’écosystème, comme EthLabs, pour prendre en charge des domaines plus proches de l’adoption, des applications et du développement produit. Le signal est fort : l’EF abandonne le modèle « généraliste » pour se concentrer sur les problèmes techniques complexes et de long terme, tout en partageant la responsabilité de construire l’écosystème avec d’autres organisations. L’enjeu sera de maintenir une coordination efficace au sein de cette nouvelle structure multipolaire.

Foresight NewsIl y a 9 mins

Ne vous focalisez pas uniquement sur les licenciements, la nouvelle architecture de la Fondation Ethereum mérite plus d'attention

Foresight NewsIl y a 9 mins

Analyse de rapport : Au cœur de l'explosion du CPO, quelle stratégie déploie Coherent ?

L'analyste de J.P. Morgan Samik Chatterjee réitère sa recommandation « surpondérer » pour Coherent (COHR), estimant que le marché sous-évalue son potentiel de croissance. La thèse repose sur trois piliers : 1. **Transmetteurs pour centres de données :** La demande pour ses transmetteurs 1.6T, désormais standard, reste forte avec une dynamique de prix saine. La tendance vers le CPO (Co-Packaged Optics) devrait stimuler, et non remplacer, la demande de composants optiques haut de gamme. 2. **CPO et OCS, des opportunités sous-estimées :** COHR possède un avantage dans le CPO grâce à son portefeuille complet de composants optiques (lasers, isolateurs, etc.), lui permettant de capturer une plus grande valeur par puce. Pour l'OCS (Optical Circuit Switch), son approche par cristaux liquides présente des avantages en fiabilité et consommation face aux solutions MEMS, sur un marché potentiel de 4 milliards de dollars. 3. **Croissance industrielle et amélioration de la marge :** Le segment industriel maintient une croissance organique de 5 à 10%. Parallèlement, la société vise une marge brute supérieure à 42%, soutenue par les produits premium, la transition vers des plaquettes de 6 pouces réduisant les coûts, et le déploiement de nouvelles solutions comme les matériaux de refroidissement haute performance. La stratégie inclut également un quadruplement planifié de la capacité de production de composants InP (phosphure d'indium) et une intégration verticale dans les systèmes à laser pompe, où COHR détient une position dominante. En résumé, la position clé de Coherent dans l'infrastructure optique pour l'IA, couplée à ces moteurs de croissance, fonde la recommandation positive.

marsbitIl y a 33 mins

Analyse de rapport : Au cœur de l'explosion du CPO, quelle stratégie déploie Coherent ?

marsbitIl y a 33 mins

Après une réduction de 20% des effectifs, quels sont les points clés de la nouvelle structure de l'EF ?

L' Ethereum Foundation (EF) a annoncé une restructuration organisationnelle, incluant une réduction de 20 % de ses effectifs (soit 54 employés). L'objectif déclaré est d'aligner l'organisation sur son "Mandat" de 2026, en se concentrant sur les principes fondamentaux de CROPS (Censure-Resistance, Openness & Freedom, Privacy, Security) et en devenant plus agile. La nouvelle structure est organisée autour de cinq pôles principaux : 1. **Protocole** : Recherche fondamentale et développement du protège (sécurité post-quantique, zkEVM, etc.). 2. **Accès** : Garantir un chemin d'accès sans confiance et sans autorisation pour les utilisateurs. 3. **Utilisateur** : Représenter les besoins des utilisateurs finaux. 4. **Communauté** : Maintenir les liens avec les alliés open-source et les défenseurs des libertés. 5. **Institutionnel** : Engager les entreprises et les gouvernements tout en veillant au respect des valeurs d'Ethereum. L'EF souligne que cette réorganisation n'est pas motivée par une crise financière, mais par une volonté de recentrage stratégique. Des dispositions (indemnités supérieures au légal, aide au reclassement dans l'écosystème) sont prévues pour les employés concernés. Les observateurs notent cependant que ce changement intervient dans un contexte de pression sur la gouvernance de l'EF et de fragmentation de l'écosystème L2. L'impact réel sur le rythme des mises à jour du protocole, le financement des biens publics et l'orientation stratégique reste à clarifier, l'EF promettant plus de détails dans les semaines à venir.

marsbitIl y a 43 mins

Après une réduction de 20% des effectifs, quels sont les points clés de la nouvelle structure de l'EF ?

marsbitIl y a 43 mins

Le MEV bot le plus avancé volé de 7,5 millions de dollars : L'Approval, le risque mortel le plus négligé sur la blockchain ?

Un robot MEV sophistiqué sur Ethereum, Jaredfromsubway.eth, a été victime d'une attaque ciblée ayant entraîné une perte d'environ 7,5 millions de dollars. L'attaquant a déployé des pools de liquidités et des jetons factices pour piéger le robot, l'amenant à accorder des autorisations (Approvals) ERC-20 malveillantes. Ces autorisations ont ensuite été utilisées pour drainer ses fonds. Cet incident met en lumière le risque fondamental et souvent négligé des Approvals dans l'écosystème DeFi. Contrairement aux vulnérabilités de contrat intelligent, le risque lié aux autorisations est systémique. Une fois accordée, une autorisation permet à un contrat d'accéder aux jetons d'un utilisateur, potentiellement indéfiniment. Les pratiques courantes comme l'approbation illimitée ("unlimited approval") et le manque de révocation des autorisations inutilisées augmentent considérablement l'exposition des utilisateurs. Un contrat initialement légitime peut devenir une menace s'il est compromis ultérieurement. Pour atténuer ces risques, les utilisateurs doivent adopter le principe du moindre privilège, en n'autorisant que les montants strictement nécessaires, utiliser des portefeuilles distincts pour les interactions avec des DApps, et révoquer régulièrement les autorisations inutiles via des outils dédiés. Les portefeuilles, quant à eux, doivent renforcer leurs défenses en fournissant des alertes claires, une analyse lisible des transactions signées et des outils de gestion des autorisations intégrés. La sécurité en Web3 ne se limite pas à la protection des clés privées ; elle exige une vigilance constante sur les autorisations actives qui représentent un accès permanent aux actifs.

marsbitIl y a 47 mins

Le MEV bot le plus avancé volé de 7,5 millions de dollars : L'Approval, le risque mortel le plus négligé sur la blockchain ?

marsbitIl y a 47 mins

Trading

Spot
Futures
活动图片