Un petit modèle de 3B, avec des scores en programmation comparables à ceux d’Opus 4.5, suscite un vif débat, et il est chinois

marsbitPublié le 2026-06-18Dernière mise à jour le 2026-06-18

Résumé

Récemment, un petit modèle de langage de 3 milliards de paramètres, nommé VibeThinker-3B, a suscité un vif intérêt sur les réseaux sociaux. Développé par l'équipe de Weibo, ce modèle affiche des performances en programmation et en raisonnement vérifiable comparables à celles de grands modèles de pointe comme GPT-5, Claude Opus 4.5 ou Gemini 3 Pro, malgré sa taille réduite. Spécialement conçu pour les tâches de raisonnement où la réponse peut être objectivement vérifiée (mathématiques, programmation compétitive, raisonnement STEM), VibeThinker-3B obtient des scores remarquables sur plusieurs benchmarks : 94.3 à l'AIME26, 89.3 au HMMT25, 80.2 au LiveCodeBench v6, et un taux de réussite de 96.1% sur des problèmes récents de LeetCode. Sa construction repose sur Qwen2.5-Coder-3B, suivie d'un processus de post-entraînement avancé nommé "Spectrum-to-Signal". Ce processus combine un fine-tuning supervisé en deux étapes basé sur un curriculum, un apprentissage par renforcement appliqué à plusieurs domaines de raisonnement, une auto-distillation hors ligne, et enfin un apprentissage par renforcement sur instructions (Instruct RL) pour améliorer la contrôlabilité. Le rapport technique introduit également une stratégie d'évaluation à la volée, la "Claim-Level Reliability" (CLR), qui permet de booster davantage les performances sur les tests mathématiques. Les auteurs proposent l'"hypothèse de compression paramétrique sélective", suggérant que les capacités de raisonnement vérifiable ...

Ces derniers jours, un petit modèle de 3B a fait sensation sur X, car dans certaines tâches de raisonnement à difficulté vérifiable (comme la programmation), il est entré dans la fourchette de performance de modèles de pointe tels que Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, alors que sa taille est bien inférieure à celle de ces modèles.

Ce modèle s'appelle VibeThinker-3B, un modèle de raisonnement dense à 3 milliards de paramètres, visant à explorer jusqu'où l'on peut pousser les capacités de raisonnement vérifiable dans le cadre strict d'une petite échelle de modèle.

Après la publication du modèle, beaucoup ont été impressionnés par ses résultats, exprimant leur envie de l'essayer eux-mêmes.

Il est à noter qu'il s'agit également d'un modèle chinois, développé par l'équipe de Weibo (Sina Weibo).

Le rapport technique montre que le modèle est conçu spécifiquement pour des tâches ayant des signaux de vérification fiables, incluant le raisonnement mathématique, la programmation compétitive, le raisonnement STEM, ainsi que l'exécution d'instructions avec des contraintes claires.

C'est pourquoi il obtient d'excellents résultats dans les divers benchmarks. Il a obtenu un score de 94,3 au test AIME26, 89,3 au test HMMT25, 80,2 (Pass@1) au test LiveCodeBench v6, et a atteint un taux de réussite de 96,1% lors des concours hebdomadaires et bimensuels les plus récents et non publics de LeetCode entre le 25 avril et le 31 mai 2026.

Comment ce modèle a-t-il été entraîné ? Le rapport technique révèle certains détails.

Tout d'abord, il est construit sur la base de Qwen2.5-Coder-3B et utilise un processus amélioré "Spectrum-to-Signal" pour l'entraînement ultérieur. Ce processus renforce la synthèse des données, le filtrage de qualité et l'apprentissage par curriculum dans le réglage fin supervisé (SFT), étend l'apprentissage par renforcement de style MGPO à plusieurs domaines vérifiables, conserve les trajectoires complètes de raisonnement en contexte long, et consolide les capacités grâce à l'autodistillation hors ligne et l'apprentissage par renforcement par instruction (Instruct RL).

Processus d'entraînement global de VibeThinker-3B

Processus "Spectrum-to-Signal".

De plus, VibeThinker-3B introduit l'évaluation de fiabilité au niveau des assertions (Claim-Level Reliability - CLR), une stratégie de mise à l'échelle (scaling) au moment du test pour le raisonnement vérifiable orienté réponse. La CLR améliore encore les performances sur les benchmarks mathématiques, faisant passer AIME26 de 94,3 à 97,1, HMMT25 de 89,3 à 95,4, et BruMO25 à 99,2.

Son processus d'entraînement spécifique est le suivant :

SFT en deux phases basé sur un curriculum. La première phase se concentre sur une large couverture des capacités en mathématiques, programmation, raisonnement STEM, dialogue général et suivi d'instructions. La deuxième phase passe à des échantillons de raisonnement plus difficiles et à l'horizon plus large. La distillation par exploration de la diversité est utilisée pour conserver plusieurs chemins de solution valides.
Apprentissage par renforcement pour le raisonnement multi-domaines. VibeThinker-3B réutilise le MGPO. L'apprentissage par renforcement est appliqué successivement aux tâches de raisonnement mathématique, de programmation et STEM. L'entraînement utilise une fenêtre de contexte long unique de 64K pour conserver les trajectoires complètes de raisonnement à long terme.
Autodistillation hors ligne. Filtrage et distillation des trajectoires de haute qualité à partir des points de contrôle du raisonnement mathématique, de la programmation et STEM, pour finalement former un modèle étudiant unifié. Un score de potentiel d'apprentissage est utilisé pour prioriser les trajectoires correctes mais que l'étudiant n'a pas encore bien imitées.
Instruct RL. La phase finale améliore la contrôlabilité face aux invites orientées utilisateur. Pour les données d'instruction sensibles au format et de type ouvert, des validateurs basés sur des règles et des modèles de récompense basés sur des critères sont utilisés.

Dans un récent post, le chercheur et blogueur IA renommé Sebastian Raschka a systématiquement résumé les points clés divulgués dans le rapport technique de VibeThinker-3B, incluant les suivants :

Si ces contenus vous intéressent, vous pouvez consulter leur rapport technique en détail. Actuellement, le modèle est également téléchargeable publiquement.

Titre du rapport : VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Lien vers le rapport : https://arxiv.org/pdf/2606.16140

Lien HuggingFace : https://huggingface.co/WeiboAI/VibeThinker-3B

Cependant, le champ d'application de ce modèle est clairement limité, car il ne brille pas dans les domaines nécessitant des connaissances générales.

Les auteurs l'ont également clairement indiqué et ont proposé l'« hypothèse de couverture par compression de paramètres » : différentes capacités dépendent des paramètres du modèle de manières très distinctes. Le raisonnement vérifiable se rapproche davantage d'une capacité hautement compressible et dense en paramètres, dont le cœur réside dans le raisonnement multi-étapes, la satisfaction de contraintes, l'autocorrection et la vérification des réponses. Lorsque la structure de l'espace des tâches est suffisamment claire et que les signaux de retour sont suffisamment fiables, des modèles compacts peuvent également posséder des capacités de raisonnement proches de l'état de l'art. En comparaison, les connaissances en domaine ouvert, le dialogue général et la compréhension de scénarios à longue traîne dépendent davantage de paramètres à grande échelle pour couvrir largement les faits, concepts et connaissances du monde. Cette hypothèse est très stimulante. VentureBeat écrit dans son reportage : « Elle révèle qu'il existe un découplage partiel entre les capacités de raisonnement et les connaissances factuelles, et que les premières peuvent être comprimées plus efficacement qu'on ne le pensait auparavant — une perspicacité qui a des implications profondes sur la façon dont l'industrie perçoit la conception des modèles, les coûts de déploiement et l'accessibilité des fonctionnalités avancées de l'intelligence artificielle. »

Les auteurs indiquent que leur objectif n'est pas de créer un petit modèle alternatif aux modèles à grande échelle, mais plutôt, en suivant une dimension de capacité spécifique, d'examiner les véritables limites des petits modèles. Avec VibeThinker-3B, ils espèrent montrer que les petits modèles ne doivent pas être considérés uniquement comme un compromis pour réduire les coûts de déploiement. Dans les domaines de capacité ayant des mécanismes clairs de retour et de vérification, les petits modèles linguistiques révèlent une voie de recherche prometteuse, susceptible d'atteindre des performances de niveau avancé, et de former une relation complémentaire fondamentale avec le paradigme traditionnel d'extension par l'échelle des paramètres.

Actuellement, le modèle fait également face à certaines critiques dans la communauté. Si ce modèle vous intéresse, pourquoi ne pas l'essayer vous-même.

Liens de référence :

https://x.com/orcus108/status/2066876960073281582

Cet article provient du compte officiel WeChat « Machine Heart » (ID : almosthuman2014), auteur : Zhang Qian

Questions liées

QQuel est le nom du petit modèle de 3B qui a suscité l'engouement sur X pour ses performances en programmation ?

ALe modèle s'appelle VibeThinker-3B. C'est un modèle dense de raisonnement avec 3 milliards de paramètres, développé par l'équipe de Weibo (Sina Weibo).

QQuelles sont les tâches principales pour lesquelles le modèle VibeThinker-3B a été conçu ?

AVibeThinker-3B a été conçu pour les tâches de raisonnement avec un signal de vérification fiable, notamment le raisonnement mathématique, la programmation compétitive, le raisonnement STEM (sciences, technologie, ingénierie et mathématiques) et l'exécution d'instructions avec des contraintes explicites.

QSur quelle architecture de base le modèle VibeThinker-3B a-t-il été construit ?

ALe modèle VibeThinker-3B a été construit à partir de Qwen2.5-Coder-3B. Il a ensuite suivi un processus de post-formation avancé appelé "Spectrum-to-Signal", incluant un fine-tuning supervisé (SFT), un apprentissage par renforcement (RL) et une autodistillation hors ligne.

QQuelle hypothèse importante concernant les capacités des modèles est mise en avant par les créateurs de VibeThinker-3B ?

ALes créateurs proposent l'**hypothèse de couverture par compression des paramètres**. Elle suggère que le raisonnement vérifiable (étapes multiples, satisfaction de contraintes) est une capacité hautement compressible, qui peut atteindre des niveaux de pointe même dans des modèles compacts lorsque la tâche est bien structurée et que le retour est fiable. En revanche, les connaissances factuelles générales et la compréhension de scénarios variés dépendent davantage d'un grand nombre de paramètres.

QOù peut-on trouver le rapport technique et télécharger le modèle VibeThinker-3B ?

ALe rapport technique intitulé "VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models" est disponible sur arXiv : https://arxiv.org/pdf/2606.16140. Le modèle peut être téléchargé sur la page HuggingFace de WeiboAI : https://huggingface.co/WeiboAI/VibeThinker-3B.

Lectures associées

Gate 研究院 : Analyse des configurations graphiques et stratégie de trading par breakout

**Gate Research : Analyse des figures graphiques et stratégie de trading par breakout** Les figures graphiques sont des outils clés de l'analyse technique pour observer les changements d'offre et de demande, ainsi que la continuation ou l'inversion des tendances. L'analyse repose sur une évaluation globale de la tendance, des volumes, des supports/résistances, de la durée et de la validité du breakout, et non sur une simple mémorisation de formes. On distingue principalement les figures de **retournement** (double top/double bottom, tête et épaules) et les figures de **continuation** (drapeau, triangle, rectangle). Un breakout valide nécessite généralement un support/résistance clair, une phase de consolidation prolongée, un contexte de tendance et une confirmation par les volumes. La stratégie de trading par breakout consiste à entrer en position lors de la rupture d'un niveau clé. Il est crucial de différencier les **breakouts valides** (avec forte impulsion et volumes), les **breakouts avec retest** (retour au niveau cassé pour confirmation) et les **faux breakouts** (fréquents, nécessitant une gestion stricte du risque). Les conditions d'une rupture valide incluent une clôture franche au-delà du niveau, une expansion des volumes et l'absence de retour immédiat dans l'ancienne fourchette. La gestion des risques est primordiale. Elle passe par un positionnement adapté, des **ordres de stop-loss** placés de manière judicieuse (par exemple sous le niveau de breakout), une confirmation éventuelle par retest et une prise de bénéfices échelonnée. Des indicateurs comme les **volumes**, l'**ATR**, les **moyennes mobiles** ou les **bandes de Bollinger** peuvent aider à valider la dynamique d'un breakout. En conclusion, les figures et le trading par breakout offrent un cadre d'analyse structuré, mais leur efficacité dépend de la convergence de plusieurs facteurs. Une approche robuste intègre l'identification des figures, la confirmation du signal, et une gestion rigoureuse du capital via le stop-loss et la prise de bénéfices.

marsbitIl y a 2 mins

Gate 研究院 : Analyse des configurations graphiques et stratégie de trading par breakout

marsbitIl y a 2 mins

Joseph Chalom : Ethereum devient la "couche de règlement de confiance" de la finance mondiale

Joseph Chalom, ancien responsable des actifs numériques de BlackRock et actuel PDG de Sharplink, présente une vision de l'avenir de la finance lors d'un événement VIP à Hong Kong. Il décrit une transformation fondamentale qu'il nomme "l'industrialisation de la confiance". Selon Chalom, le système financier traditionnel supporte un coût énorme, estimé à 9,3 billions de dollars par an aux États-Unis uniquement, pour créer une confiance artificielle via des intermédiaires, des contrats et des processus de règlement lents (1 à 3 jours). Cette architecture fragmentée, basée sur des millions de bases de données isolées, est inefficace. La solution émerge avec la convergence de l'IA et de la blockchain. Chalom identifie quatre piliers clés pour la transition : 1. **Les stablecoins** (monnaies stables) : Actuellement à 99,75% libellés en dollars, ils évoluent d'un simple pont vers les cryptos pour devenir une infrastructure majeure de paiements transfrontaliers et de salaires. 2. **Les actifs tokenisés** : Le mouvement vers des actifs financiers numérisés et négociables 24h/24 et 7j/7 est en cours, porté par des institutions comme le NYSE, le Nasdaq et le DTCC. 3. **La DeFi (Finance Décentralisée)** : Ces protocoles permettent déjà des services financiers automatisés (prêt, échange) sans intermédiaire, avec plus de 200 milliards de dollars de valeur. 4. **La Finance Agentique (Agentic Finance)** : Il s'agit du pilier le plus transformateur. Des agents IA autonomes effectueront des transactions et géreront des portefeuilles grâce à des monnaies programmables et des contrats intelligents, agissant comme un "CFO de poche" personnalisé pour chaque individu. Au cœur de cette nouvelle infrastructure se trouve **Ethereum**, que Chalom décrit comme la **"couche de règlement de la confiance"** pour la finance mondiale. Avec plus d'un million de nœuds validateurs, une fiabilité éprouvée sur une décennie et plus de 300 milliards de dollars d'actifs sécurisés (dont 65% des stablecoins et actifs tokenisés globaux), Ethereum fournit la sécurité économique, la liquidité et la robustesse nécessaires aux grandes institutions. En conclusion, nous ne sommes qu'au début de cette révolution. D'ici la fin de la décennie, la finance subira une transformation numérique historique, où les transactions se règleront instantanément sur des blockchains de confiance, orchestrées par des intelligences artificielles, rendant le terme "crypto" obsolète au profit d'une finance entièrement digitalisée.

marsbitIl y a 4 mins

Joseph Chalom : Ethereum devient la "couche de règlement de confiance" de la finance mondiale

marsbitIl y a 4 mins

STRC est gravement décroché, quels risques le marché valorise-t-il ?

STRC, les actions privilégiées perpétuelles de MicroStrategy, se sont nettement décotées à environ 89 $, loin de leur valeur nominale de 100 $. Cela porte leur rendement simple actuel à environ 12,9 %, malgré un dividende annuel maintenu à 11,5 % et une fréquence de versement passant à bimensuelle. Le marché semble ignorer la logique de couverture par les réserves de BTC de l'entreprise. Plusieurs facteurs expliquent cette dépréciation. D'abord, des trades de carry (emprunt à bas coût pour acheter des actifs à haut rendement) pourraient subir des débouclements de levier mécaniques, amplifiant les ventes. Ensuite, la tokenisation de STRC dans l'écosystème DeFi (via Apyx, Saturn, Pendle) a intégré l'actif à des mécanismes plus rapides de levier et de liquidation, amplifiant les ajustements de prix. De plus, l'apparition de produits concurrents comme le SATA de Strive, offrant un rendement nominal plus élevé (13 %) et des versements quotidiens, remet en question le caractère unique et la prime de rareté de STRC. Enfin, le marché distingue désormais la solidité du bilan (couverture des dividendes par les BTC) de la stabilité des flux de trésorerie nécessaires aux versements périodiques. La question clé est de savoir si le mécanisme de dividende ajustable de MicroStrategy parviendra à ramener le cours vers le pair (100 $), ou si cette décote marque un nouveau point de départ pour la prime de risque exigée par les investisseurs face à ces risques de levier, de liquidité et de concurrence.

marsbitIl y a 15 mins

STRC est gravement décroché, quels risques le marché valorise-t-il ?

marsbitIl y a 15 mins

Le prix du LIT atteint un nouveau sommet en six mois, combien de temps le mécanisme de rachat peut-il encore alimenter la hausse ?

Le jeton LIT de l'échange décentralisé de contrats perpétuels Lighter a atteint un nouveau sommet sur six mois, dépassant 1,90 $ le 18 juin, avant de se stabiliser autour de 1,60 $. Son prix est soutenu par un mécanisme de rachat programmé qui utilise 100 % des revenus de frais du protocole pour acheter du LIT sur le marché secondaire. Depuis son lancement, environ 15 millions de jetons (6% de l'offre en circulation) ont été rachetés pour 21 millions de dollars. Le modèle inclut également le LLP (Lighter Liquidity Pool), un pool de liquidités où les fournisseurs doivent bloquer du LIT pour déposer des actifs, créant une demande supplémentaire. Actuellement, plus de 1,23 milliard de LIT sont stakés. Cependant, des défis persistent. Le volume d'échange de Lighter a diminué, atteignant 1,68 trillion de dollars, loin derrière les 4,37 trillions de son principal concurrent, Hyperliquid. Contrairement à HYPE, le jeton de Hyperliquid, qui bénéficie du soutien d'institutions comme a16z et d'un ETF spot, LIT manque de soutiens publics de grande envergure. De plus, 75% de l'offre totale de LIT (10 milliards) est toujours verrouillée, avec des déblocages d'investisseurs et de l'équipe prévus à partir de fin 2026. En résumé, le « volant de rachat » de Lighter est un moteur de valorisation fort, mais sa pérennité dépendra de la reprise de son volume d'échanges et de son expansion face à la domination écrasante de Hyperliquid.

Foresight NewsIl y a 37 mins

Le prix du LIT atteint un nouveau sommet en six mois, combien de temps le mécanisme de rachat peut-il encore alimenter la hausse ?

Foresight NewsIl y a 37 mins

Anthony Scaramucci voit dans le RSI bas et l'apathie des particuliers un signal de fond pour le Bitcoin

Anthony Scaramucci, fondateur de SkyBridge Capital, exprime un point de vue contraire sur le Bitcoin, estimant que l'apathie actuelle des investisseurs de détail et la faiblesse du sentiment pourraient signaler un potentiel bas de cycle plutôt qu'une raison de quitter l'actif. Il affirme détenir toujours une quantité importante de Bitcoin et reste optimiste, anticipant une reprise plus marquée à partir de fin 2024 ou début 2027. Son argumentation s'appuie sur plusieurs indicateurs : faible intérêt des recherches, demande limitée, sentiment négatif et un Relative Strength Index (RSI) bas, bien qu'il soit précisé que ce RSI n'est pas nécessairement à un plus bas historique. Scaramucci avance que dans un marché aussi peu animé et avec une participation faible, même un choc de demande modeste pourrait avoir un impact prix significatif, car peu de participants sont positionnés pour la hausse. Cette configuration, bien qu'inconfortable pour les détenteurs, caractérise souvent les phases d'accumulation précédant un nouveau cycle haussier. Le risque principal reste que cette période d'apathie puisse se prolonger. Son analyse place donc l'accent sur la structure du marché et le sentiment comme éléments clés, plutôt que sur un catalyseur spécifique, dans un contexte où les avis sur le futur du Bitcoin restent partagés.

bitcoinistIl y a 46 mins

Anthony Scaramucci voit dans le RSI bas et l'apathie des particuliers un signal de fond pour le Bitcoin