Un petit modèle de 3B, avec des scores en programmation comparables à ceux d’Opus 4.5, suscite un vif débat, et il est chinois

marsbitPublié le 2026-06-18Dernière mise à jour le 2026-06-18

Résumé

Récemment, un petit modèle de langage de 3 milliards de paramètres, nommé VibeThinker-3B, a suscité un vif intérêt sur les réseaux sociaux. Développé par l'équipe de Weibo, ce modèle affiche des performances en programmation et en raisonnement vérifiable comparables à celles de grands modèles de pointe comme GPT-5, Claude Opus 4.5 ou Gemini 3 Pro, malgré sa taille réduite. Spécialement conçu pour les tâches de raisonnement où la réponse peut être objectivement vérifiée (mathématiques, programmation compétitive, raisonnement STEM), VibeThinker-3B obtient des scores remarquables sur plusieurs benchmarks : 94.3 à l'AIME26, 89.3 au HMMT25, 80.2 au LiveCodeBench v6, et un taux de réussite de 96.1% sur des problèmes récents de LeetCode. Sa construction repose sur Qwen2.5-Coder-3B, suivie d'un processus de post-entraînement avancé nommé "Spectrum-to-Signal". Ce processus combine un fine-tuning supervisé en deux étapes basé sur un curriculum, un apprentissage par renforcement appliqué à plusieurs domaines de raisonnement, une auto-distillation hors ligne, et enfin un apprentissage par renforcement sur instructions (Instruct RL) pour améliorer la contrôlabilité. Le rapport technique introduit également une stratégie d'évaluation à la volée, la "Claim-Level Reliability" (CLR), qui permet de booster davantage les performances sur les tests mathématiques. Les auteurs proposent l'"hypothèse de compression paramétrique sélective", suggérant que les capacités de raisonnement vérifiable ...

Ces derniers jours, un petit modèle de 3B a fait sensation sur X, car dans certaines tâches de raisonnement à difficulté vérifiable (comme la programmation), il est entré dans la fourchette de performance de modèles de pointe tels que Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, alors que sa taille est bien inférieure à celle de ces modèles.

Ce modèle s'appelle VibeThinker-3B, un modèle de raisonnement dense à 3 milliards de paramètres, visant à explorer jusqu'où l'on peut pousser les capacités de raisonnement vérifiable dans le cadre strict d'une petite échelle de modèle.

Après la publication du modèle, beaucoup ont été impressionnés par ses résultats, exprimant leur envie de l'essayer eux-mêmes.

Il est à noter qu'il s'agit également d'un modèle chinois, développé par l'équipe de Weibo (Sina Weibo).

Le rapport technique montre que le modèle est conçu spécifiquement pour des tâches ayant des signaux de vérification fiables, incluant le raisonnement mathématique, la programmation compétitive, le raisonnement STEM, ainsi que l'exécution d'instructions avec des contraintes claires.

C'est pourquoi il obtient d'excellents résultats dans les divers benchmarks. Il a obtenu un score de 94,3 au test AIME26, 89,3 au test HMMT25, 80,2 (Pass@1) au test LiveCodeBench v6, et a atteint un taux de réussite de 96,1% lors des concours hebdomadaires et bimensuels les plus récents et non publics de LeetCode entre le 25 avril et le 31 mai 2026.

Comment ce modèle a-t-il été entraîné ? Le rapport technique révèle certains détails.

Tout d'abord, il est construit sur la base de Qwen2.5-Coder-3B et utilise un processus amélioré "Spectrum-to-Signal" pour l'entraînement ultérieur. Ce processus renforce la synthèse des données, le filtrage de qualité et l'apprentissage par curriculum dans le réglage fin supervisé (SFT), étend l'apprentissage par renforcement de style MGPO à plusieurs domaines vérifiables, conserve les trajectoires complètes de raisonnement en contexte long, et consolide les capacités grâce à l'autodistillation hors ligne et l'apprentissage par renforcement par instruction (Instruct RL).

Processus d'entraînement global de VibeThinker-3B

Processus "Spectrum-to-Signal".

De plus, VibeThinker-3B introduit l'évaluation de fiabilité au niveau des assertions (Claim-Level Reliability - CLR), une stratégie de mise à l'échelle (scaling) au moment du test pour le raisonnement vérifiable orienté réponse. La CLR améliore encore les performances sur les benchmarks mathématiques, faisant passer AIME26 de 94,3 à 97,1, HMMT25 de 89,3 à 95,4, et BruMO25 à 99,2.

Son processus d'entraînement spécifique est le suivant :

SFT en deux phases basé sur un curriculum. La première phase se concentre sur une large couverture des capacités en mathématiques, programmation, raisonnement STEM, dialogue général et suivi d'instructions. La deuxième phase passe à des échantillons de raisonnement plus difficiles et à l'horizon plus large. La distillation par exploration de la diversité est utilisée pour conserver plusieurs chemins de solution valides.
Apprentissage par renforcement pour le raisonnement multi-domaines. VibeThinker-3B réutilise le MGPO. L'apprentissage par renforcement est appliqué successivement aux tâches de raisonnement mathématique, de programmation et STEM. L'entraînement utilise une fenêtre de contexte long unique de 64K pour conserver les trajectoires complètes de raisonnement à long terme.
Autodistillation hors ligne. Filtrage et distillation des trajectoires de haute qualité à partir des points de contrôle du raisonnement mathématique, de la programmation et STEM, pour finalement former un modèle étudiant unifié. Un score de potentiel d'apprentissage est utilisé pour prioriser les trajectoires correctes mais que l'étudiant n'a pas encore bien imitées.
Instruct RL. La phase finale améliore la contrôlabilité face aux invites orientées utilisateur. Pour les données d'instruction sensibles au format et de type ouvert, des validateurs basés sur des règles et des modèles de récompense basés sur des critères sont utilisés.

Dans un récent post, le chercheur et blogueur IA renommé Sebastian Raschka a systématiquement résumé les points clés divulgués dans le rapport technique de VibeThinker-3B, incluant les suivants :

Si ces contenus vous intéressent, vous pouvez consulter leur rapport technique en détail. Actuellement, le modèle est également téléchargeable publiquement.

Titre du rapport : VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Lien vers le rapport : https://arxiv.org/pdf/2606.16140

Lien HuggingFace : https://huggingface.co/WeiboAI/VibeThinker-3B

Cependant, le champ d'application de ce modèle est clairement limité, car il ne brille pas dans les domaines nécessitant des connaissances générales.

Les auteurs l'ont également clairement indiqué et ont proposé l'« hypothèse de couverture par compression de paramètres » : différentes capacités dépendent des paramètres du modèle de manières très distinctes. Le raisonnement vérifiable se rapproche davantage d'une capacité hautement compressible et dense en paramètres, dont le cœur réside dans le raisonnement multi-étapes, la satisfaction de contraintes, l'autocorrection et la vérification des réponses. Lorsque la structure de l'espace des tâches est suffisamment claire et que les signaux de retour sont suffisamment fiables, des modèles compacts peuvent également posséder des capacités de raisonnement proches de l'état de l'art. En comparaison, les connaissances en domaine ouvert, le dialogue général et la compréhension de scénarios à longue traîne dépendent davantage de paramètres à grande échelle pour couvrir largement les faits, concepts et connaissances du monde. Cette hypothèse est très stimulante. VentureBeat écrit dans son reportage : « Elle révèle qu'il existe un découplage partiel entre les capacités de raisonnement et les connaissances factuelles, et que les premières peuvent être comprimées plus efficacement qu'on ne le pensait auparavant — une perspicacité qui a des implications profondes sur la façon dont l'industrie perçoit la conception des modèles, les coûts de déploiement et l'accessibilité des fonctionnalités avancées de l'intelligence artificielle. »

Les auteurs indiquent que leur objectif n'est pas de créer un petit modèle alternatif aux modèles à grande échelle, mais plutôt, en suivant une dimension de capacité spécifique, d'examiner les véritables limites des petits modèles. Avec VibeThinker-3B, ils espèrent montrer que les petits modèles ne doivent pas être considérés uniquement comme un compromis pour réduire les coûts de déploiement. Dans les domaines de capacité ayant des mécanismes clairs de retour et de vérification, les petits modèles linguistiques révèlent une voie de recherche prometteuse, susceptible d'atteindre des performances de niveau avancé, et de former une relation complémentaire fondamentale avec le paradigme traditionnel d'extension par l'échelle des paramètres.

Actuellement, le modèle fait également face à certaines critiques dans la communauté. Si ce modèle vous intéresse, pourquoi ne pas l'essayer vous-même.

Liens de référence :

https://x.com/orcus108/status/2066876960073281582

Cet article provient du compte officiel WeChat « Machine Heart » (ID : almosthuman2014), auteur : Zhang Qian

Questions liées

QQuel est le nom du petit modèle de 3B qui a suscité l'engouement sur X pour ses performances en programmation ?

ALe modèle s'appelle VibeThinker-3B. C'est un modèle dense de raisonnement avec 3 milliards de paramètres, développé par l'équipe de Weibo (Sina Weibo).

QQuelles sont les tâches principales pour lesquelles le modèle VibeThinker-3B a été conçu ?

AVibeThinker-3B a été conçu pour les tâches de raisonnement avec un signal de vérification fiable, notamment le raisonnement mathématique, la programmation compétitive, le raisonnement STEM (sciences, technologie, ingénierie et mathématiques) et l'exécution d'instructions avec des contraintes explicites.

QSur quelle architecture de base le modèle VibeThinker-3B a-t-il été construit ?

ALe modèle VibeThinker-3B a été construit à partir de Qwen2.5-Coder-3B. Il a ensuite suivi un processus de post-formation avancé appelé "Spectrum-to-Signal", incluant un fine-tuning supervisé (SFT), un apprentissage par renforcement (RL) et une autodistillation hors ligne.

QQuelle hypothèse importante concernant les capacités des modèles est mise en avant par les créateurs de VibeThinker-3B ?

ALes créateurs proposent l'**hypothèse de couverture par compression des paramètres**. Elle suggère que le raisonnement vérifiable (étapes multiples, satisfaction de contraintes) est une capacité hautement compressible, qui peut atteindre des niveaux de pointe même dans des modèles compacts lorsque la tâche est bien structurée et que le retour est fiable. En revanche, les connaissances factuelles générales et la compréhension de scénarios variés dépendent davantage d'un grand nombre de paramètres.

QOù peut-on trouver le rapport technique et télécharger le modèle VibeThinker-3B ?

ALe rapport technique intitulé "VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models" est disponible sur arXiv : https://arxiv.org/pdf/2606.16140. Le modèle peut être téléchargé sur la page HuggingFace de WeiboAI : https://huggingface.co/WeiboAI/VibeThinker-3B.

Lectures associées

Suite au piratage de Coldcard, l’une des plus grandes violations de portefeuilles Bitcoin récentes, une nouvelle vague de pertes a commencé ! Les pertes augmentent

La société Galaxy Research a signalé une troisième vague d'attaques visant les portefeuilles Bitcoin générés sur les appareils Coldcard, portant le total des pertes à environ 1367 BTC (88,6 millions de dollars). Cette dernière vague a dérobé 207,7 BTC supplémentaires. Alors que les deux premières vagues présentaient des similitudes (fonds envoyés vers quelques adresses communes, ciblage de portefeuilles spécifiques), la troisième vague diffère significativement : utilisation d'une adresse de destination unique par victime, ciblage d'un type d'adresse Bitcoin différent (P2WSH) et agrégation de multiples adresses victimes par transaction. Ces différences suggèrent soit un même attaquant ayant modifié ses méthodes, soit l'émergence d'un second acteur malveillant exploitant la même vulnérabilité rendue publique. Les fonds volés, principalement issus de portefeuilles individuels détenant moins de 1 BTC, n'ont pas encore été déplacés depuis les adresses des pirates. La vulnérabilité logicielle à l'origine de ces attaques date de mars 2021, et tous les Bitcoins volés ont été créés après cette date.

cryptonews.ruIl y a 38 mins

Suite au piratage de Coldcard, l’une des plus grandes violations de portefeuilles Bitcoin récentes, une nouvelle vague de pertes a commencé ! Les pertes augmentent

cryptonews.ruIl y a 38 mins

Trump Media vend 2 628 BTC supplémentaires, ses avoirs tombent à 4 261 BTC

Trump Media & Technology Group, la société derrière Truth Social, a procédé à une nouvelle vente majeure de ses réserves de Bitcoin. Selon l'analyse de Lookonchain basée sur les données d'Arkham, la société a vendu 2 628 BTC pour environ 165 millions de dollars via des transferts vers Crypto.com. Ceci porte ses ventes totales sur les sept derniers mois à 7 281 BTC, pour une valeur d'environ 545 millions de dollars, réduisant ainsi ses avoirs de 63%. Ses réserves restantes s'élèvent désormais à 4 261 BTC, évalués à 269,8 millions de dollars. Ces transactions interviennent dans un contexte de surveillance accrue des activités cryptos liées à l'ancien président Donald Trump, notamment dans le cadre du débat législatif entourant le CLARITY Act, qui vise à renforcer les règles éthiques concernant la possession d'actifs numériques par les personnalités publiques.

cointelegraphIl y a 58 mins

Trump Media vend 2 628 BTC supplémentaires, ses avoirs tombent à 4 261 BTC

cointelegraphIl y a 58 mins

Fujian Jinjiang, un super-licorne de stockage dans l'ombre

Voici un résumé de l'article en français : Au cœur de la ville de Jinjiang, Fujian, connue pour ses chaussures de sport, se cache Fujian Jinhua Integrated Circuit Co., un acteur majeur mais discret dans le domaine de la mémoire DRAM. Fondée en 2016 avec une mission nationale de briser le monopole de Samsung, SK Hynix et Micron, l'entreprise a connu un départ prometteur grâce à un partenariat technologique avec United Microelectronics Corporation (UMC) de Taïwan et la direction de Chen Zhengkun, ancien cadre de Micron. Cependant, son développement a été brutalement interrompu en 2018 lorsque les États-Unis l'ont placée sur la liste des entités et ont engagé des poursuites pénales pour espionnage économique, alléguant le vol de secrets commerciaux de Micron. Cette sanction a gelé sa chaîne d'approvisionnement et paralysé sa production pendant près de cinq ans. Malgré un verdict d'innocence rendu par un tribunal américain en février 2024, Jinhua reste sous sanction. Pendant cette période difficile, soutenue par les autorités provinciales et locales, l'entreprise a travaillé à reconstruire sa ligne de production en réduisant sa dépendance aux technologies américaines. Elle se concentre désormais sur le marché des DRAM de niche (pour téléviseurs intelligents, routeurs, etc.) avec une capacité mensuelle d'environ 40 000 plaquettes. Bien que ses performances (chiffre d'affaires annuel d'environ 2 milliards de yuans) soient loin derrière celles de ses homologues chinois ChangXin Memory Technologies (CXMT) et Yangtze Memory Technologies Corp (YMTC), Jinhua a survécu et maintient sa position. L'histoire de Jinhua s'inscrit également dans la transformation audacieuse de Jinjiang, une ville dont l'économie reposait traditionnellement sur le textile et l'agroalimentaire, vers l'industrie des semi-conducteurs. Cet investissement massif, symbolisant la ténacité de la ville, a donné naissance à un cluster intégré de la filière des puces. Alors que l'industrie mondiale de la mémoire entre dans un super-cycle porté par l'IA, Jinhua, bien que modeste en taille, représente la résilience d'une entreprise ayant résisté à une intense pression géopolitique.

marsbitIl y a 1 h

Fujian Jinjiang, un super-licorne de stockage dans l'ombre

marsbitIl y a 1 h

Face à un déficit de 38 GW d'électricité, pourquoi les fermes de minage de bitcoin sont-elles devenues soudain une nouvelle porte d'entrée pour la puissance de calcul de l'IA ?

Face à une pénurie électrique projetée de 38 GW aux États-Unis d'ici 2026-2028, d'anciennes fermes de minage de Bitcoin se transforment rapidement en centres de données pour l'IA. Ces entreprises, comme TeraWulf ou Riot Platforms, évoluent du « minage » vers la fourniture d'infrastructures clés en main (« Powered Shell Provider »). Elles offrent aux géants du cloud un accès accéléré à des ressources critiques : terrains, raccordements au réseau électrique approuvés, sous-stations et bâtiments. La valeur réside dans leur capacité à fournir des centaines de mégawatts de capacité de calcul plusieurs années plus tôt que les nouveaux projets, comblant ainsi une partie du déficit électrique futur. Morgan Stanley estime que cette conversion pourrait contribuer 10 à 19 GW. Cette transition interroge : s'agit-il d'une réévaluation durable des infrastructures ou d'un récit financier amplifié par la ferveur autour de l'IA ?

华尔街日报Il y a 1 h

Face à un déficit de 38 GW d'électricité, pourquoi les fermes de minage de bitcoin sont-elles devenues soudain une nouvelle porte d'entrée pour la puissance de calcul de l'IA ?

华尔街日报Il y a 1 h

Michael Saylor : « Nous n'avons jamais dit que nous ne vendrions jamais de bitcoins »

Michael Saylor, président du comité stratégique, a déclaré que son entreprise n'a jamais pris l'engagement de ne jamais vendre ses bitcoins, mais s'attend à rester un acheteur net de bitcoins à long terme. Cette déclaration fait suite à des informations selon lesquelles la société aurait obtenu une nouvelle autorisation de vente de bitcoins pour une valeur allant jusqu'à 5 milliards de dollars. Saylor a précisé que cette autorisation n'était pas nouvelle et avait été annoncée le 29 juin dans le cadre du système de gestion de trésorerie de l'entreprise. Il a qualifié ces rapports de "vieilles nouvelles présentées comme nouvelles", soulignant que l'autorisation permet des ventes pour des objectifs spécifiques mais n'oblige pas l'entreprise à vendre. Aucune nouvelle autorisation n'ayant été annoncée, la société prévoit de rester un acheteur net de bitcoins. Saylor a également noté que le programme de monétisation de bitcoin de l'entreprise n'exige pas la vente de ses actifs en BTC et que l'entreprise n'a jamais officiellement adopté une politique de "vente interdite du BTC".

cryptonews.ruIl y a 2 h

Michael Saylor : « Nous n'avons jamais dit que nous ne vendrions jamais de bitcoins »