Un petit modèle de 3B, avec des scores en programmation comparables à ceux d’Opus 4.5, suscite un vif débat, et il est chinois

marsbitPublié le 2026-06-18Dernière mise à jour le 2026-06-18

Résumé

Récemment, un petit modèle de langage de 3 milliards de paramètres, nommé VibeThinker-3B, a suscité un vif intérêt sur les réseaux sociaux. Développé par l'équipe de Weibo, ce modèle affiche des performances en programmation et en raisonnement vérifiable comparables à celles de grands modèles de pointe comme GPT-5, Claude Opus 4.5 ou Gemini 3 Pro, malgré sa taille réduite. Spécialement conçu pour les tâches de raisonnement où la réponse peut être objectivement vérifiée (mathématiques, programmation compétitive, raisonnement STEM), VibeThinker-3B obtient des scores remarquables sur plusieurs benchmarks : 94.3 à l'AIME26, 89.3 au HMMT25, 80.2 au LiveCodeBench v6, et un taux de réussite de 96.1% sur des problèmes récents de LeetCode. Sa construction repose sur Qwen2.5-Coder-3B, suivie d'un processus de post-entraînement avancé nommé "Spectrum-to-Signal". Ce processus combine un fine-tuning supervisé en deux étapes basé sur un curriculum, un apprentissage par renforcement appliqué à plusieurs domaines de raisonnement, une auto-distillation hors ligne, et enfin un apprentissage par renforcement sur instructions (Instruct RL) pour améliorer la contrôlabilité. Le rapport technique introduit également une stratégie d'évaluation à la volée, la "Claim-Level Reliability" (CLR), qui permet de booster davantage les performances sur les tests mathématiques. Les auteurs proposent l'"hypothèse de compression paramétrique sélective", suggérant que les capacités de raisonnement vérifiable ...

Ces derniers jours, un petit modèle de 3B a fait sensation sur X, car dans certaines tâches de raisonnement à difficulté vérifiable (comme la programmation), il est entré dans la fourchette de performance de modèles de pointe tels que Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, alors que sa taille est bien inférieure à celle de ces modèles.

Ce modèle s'appelle VibeThinker-3B, un modèle de raisonnement dense à 3 milliards de paramètres, visant à explorer jusqu'où l'on peut pousser les capacités de raisonnement vérifiable dans le cadre strict d'une petite échelle de modèle.

Après la publication du modèle, beaucoup ont été impressionnés par ses résultats, exprimant leur envie de l'essayer eux-mêmes.

Il est à noter qu'il s'agit également d'un modèle chinois, développé par l'équipe de Weibo (Sina Weibo).

Le rapport technique montre que le modèle est conçu spécifiquement pour des tâches ayant des signaux de vérification fiables, incluant le raisonnement mathématique, la programmation compétitive, le raisonnement STEM, ainsi que l'exécution d'instructions avec des contraintes claires.

C'est pourquoi il obtient d'excellents résultats dans les divers benchmarks. Il a obtenu un score de 94,3 au test AIME26, 89,3 au test HMMT25, 80,2 (Pass@1) au test LiveCodeBench v6, et a atteint un taux de réussite de 96,1% lors des concours hebdomadaires et bimensuels les plus récents et non publics de LeetCode entre le 25 avril et le 31 mai 2026.

Comment ce modèle a-t-il été entraîné ? Le rapport technique révèle certains détails.

Tout d'abord, il est construit sur la base de Qwen2.5-Coder-3B et utilise un processus amélioré "Spectrum-to-Signal" pour l'entraînement ultérieur. Ce processus renforce la synthèse des données, le filtrage de qualité et l'apprentissage par curriculum dans le réglage fin supervisé (SFT), étend l'apprentissage par renforcement de style MGPO à plusieurs domaines vérifiables, conserve les trajectoires complètes de raisonnement en contexte long, et consolide les capacités grâce à l'autodistillation hors ligne et l'apprentissage par renforcement par instruction (Instruct RL).

Processus d'entraînement global de VibeThinker-3B

Processus "Spectrum-to-Signal".

De plus, VibeThinker-3B introduit l'évaluation de fiabilité au niveau des assertions (Claim-Level Reliability - CLR), une stratégie de mise à l'échelle (scaling) au moment du test pour le raisonnement vérifiable orienté réponse. La CLR améliore encore les performances sur les benchmarks mathématiques, faisant passer AIME26 de 94,3 à 97,1, HMMT25 de 89,3 à 95,4, et BruMO25 à 99,2.

Son processus d'entraînement spécifique est le suivant :

SFT en deux phases basé sur un curriculum. La première phase se concentre sur une large couverture des capacités en mathématiques, programmation, raisonnement STEM, dialogue général et suivi d'instructions. La deuxième phase passe à des échantillons de raisonnement plus difficiles et à l'horizon plus large. La distillation par exploration de la diversité est utilisée pour conserver plusieurs chemins de solution valides.
Apprentissage par renforcement pour le raisonnement multi-domaines. VibeThinker-3B réutilise le MGPO. L'apprentissage par renforcement est appliqué successivement aux tâches de raisonnement mathématique, de programmation et STEM. L'entraînement utilise une fenêtre de contexte long unique de 64K pour conserver les trajectoires complètes de raisonnement à long terme.
Autodistillation hors ligne. Filtrage et distillation des trajectoires de haute qualité à partir des points de contrôle du raisonnement mathématique, de la programmation et STEM, pour finalement former un modèle étudiant unifié. Un score de potentiel d'apprentissage est utilisé pour prioriser les trajectoires correctes mais que l'étudiant n'a pas encore bien imitées.
Instruct RL. La phase finale améliore la contrôlabilité face aux invites orientées utilisateur. Pour les données d'instruction sensibles au format et de type ouvert, des validateurs basés sur des règles et des modèles de récompense basés sur des critères sont utilisés.

Dans un récent post, le chercheur et blogueur IA renommé Sebastian Raschka a systématiquement résumé les points clés divulgués dans le rapport technique de VibeThinker-3B, incluant les suivants :

Si ces contenus vous intéressent, vous pouvez consulter leur rapport technique en détail. Actuellement, le modèle est également téléchargeable publiquement.

Titre du rapport : VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Lien vers le rapport : https://arxiv.org/pdf/2606.16140

Lien HuggingFace : https://huggingface.co/WeiboAI/VibeThinker-3B

Cependant, le champ d'application de ce modèle est clairement limité, car il ne brille pas dans les domaines nécessitant des connaissances générales.

Les auteurs l'ont également clairement indiqué et ont proposé l'« hypothèse de couverture par compression de paramètres » : différentes capacités dépendent des paramètres du modèle de manières très distinctes. Le raisonnement vérifiable se rapproche davantage d'une capacité hautement compressible et dense en paramètres, dont le cœur réside dans le raisonnement multi-étapes, la satisfaction de contraintes, l'autocorrection et la vérification des réponses. Lorsque la structure de l'espace des tâches est suffisamment claire et que les signaux de retour sont suffisamment fiables, des modèles compacts peuvent également posséder des capacités de raisonnement proches de l'état de l'art. En comparaison, les connaissances en domaine ouvert, le dialogue général et la compréhension de scénarios à longue traîne dépendent davantage de paramètres à grande échelle pour couvrir largement les faits, concepts et connaissances du monde. Cette hypothèse est très stimulante. VentureBeat écrit dans son reportage : « Elle révèle qu'il existe un découplage partiel entre les capacités de raisonnement et les connaissances factuelles, et que les premières peuvent être comprimées plus efficacement qu'on ne le pensait auparavant — une perspicacité qui a des implications profondes sur la façon dont l'industrie perçoit la conception des modèles, les coûts de déploiement et l'accessibilité des fonctionnalités avancées de l'intelligence artificielle. »

Les auteurs indiquent que leur objectif n'est pas de créer un petit modèle alternatif aux modèles à grande échelle, mais plutôt, en suivant une dimension de capacité spécifique, d'examiner les véritables limites des petits modèles. Avec VibeThinker-3B, ils espèrent montrer que les petits modèles ne doivent pas être considérés uniquement comme un compromis pour réduire les coûts de déploiement. Dans les domaines de capacité ayant des mécanismes clairs de retour et de vérification, les petits modèles linguistiques révèlent une voie de recherche prometteuse, susceptible d'atteindre des performances de niveau avancé, et de former une relation complémentaire fondamentale avec le paradigme traditionnel d'extension par l'échelle des paramètres.

Actuellement, le modèle fait également face à certaines critiques dans la communauté. Si ce modèle vous intéresse, pourquoi ne pas l'essayer vous-même.

Liens de référence :

https://x.com/orcus108/status/2066876960073281582

Cet article provient du compte officiel WeChat « Machine Heart » (ID : almosthuman2014), auteur : Zhang Qian

Questions liées

QQuel est le nom du petit modèle de 3B qui a suscité l'engouement sur X pour ses performances en programmation ?

ALe modèle s'appelle VibeThinker-3B. C'est un modèle dense de raisonnement avec 3 milliards de paramètres, développé par l'équipe de Weibo (Sina Weibo).

QQuelles sont les tâches principales pour lesquelles le modèle VibeThinker-3B a été conçu ?

AVibeThinker-3B a été conçu pour les tâches de raisonnement avec un signal de vérification fiable, notamment le raisonnement mathématique, la programmation compétitive, le raisonnement STEM (sciences, technologie, ingénierie et mathématiques) et l'exécution d'instructions avec des contraintes explicites.

QSur quelle architecture de base le modèle VibeThinker-3B a-t-il été construit ?

ALe modèle VibeThinker-3B a été construit à partir de Qwen2.5-Coder-3B. Il a ensuite suivi un processus de post-formation avancé appelé "Spectrum-to-Signal", incluant un fine-tuning supervisé (SFT), un apprentissage par renforcement (RL) et une autodistillation hors ligne.

QQuelle hypothèse importante concernant les capacités des modèles est mise en avant par les créateurs de VibeThinker-3B ?

ALes créateurs proposent l'**hypothèse de couverture par compression des paramètres**. Elle suggère que le raisonnement vérifiable (étapes multiples, satisfaction de contraintes) est une capacité hautement compressible, qui peut atteindre des niveaux de pointe même dans des modèles compacts lorsque la tâche est bien structurée et que le retour est fiable. En revanche, les connaissances factuelles générales et la compréhension de scénarios variés dépendent davantage d'un grand nombre de paramètres.

QOù peut-on trouver le rapport technique et télécharger le modèle VibeThinker-3B ?

ALe rapport technique intitulé "VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models" est disponible sur arXiv : https://arxiv.org/pdf/2606.16140. Le modèle peut être téléchargé sur la page HuggingFace de WeiboAI : https://huggingface.co/WeiboAI/VibeThinker-3B.

Lectures associées

La Fondation recule, Ethlabs avance : L'Ethereum connaît sa plus grande réorganisation de l'histoire

**Résumé en français :** Le 23 juin, l'écosystème Ethereum a été marqué par deux annonces majeures. D'une part, d'anciens chercheurs de l'Ethereum Foundation (EF) ont fondé Ethlabs, une organisation à but non lucratif indépendante axée sur les besoins pratiques de l'adoption institutionnelle (vitesse de règlement, émissions d'actifs, interopérabilité, scalabilité). Elle bénéficie du soutien financier de gros détenteurs d'ETH comme Bitmine et Sharplink, mais le cofondateur Vitalik Buterin n'apparaît pas parmi ses soutiens publics. D'autre part, l'Ethereum Foundation a annoncé une restructuration majeure, réduisant ses effectifs d'environ 20% (54 personnes) et se repositionnant comme un organe de gouvernance et de maintenance du protocole plus léger, cédant délibérément du terrain en tant que principal moteur de développement. Ces mouvements simultanés – l'avancée d'Ethlabs et le recul de l'EF – signalent une correction de gouvernance historique pour Ethereum. L'objectif est de passer d'un écosystème perçu comme trop centralisé autour de la Fondation et de la vision de Vitalik, et parfois lent à exécuter, vers un modèle plus décentralisé et efficace, avec des organisations spécialisées comme Ethlabs prenant en charge des fonctions d'exécution plus "terrain" et orientées marché. En somme, l'EF se concentrerait désormais à maintenir Ethereum "correct" sur le plan de la décentralisation et de la neutralité, tandis que des entités comme Ethlabs auraient pour mission de le rendre plus "efficace" en répondant aux demandes du marché et des institutions, afin de renforcer la compétitivité et l'adoption du réseau.

链捕手Il y a 5 h

La Fondation recule, Ethlabs avance : L'Ethereum connaît sa plus grande réorganisation de l'histoire

链捕手Il y a 5 h

Bitbase World Trading Clash (BWTC) 2026 est lancé — Les inscriptions sont ouvertes jusqu'en juillet

Bitbase a ouvert les inscriptions pour le BWTC 2026 (Bitbase World Trading Clash), une compétition mondiale de trading. L'inscription, ouverte depuis le 22 juin, se poursuit jusqu'au 23 juillet. L'événement propose deux parcours : un parcours en équipe (Futures Team Pro) noté sur le volume total et le retour sur capital, et un parcours individuel (Trophy Picks) classé sur le volume individuel. Le Promotion Pool de récompenses peut atteindre jusqu'à 1 000 000 USDT, débloqué dynamiquement en fonction de la participation vérifiée. Plus de 2 000 traders se sont inscrits dans les 36 premières heures. La plupart des récompenses sont versées sous forme de crédit d'essai sur contrats perpétuels en USDT. Un programme de parrainage récompense également les participants qui invitent de nouveaux utilisateurs valides. Bitbase met en avant son approche "Trust Through Every Cycle", en récompensant l'efficacité de l'utilisation du capital et pas seulement le volume de trading.

TheNewsCryptoIl y a 7 h

Bitbase World Trading Clash (BWTC) 2026 est lancé — Les inscriptions sont ouvertes jusqu'en juillet

TheNewsCryptoIl y a 7 h

Seconde mi-temps de la politique cryptographique américaine : La loi CLARITY tente d'obtenir 60 voix, le CFTC "comité d'une seule personne" est la plus grande inconnue

L'industrie de la cryptographie aux États-Unis attend un moment décisif avec l'avancée du projet de loi CLARITY au Sénat, qui nécessite 60 voix pour être adopté. Les républicains doivent négocier avec la Maison Blanche et rallier des sénateurs indécis. Dans un calendrier législatif chargé (seulement 40 jours de travail restants), d'autres propositions fiscales et réglementaires liées aux crypto-monnaies cherchent également à être intégrées dans des textes législatifs plus larges cette année. Un obstacle majeur est la composition incomplète de la CFTC, avec quatre postes de commissaires vacants, ce qui crée de l'incertitude. La question de la juridiction sur les marchés prédictifs (États, CFTC, SEC ou Cour suprême) reste également en suspens. Le secteur subira par ailleurs la perte de deux figures clés : la commissaire de la SEC, Hester M. Peirce, et la sénatrice Cynthia Lummis, qui ont joué un rôle central dans l'élaboration des politiques. Des experts soulignent que l'adoption de CLARITY durant cette session du Congrès est peu probable en raison des contraintes de temps et des élections. Ils estiment que des mesures fiscales ciblées sur les cryptos pourraient passer en étant intégrées à des projets de loi plus vastes. La CFTC travaille à un cadre pour les marchés prédictifs, dont le statut (infrastructure financière ou jeu) est crucial pour leur avenir. La fenêtre d'opportunité pour des progrès législatifs concrets en 2025 est étroite, exigeant une collaboration bipartite soutenue.

marsbitIl y a 8 h

Seconde mi-temps de la politique cryptographique américaine : La loi CLARITY tente d'obtenir 60 voix, le CFTC "comité d'une seule personne" est la plus grande inconnue

marsbitIl y a 8 h

Nouveau texte de Dan Koe : Échapper au destin de l'employé, comment survivre à la vague de remplacement par l'IA ?

L’auteur Dan Koe explore comment échapper à la condition de salarié et survivre à la vague de remplacement par l’IA. Il affirme que la vraie menace n’est pas la technologie, mais le fait de dépendre entièrement des autres pour sa subsistance et son bonheur. Pour lui, le seul moyen de se libérer est de créer sa propre entreprise. L’article identifie cinq éléments clés pour réussir : l’agentivité (agir sans attendre d’ordre), le goût (discerner la qualité), la persuasion, la persévérance et l’itération (amélioration continue). Ces compétences s’acquièrent uniquement en se lançant dans ses propres projets. Koe propose un plan en trois étapes : 1. Changer radicalement son environnement pour modifier son état d’esprit et son identité. 2. Choisir un support offrant un retour réaliste, comme la création de contenu, qu’il juge plus précieux que la programmation dans le paysage actuel. 3. Commencer immédiatement en consacrant 15 minutes par jour à définir son projet de vie à partir de ses expériences et convictions personnelles, puis publier son premier contenu. L’accent est mis sur l’action, l’apprentissage par l’erreur et le développement d’une perspective unique pour construire une activité significative et résiliente.

marsbitIl y a 8 h

Nouveau texte de Dan Koe : Échapper au destin de l'employé, comment survivre à la vague de remplacement par l'IA ?

marsbitIl y a 8 h

Analyse de Rapport : Détails de Morgan Stanley sur SNDK, la vérité sur le pouvoir de fixation des prix dans les centres de données cloud et les bénéfices de l'inférence IA

Résumé : Morgan Stanley a révisé à la hausse son objectif de cours pour SNDK (SanDisk) de 1 100 USD à 1 750 USD, maintient une recommandation "Surpondérer". Le raisonnement repose sur la demande structurelle d'IA, notamment pour l'inférence (mise en cache KV, fenêtres de contexte), qui change les règles du marché NAND. Les clients des centres de données cloud, peu sensibles aux prix, accordent à SanDisk un pouvoir de tarification. Les nouveaux accords commerciaux (NBM), couvrant plus d'un tiers de la capacité de bits livrée d'ici FY27, verrouillent des marges brutes élevées (jusqu'à ~80%), assurant une visibilité sur les bénéfices. Dans un contexte de tensions prolongées de l'offre NAND, la croissance future est portée par les activités cloud à haute marge. Les risques incluent une concurrence accrue et une croissance du secteur inférieure aux attentes. La valorisation est basée sur un P/E d'environ 28x sur le BPA estimé pour FY27.

marsbitIl y a 9 h

Analyse de Rapport : Détails de Morgan Stanley sur SNDK, la vérité sur le pouvoir de fixation des prix dans les centres de données cloud et les bénéfices de l'inférence IA

marsbitIl y a 9 h

Trading

Spot

Futures