Un petit modèle de 3B, avec des scores en programmation comparables à ceux d’Opus 4.5, suscite un vif débat, et il est chinois

marsbitPublié le 2026-06-18Dernière mise à jour le 2026-06-18

Résumé

Récemment, un petit modèle de langage de 3 milliards de paramètres, nommé VibeThinker-3B, a suscité un vif intérêt sur les réseaux sociaux. Développé par l'équipe de Weibo, ce modèle affiche des performances en programmation et en raisonnement vérifiable comparables à celles de grands modèles de pointe comme GPT-5, Claude Opus 4.5 ou Gemini 3 Pro, malgré sa taille réduite. Spécialement conçu pour les tâches de raisonnement où la réponse peut être objectivement vérifiée (mathématiques, programmation compétitive, raisonnement STEM), VibeThinker-3B obtient des scores remarquables sur plusieurs benchmarks : 94.3 à l'AIME26, 89.3 au HMMT25, 80.2 au LiveCodeBench v6, et un taux de réussite de 96.1% sur des problèmes récents de LeetCode. Sa construction repose sur Qwen2.5-Coder-3B, suivie d'un processus de post-entraînement avancé nommé "Spectrum-to-Signal". Ce processus combine un fine-tuning supervisé en deux étapes basé sur un curriculum, un apprentissage par renforcement appliqué à plusieurs domaines de raisonnement, une auto-distillation hors ligne, et enfin un apprentissage par renforcement sur instructions (Instruct RL) pour améliorer la contrôlabilité. Le rapport technique introduit également une stratégie d'évaluation à la volée, la "Claim-Level Reliability" (CLR), qui permet de booster davantage les performances sur les tests mathématiques. Les auteurs proposent l'"hypothèse de compression paramétrique sélective", suggérant que les capacités de raisonnement vérifiable ...

Ces derniers jours, un petit modèle de 3B a fait sensation sur X, car dans certaines tâches de raisonnement à difficulté vérifiable (comme la programmation), il est entré dans la fourchette de performance de modèles de pointe tels que Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, alors que sa taille est bien inférieure à celle de ces modèles.

Ce modèle s'appelle VibeThinker-3B, un modèle de raisonnement dense à 3 milliards de paramètres, visant à explorer jusqu'où l'on peut pousser les capacités de raisonnement vérifiable dans le cadre strict d'une petite échelle de modèle.

Après la publication du modèle, beaucoup ont été impressionnés par ses résultats, exprimant leur envie de l'essayer eux-mêmes.

Il est à noter qu'il s'agit également d'un modèle chinois, développé par l'équipe de Weibo (Sina Weibo).

Le rapport technique montre que le modèle est conçu spécifiquement pour des tâches ayant des signaux de vérification fiables, incluant le raisonnement mathématique, la programmation compétitive, le raisonnement STEM, ainsi que l'exécution d'instructions avec des contraintes claires.

C'est pourquoi il obtient d'excellents résultats dans les divers benchmarks. Il a obtenu un score de 94,3 au test AIME26, 89,3 au test HMMT25, 80,2 (Pass@1) au test LiveCodeBench v6, et a atteint un taux de réussite de 96,1% lors des concours hebdomadaires et bimensuels les plus récents et non publics de LeetCode entre le 25 avril et le 31 mai 2026.

Comment ce modèle a-t-il été entraîné ? Le rapport technique révèle certains détails.

Tout d'abord, il est construit sur la base de Qwen2.5-Coder-3B et utilise un processus amélioré "Spectrum-to-Signal" pour l'entraînement ultérieur. Ce processus renforce la synthèse des données, le filtrage de qualité et l'apprentissage par curriculum dans le réglage fin supervisé (SFT), étend l'apprentissage par renforcement de style MGPO à plusieurs domaines vérifiables, conserve les trajectoires complètes de raisonnement en contexte long, et consolide les capacités grâce à l'autodistillation hors ligne et l'apprentissage par renforcement par instruction (Instruct RL).

Processus d'entraînement global de VibeThinker-3B

Processus "Spectrum-to-Signal".

De plus, VibeThinker-3B introduit l'évaluation de fiabilité au niveau des assertions (Claim-Level Reliability - CLR), une stratégie de mise à l'échelle (scaling) au moment du test pour le raisonnement vérifiable orienté réponse. La CLR améliore encore les performances sur les benchmarks mathématiques, faisant passer AIME26 de 94,3 à 97,1, HMMT25 de 89,3 à 95,4, et BruMO25 à 99,2.

Son processus d'entraînement spécifique est le suivant :

  • SFT en deux phases basé sur un curriculum. La première phase se concentre sur une large couverture des capacités en mathématiques, programmation, raisonnement STEM, dialogue général et suivi d'instructions. La deuxième phase passe à des échantillons de raisonnement plus difficiles et à l'horizon plus large. La distillation par exploration de la diversité est utilisée pour conserver plusieurs chemins de solution valides.
  • Apprentissage par renforcement pour le raisonnement multi-domaines. VibeThinker-3B réutilise le MGPO. L'apprentissage par renforcement est appliqué successivement aux tâches de raisonnement mathématique, de programmation et STEM. L'entraînement utilise une fenêtre de contexte long unique de 64K pour conserver les trajectoires complètes de raisonnement à long terme.
  • Autodistillation hors ligne. Filtrage et distillation des trajectoires de haute qualité à partir des points de contrôle du raisonnement mathématique, de la programmation et STEM, pour finalement former un modèle étudiant unifié. Un score de potentiel d'apprentissage est utilisé pour prioriser les trajectoires correctes mais que l'étudiant n'a pas encore bien imitées.
  • Instruct RL. La phase finale améliore la contrôlabilité face aux invites orientées utilisateur. Pour les données d'instruction sensibles au format et de type ouvert, des validateurs basés sur des règles et des modèles de récompense basés sur des critères sont utilisés.

Dans un récent post, le chercheur et blogueur IA renommé Sebastian Raschka a systématiquement résumé les points clés divulgués dans le rapport technique de VibeThinker-3B, incluant les suivants :

Si ces contenus vous intéressent, vous pouvez consulter leur rapport technique en détail. Actuellement, le modèle est également téléchargeable publiquement.

Titre du rapport : VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Lien vers le rapport : https://arxiv.org/pdf/2606.16140

Lien HuggingFace : https://huggingface.co/WeiboAI/VibeThinker-3B

Cependant, le champ d'application de ce modèle est clairement limité, car il ne brille pas dans les domaines nécessitant des connaissances générales.

Les auteurs l'ont également clairement indiqué et ont proposé l'« hypothèse de couverture par compression de paramètres » : différentes capacités dépendent des paramètres du modèle de manières très distinctes. Le raisonnement vérifiable se rapproche davantage d'une capacité hautement compressible et dense en paramètres, dont le cœur réside dans le raisonnement multi-étapes, la satisfaction de contraintes, l'autocorrection et la vérification des réponses. Lorsque la structure de l'espace des tâches est suffisamment claire et que les signaux de retour sont suffisamment fiables, des modèles compacts peuvent également posséder des capacités de raisonnement proches de l'état de l'art. En comparaison, les connaissances en domaine ouvert, le dialogue général et la compréhension de scénarios à longue traîne dépendent davantage de paramètres à grande échelle pour couvrir largement les faits, concepts et connaissances du monde. Cette hypothèse est très stimulante. VentureBeat écrit dans son reportage : « Elle révèle qu'il existe un découplage partiel entre les capacités de raisonnement et les connaissances factuelles, et que les premières peuvent être comprimées plus efficacement qu'on ne le pensait auparavant — une perspicacité qui a des implications profondes sur la façon dont l'industrie perçoit la conception des modèles, les coûts de déploiement et l'accessibilité des fonctionnalités avancées de l'intelligence artificielle. »

Les auteurs indiquent que leur objectif n'est pas de créer un petit modèle alternatif aux modèles à grande échelle, mais plutôt, en suivant une dimension de capacité spécifique, d'examiner les véritables limites des petits modèles. Avec VibeThinker-3B, ils espèrent montrer que les petits modèles ne doivent pas être considérés uniquement comme un compromis pour réduire les coûts de déploiement. Dans les domaines de capacité ayant des mécanismes clairs de retour et de vérification, les petits modèles linguistiques révèlent une voie de recherche prometteuse, susceptible d'atteindre des performances de niveau avancé, et de former une relation complémentaire fondamentale avec le paradigme traditionnel d'extension par l'échelle des paramètres.

Actuellement, le modèle fait également face à certaines critiques dans la communauté. Si ce modèle vous intéresse, pourquoi ne pas l'essayer vous-même.

Liens de référence :

https://x.com/orcus108/status/2066876960073281582

Cet article provient du compte officiel WeChat « Machine Heart » (ID : almosthuman2014), auteur : Zhang Qian

Questions liées

QQuel est le nom du petit modèle de 3B qui a suscité l'engouement sur X pour ses performances en programmation ?

ALe modèle s'appelle VibeThinker-3B. C'est un modèle dense de raisonnement avec 3 milliards de paramètres, développé par l'équipe de Weibo (Sina Weibo).

QQuelles sont les tâches principales pour lesquelles le modèle VibeThinker-3B a été conçu ?

AVibeThinker-3B a été conçu pour les tâches de raisonnement avec un signal de vérification fiable, notamment le raisonnement mathématique, la programmation compétitive, le raisonnement STEM (sciences, technologie, ingénierie et mathématiques) et l'exécution d'instructions avec des contraintes explicites.

QSur quelle architecture de base le modèle VibeThinker-3B a-t-il été construit ?

ALe modèle VibeThinker-3B a été construit à partir de Qwen2.5-Coder-3B. Il a ensuite suivi un processus de post-formation avancé appelé "Spectrum-to-Signal", incluant un fine-tuning supervisé (SFT), un apprentissage par renforcement (RL) et une autodistillation hors ligne.

QQuelle hypothèse importante concernant les capacités des modèles est mise en avant par les créateurs de VibeThinker-3B ?

ALes créateurs proposent l'**hypothèse de couverture par compression des paramètres**. Elle suggère que le raisonnement vérifiable (étapes multiples, satisfaction de contraintes) est une capacité hautement compressible, qui peut atteindre des niveaux de pointe même dans des modèles compacts lorsque la tâche est bien structurée et que le retour est fiable. En revanche, les connaissances factuelles générales et la compréhension de scénarios variés dépendent davantage d'un grand nombre de paramètres.

QOù peut-on trouver le rapport technique et télécharger le modèle VibeThinker-3B ?

ALe rapport technique intitulé "VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models" est disponible sur arXiv : https://arxiv.org/pdf/2606.16140. Le modèle peut être téléchargé sur la page HuggingFace de WeiboAI : https://huggingface.co/WeiboAI/VibeThinker-3B.

Lectures associées

Le tableau de paris codé a rapporté de l'argent, mais Polymarket n'est vraiment pas un bon endroit pour "l'arbitrage"

Dans son article, l'auteur partage son expérience de développement d'un tableau de bord personnalisé pour suivre et gérer ses paris sur Polymarket, une plateforme de prédiction. En utilisant cet outil avec un capital d'environ 1600 dollars, il a obtenu un rendement de plus de 30% sur une quinzaine de jours. Cependant, il insiste sur le fait que Polymarket n'est pas un lieu adapté pour des stratégies d'arbitrage traditionnelles. Le tableau de bord, divisé en un "Tableau de bord des positions" et une "Veille des opportunités", vise à visualiser les investissements, gérer les risques et suivre les marchés d'intérêt. L'outil intègre un système de contrôle des risques basé sur le fractionnement des paris en trois catégories (T1, T2, T3) selon le niveau de conviction et le risque, et limite l'exposition à certains thèmes pour éviter une "diversification illusoire". L'auteur met en garde contre les pièges des marchés binaires comme Polymarket. Il explique que même pour un pari perçu comme ayant une probabilité de réussite très élevée, le risque de perdre 100% du capital engagé existe toujours. Il souligne l'importance cruciale de la gestion de la taille des positions pour survivre à des erreurs de jugement inévitables à long terme. Il note également que de nombreux marchés, bien que distincts, peuvent être corrélés autour d'un même événement sous-jacent, amplifiant ainsi les risques. Son expérience l'amène à considérer Polymarket non pas comme une source de revenus stables, mais plutôt comme un terrain d'entraînement pour affiner son jugement sur l'actualité politique, économique et technologique. Il conclut que la valeur principale de son outil réside dans l'imposition d'une discipline et d'un cadre rigoureux, transformant l'intuition en processus contrôlé, bien plus que dans la performance affichée sur une période courte.

marsbitIl y a 1 h

Le tableau de paris codé a rapporté de l'argent, mais Polymarket n'est vraiment pas un bon endroit pour "l'arbitrage"

marsbitIl y a 1 h

Analyse de la croissance de Notion : D'un outil de prise de notes à 100 millions d'utilisateurs, comment Notion a construit sa triple roue de croissance via le produit, les modèles et la communauté

Notion est passé d'un outil de prise de notes à une plateforme de gestion des connaissances et de collaboration comptant 100 millions d'utilisateurs, grâce à un système de croissance à trois niveaux. La croissance a été principalement tirée par le produit (PLG) : sa structure modulaire offre une grande adaptabilité, sa stratégie gratuite a facilité l'adoption et ses fonctionnalités de partage et de collaboration ont généré une diffusion virale naturelle. Le deuxième moteur est l'économie des modèles. Face à la liberté parfois déroutante du produit, les modèles (officiels et créés par les utilisateurs) fournissent des solutions concrètes, réduisant les coûts d'activation pour les nouveaux venus et créant un canal de croissance via les moteurs de recherche. Ils ont également permis l'émergence d'une communauté de créateurs qui soutient l'écosystème. Le troisième moteur est la croissance communautaire. La communauté Notion va au-delà du support technique : elle produit des tutoriels, organise des événements locaux via des ambassadeurs et participe à la traduction culturelle du produit. Elle transforme les utilisateurs en éducateurs et en promoteurs, réduisant ainsi les coûts d'expansion mondiale. Le marketing de contenu de Notion se concentre sur l'éducation aux méthodes de travail plutôt que sur la vente de fonctionnalités. Son passage au marché professionnel s'est fait "par le bas", les équipes adoptant d'abord l'outil avant que les entreprises ne formalisent son usage. À l'ère de l'IA, Notion intègre ces capacités dans ses flux de travail existants, renforçant sa valeur et ouvrant la voie à une évolution potentielle vers un système d'exploitation du travail. La force durable de Notion réside dans cet écosystème difficile à répliquer : la combinaison d'un produit flexible, d'un vaste patrimoine de connaissances utilisateur, d'une économie de modèles dynamique et d'une communauté engagée crée un effet de levier et une fidélité qui vont bien au-delà de simples fonctionnalités logicielles.

marsbitIl y a 4 h

Analyse de la croissance de Notion : D'un outil de prise de notes à 100 millions d'utilisateurs, comment Notion a construit sa triple roue de croissance via le produit, les modèles et la communauté

marsbitIl y a 4 h

Guide de test pratique de la carte AI de WeChat : L'ère du AI Shopping est-elle arrivée ?

**Titre :** Guide de test de la carte AI de WeChat : l'ère du "AI Shopping" est-elle arrivée ? **Résumé :** WeChat Pay a lancé une "carte AI dédiée", présentée comme permettant à des agents IA (comme WorkBuddy) d'effectuer des paiements pour répondre aux besoins des utilisateurs. Cependant, les tests révèlent que cela ne permet pas une consommation "entièrement automatique". En réalité, la carte AI est un portefeuille séparé du portefeuille WeChat principal. L'utilisateur doit la recharger avec des fonds spécifiques. Chaque paiement initié par l'IA nécessite une confirmation manuelle sur le téléphone de l'utilisateur. La carte isole les dépenses liées à l'IA pour une meilleure gestion. L'activation se fait via le chatbot WorkBuddy. Les cas d'usage annoncés sont l'achat de contenu payant, l'utilisation d'API/outils payants et les abonnements. Cependant, dans la pratique, il est difficile de déclencher ces paiements. Un test pour commander un thé via WorkBuddy a échoué. L'agent a dû utiliser une compétence externe ("Assistant de vie Meituan"), ce qui a consommé beaucoup de crédits (plus que l'allocation quotidienne gratuite). Après autorisation et paiement via la carte AI, l'agent a acheté un bon d'achat incorrect, pas le produit désiré. L'échec ne vient pas de la fonction de paiement elle-même, qui fonctionne, mais de la chaîne d'exécution de l'agent IA : compréhension précise du besoin, appel correct à des plateformes tierces, sélection du bon produit, etc. La carte AI ne gère que l'étape finale du paiement. Le mécanisme actuel est prudent : fonds limités à la carte AI, confirmation obligatoire pour chaque transaction, pas d'accès direct au portefeuille principal. Cela minimise les risques (mauvais achats, abonnements non désirés). **Conclusion/Recommandations :** Il est possible d'expérimenter cette fonction, mais avec prudence : commencez par de petites recharges, vérifiez toujours les détails (produit, prix) avant de confirmer le paiement, et ne présumez pas que l'agent IA a parfaitement compris une demande complexe (notamment pour la livraison, les coupons spécifiques).

marsbitIl y a 4 h

Guide de test pratique de la carte AI de WeChat : L'ère du AI Shopping est-elle arrivée ?

marsbitIl y a 4 h

Trading

Spot
Futures
活动图片