Un petit modèle de 3B, avec des scores en programmation comparables à ceux d’Opus 4.5, suscite un vif débat, et il est chinois

marsbitPublié le 2026-06-18Dernière mise à jour le 2026-06-18

Résumé

Récemment, un petit modèle de langage de 3 milliards de paramètres, nommé VibeThinker-3B, a suscité un vif intérêt sur les réseaux sociaux. Développé par l'équipe de Weibo, ce modèle affiche des performances en programmation et en raisonnement vérifiable comparables à celles de grands modèles de pointe comme GPT-5, Claude Opus 4.5 ou Gemini 3 Pro, malgré sa taille réduite. Spécialement conçu pour les tâches de raisonnement où la réponse peut être objectivement vérifiée (mathématiques, programmation compétitive, raisonnement STEM), VibeThinker-3B obtient des scores remarquables sur plusieurs benchmarks : 94.3 à l'AIME26, 89.3 au HMMT25, 80.2 au LiveCodeBench v6, et un taux de réussite de 96.1% sur des problèmes récents de LeetCode. Sa construction repose sur Qwen2.5-Coder-3B, suivie d'un processus de post-entraînement avancé nommé "Spectrum-to-Signal". Ce processus combine un fine-tuning supervisé en deux étapes basé sur un curriculum, un apprentissage par renforcement appliqué à plusieurs domaines de raisonnement, une auto-distillation hors ligne, et enfin un apprentissage par renforcement sur instructions (Instruct RL) pour améliorer la contrôlabilité. Le rapport technique introduit également une stratégie d'évaluation à la volée, la "Claim-Level Reliability" (CLR), qui permet de booster davantage les performances sur les tests mathématiques. Les auteurs proposent l'"hypothèse de compression paramétrique sélective", suggérant que les capacités de raisonnement vérifiable ...

Ces derniers jours, un petit modèle de 3B a fait sensation sur X, car dans certaines tâches de raisonnement à difficulté vérifiable (comme la programmation), il est entré dans la fourchette de performance de modèles de pointe tels que Gemini 3 Pro, GPT-5 high, Claude Opus 4.5, GLM-5, Kimi K2.5, alors que sa taille est bien inférieure à celle de ces modèles.

Ce modèle s'appelle VibeThinker-3B, un modèle de raisonnement dense à 3 milliards de paramètres, visant à explorer jusqu'où l'on peut pousser les capacités de raisonnement vérifiable dans le cadre strict d'une petite échelle de modèle.

Après la publication du modèle, beaucoup ont été impressionnés par ses résultats, exprimant leur envie de l'essayer eux-mêmes.

Il est à noter qu'il s'agit également d'un modèle chinois, développé par l'équipe de Weibo (Sina Weibo).

Le rapport technique montre que le modèle est conçu spécifiquement pour des tâches ayant des signaux de vérification fiables, incluant le raisonnement mathématique, la programmation compétitive, le raisonnement STEM, ainsi que l'exécution d'instructions avec des contraintes claires.

C'est pourquoi il obtient d'excellents résultats dans les divers benchmarks. Il a obtenu un score de 94,3 au test AIME26, 89,3 au test HMMT25, 80,2 (Pass@1) au test LiveCodeBench v6, et a atteint un taux de réussite de 96,1% lors des concours hebdomadaires et bimensuels les plus récents et non publics de LeetCode entre le 25 avril et le 31 mai 2026.

Comment ce modèle a-t-il été entraîné ? Le rapport technique révèle certains détails.

Tout d'abord, il est construit sur la base de Qwen2.5-Coder-3B et utilise un processus amélioré "Spectrum-to-Signal" pour l'entraînement ultérieur. Ce processus renforce la synthèse des données, le filtrage de qualité et l'apprentissage par curriculum dans le réglage fin supervisé (SFT), étend l'apprentissage par renforcement de style MGPO à plusieurs domaines vérifiables, conserve les trajectoires complètes de raisonnement en contexte long, et consolide les capacités grâce à l'autodistillation hors ligne et l'apprentissage par renforcement par instruction (Instruct RL).

Processus d'entraînement global de VibeThinker-3B

Processus "Spectrum-to-Signal".

De plus, VibeThinker-3B introduit l'évaluation de fiabilité au niveau des assertions (Claim-Level Reliability - CLR), une stratégie de mise à l'échelle (scaling) au moment du test pour le raisonnement vérifiable orienté réponse. La CLR améliore encore les performances sur les benchmarks mathématiques, faisant passer AIME26 de 94,3 à 97,1, HMMT25 de 89,3 à 95,4, et BruMO25 à 99,2.

Son processus d'entraînement spécifique est le suivant :

  • SFT en deux phases basé sur un curriculum. La première phase se concentre sur une large couverture des capacités en mathématiques, programmation, raisonnement STEM, dialogue général et suivi d'instructions. La deuxième phase passe à des échantillons de raisonnement plus difficiles et à l'horizon plus large. La distillation par exploration de la diversité est utilisée pour conserver plusieurs chemins de solution valides.
  • Apprentissage par renforcement pour le raisonnement multi-domaines. VibeThinker-3B réutilise le MGPO. L'apprentissage par renforcement est appliqué successivement aux tâches de raisonnement mathématique, de programmation et STEM. L'entraînement utilise une fenêtre de contexte long unique de 64K pour conserver les trajectoires complètes de raisonnement à long terme.
  • Autodistillation hors ligne. Filtrage et distillation des trajectoires de haute qualité à partir des points de contrôle du raisonnement mathématique, de la programmation et STEM, pour finalement former un modèle étudiant unifié. Un score de potentiel d'apprentissage est utilisé pour prioriser les trajectoires correctes mais que l'étudiant n'a pas encore bien imitées.
  • Instruct RL. La phase finale améliore la contrôlabilité face aux invites orientées utilisateur. Pour les données d'instruction sensibles au format et de type ouvert, des validateurs basés sur des règles et des modèles de récompense basés sur des critères sont utilisés.

Dans un récent post, le chercheur et blogueur IA renommé Sebastian Raschka a systématiquement résumé les points clés divulgués dans le rapport technique de VibeThinker-3B, incluant les suivants :

Si ces contenus vous intéressent, vous pouvez consulter leur rapport technique en détail. Actuellement, le modèle est également téléchargeable publiquement.

Titre du rapport : VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Lien vers le rapport : https://arxiv.org/pdf/2606.16140

Lien HuggingFace : https://huggingface.co/WeiboAI/VibeThinker-3B

Cependant, le champ d'application de ce modèle est clairement limité, car il ne brille pas dans les domaines nécessitant des connaissances générales.

Les auteurs l'ont également clairement indiqué et ont proposé l'« hypothèse de couverture par compression de paramètres » : différentes capacités dépendent des paramètres du modèle de manières très distinctes. Le raisonnement vérifiable se rapproche davantage d'une capacité hautement compressible et dense en paramètres, dont le cœur réside dans le raisonnement multi-étapes, la satisfaction de contraintes, l'autocorrection et la vérification des réponses. Lorsque la structure de l'espace des tâches est suffisamment claire et que les signaux de retour sont suffisamment fiables, des modèles compacts peuvent également posséder des capacités de raisonnement proches de l'état de l'art. En comparaison, les connaissances en domaine ouvert, le dialogue général et la compréhension de scénarios à longue traîne dépendent davantage de paramètres à grande échelle pour couvrir largement les faits, concepts et connaissances du monde. Cette hypothèse est très stimulante. VentureBeat écrit dans son reportage : « Elle révèle qu'il existe un découplage partiel entre les capacités de raisonnement et les connaissances factuelles, et que les premières peuvent être comprimées plus efficacement qu'on ne le pensait auparavant — une perspicacité qui a des implications profondes sur la façon dont l'industrie perçoit la conception des modèles, les coûts de déploiement et l'accessibilité des fonctionnalités avancées de l'intelligence artificielle. »

Les auteurs indiquent que leur objectif n'est pas de créer un petit modèle alternatif aux modèles à grande échelle, mais plutôt, en suivant une dimension de capacité spécifique, d'examiner les véritables limites des petits modèles. Avec VibeThinker-3B, ils espèrent montrer que les petits modèles ne doivent pas être considérés uniquement comme un compromis pour réduire les coûts de déploiement. Dans les domaines de capacité ayant des mécanismes clairs de retour et de vérification, les petits modèles linguistiques révèlent une voie de recherche prometteuse, susceptible d'atteindre des performances de niveau avancé, et de former une relation complémentaire fondamentale avec le paradigme traditionnel d'extension par l'échelle des paramètres.

Actuellement, le modèle fait également face à certaines critiques dans la communauté. Si ce modèle vous intéresse, pourquoi ne pas l'essayer vous-même.

Liens de référence :

https://x.com/orcus108/status/2066876960073281582

Cet article provient du compte officiel WeChat « Machine Heart » (ID : almosthuman2014), auteur : Zhang Qian

Questions liées

QQuel est le nom du petit modèle de 3B qui a suscité l'engouement sur X pour ses performances en programmation ?

ALe modèle s'appelle VibeThinker-3B. C'est un modèle dense de raisonnement avec 3 milliards de paramètres, développé par l'équipe de Weibo (Sina Weibo).

QQuelles sont les tâches principales pour lesquelles le modèle VibeThinker-3B a été conçu ?

AVibeThinker-3B a été conçu pour les tâches de raisonnement avec un signal de vérification fiable, notamment le raisonnement mathématique, la programmation compétitive, le raisonnement STEM (sciences, technologie, ingénierie et mathématiques) et l'exécution d'instructions avec des contraintes explicites.

QSur quelle architecture de base le modèle VibeThinker-3B a-t-il été construit ?

ALe modèle VibeThinker-3B a été construit à partir de Qwen2.5-Coder-3B. Il a ensuite suivi un processus de post-formation avancé appelé "Spectrum-to-Signal", incluant un fine-tuning supervisé (SFT), un apprentissage par renforcement (RL) et une autodistillation hors ligne.

QQuelle hypothèse importante concernant les capacités des modèles est mise en avant par les créateurs de VibeThinker-3B ?

ALes créateurs proposent l'**hypothèse de couverture par compression des paramètres**. Elle suggère que le raisonnement vérifiable (étapes multiples, satisfaction de contraintes) est une capacité hautement compressible, qui peut atteindre des niveaux de pointe même dans des modèles compacts lorsque la tâche est bien structurée et que le retour est fiable. En revanche, les connaissances factuelles générales et la compréhension de scénarios variés dépendent davantage d'un grand nombre de paramètres.

QOù peut-on trouver le rapport technique et télécharger le modèle VibeThinker-3B ?

ALe rapport technique intitulé "VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models" est disponible sur arXiv : https://arxiv.org/pdf/2606.16140. Le modèle peut être téléchargé sur la page HuggingFace de WeiboAI : https://huggingface.co/WeiboAI/VibeThinker-3B.

Lectures associées

Histoire du financement de DeepSeek

**Résumé de l’histoire du financement de DeepSeek** L’article relate les coulisses du récent tour de table de DeepSeek, fondé par Liang Wenfeng. Le processus a été marqué par une réunion en ligne de quatre heures avec les investisseurs, où Liang a insisté sur la vision de l’entreprise : se concentrer exclusivement sur la voie vers l’IA Générale (AGI), privilégier la stabilité de l’équipe et faire preuve de retenue. Initialement, DeepSeek visait une levée de 50 milliards de RMB, sans syndication et en structure purement RMB. Les conditions ont été assouplies, le ticket minimum baissant à 15 milliards, pour s’adapter au marché. Une « liste blanche » de fonds a été établie. Parmi les investisseurs figurent Monolith Capital (qui a doublé son engagement à 30 milliards), Zhenxingu (une inclusion surprise), IDG et des entités liées à des sociétés comme CATL. De manière notable, des géants comme Sequoia China et Hillhouse n’apparaissent pas dans la liste finale, ce qui interroge sur un éventuel « miss » majeur. Une analyse fine révèle qu’environ 100 institutions ou individus participent au final via des structures imbriquées. La demande principale de Liang Wenfeng aux investisseurs était de ne pas débaucher les membres de DeepSeek. L’article souligne l’image singulière de l’entreprise : une équipe perçue comme « ordinaire » visant l’extraordinaire, portée par une ambition immense mais discrète, résumée par sa devise : « Ne pas être séduit par la louange, ni effrayé par la calomnie, suivre la voie et se rectifier avec droiture ».

链捕手Il y a 15 mins

Histoire du financement de DeepSeek

链捕手Il y a 15 mins

Début de mandat de Warsh : les « dot plots » sont toujours là, mais la Fed a peut-être déjà changé

La Réserve fédérale des États-Unis (Fed) a maintenu ses taux d’intérêt inchangés lors de la réunion de juin, la première présidée par le nouveau président Christopher Warsh. L’attention s’est portée sur l’évolution du cadre de communication de la Fed sous sa direction. Bien que le "dot plot" (graphique des prévisions de taux des membres du FOMC) ait été publié, Warsh a choisi de ne pas soumettre sa propre prévision, signalant une volonté d’en réduire l’importance. Historiquement critique envers ce outil et les orientations excessives, il privilégie une approche plus dépendante des données et une communication plus restreinte sur les futures actions. Lors de la conférence de presse, Warsh a refusé de donner des indications claires sur la trajectoire des taux, insistant sur la lutte contre l’inflation. Cette posture a conduit les marchés à réévaluer les risques de resserrement monétaire plus vigoureux que prévu. Les attentes de hausses de taux ont augmenté, entraînant un recul des actions américaines et un renforcement du dollar. En résumé, la première réunion de Warsh marque un tournant subtil vers un cadre de communication moins prévisible, où la Fed se concentre davantage sur l’évaluation des conditions actuelles que sur la fourniture d’un chemin forward guidance précis. Le marché doit désormais s’adapter à une période où l’incertitude sur la trajectoire politique pourrait être plus élevée.

Odaily星球日报Il y a 27 mins

Début de mandat de Warsh : les « dot plots » sont toujours là, mais la Fed a peut-être déjà changé

Odaily星球日报Il y a 27 mins

Le destin des banques numériques : un app bancaire impressionnant ne vaut pas une licence bancaire

**Résumé : Le destin des néo-banques : Une licence bancaire vaut mieux qu'une application sophistiquée** Les néo-banques, proposant des comptes courants sans frais, ont attiré des centaines de millions d'utilisateurs mais peinent à être rentables. 76% d'entre elles sont encore déficitaires. Leur erreur fondamentale ? S'être concentrées sur les services de paiement, dont les revenus (frais d'interchange) sont marginaux, tout en négligeant le cœur métier bancaire : le crédit et les intérêts qu'il génère. Les banques traditionnelles prospèrent grâce aux prêts (immobiliers, à la consommation...). Sans licence bancaire, la plupart des néo-banques ne pouvaient pas accorder de crédit à grande échelle. Les survivantes, comme Nubank au Brésil ou Revolut, doivent leur profitabilité à leur pivot vers les produits de prêt. Chime, aux États-Unis, n'a réalisé son premier bénéfice qu'après le décollage de ses services de crédit (avance sur salaire, prêts instantanés). La dépendance à des infrastructures tierces s'est révélée un risque mortel. La faillite du prestataire Synapse en 2024 a gelé 265 millions de dollars de fonds utilisateurs, exposant la fragilité des modèles reposant sur des partenaires pour la garde des fonds et la conformité. La conclusion est claire : la licence bancaire est l'unique garantie de stabilité et de contrôle. C'est la leçon que tirent désormais les acteurs de la cryptomonnaie. En 2025-2026, des entreprises comme Paxos, Ripple ou Circle ont activement sollicité des agréments (comme la licence de « national trust » de l'OCC aux États-Unis) pour opérer en toute autonomie, sécuriser les actifs et développer le crédit. Le secteur de la cryptomonnaie reproduit ainsi l'évolution classique de la banque. L'essence du métier bancaire – prêter de l'argent – demeure immuable. Les applications mobiles ne sont que l'interface moderne d'une logique économique ancienne : pour une banque, numérique ou non, la rentabilité passe par la maîtrise du risque de crédit sous le parapluie réglementaire adéquat.

marsbitIl y a 32 mins

Le destin des banques numériques : un app bancaire impressionnant ne vaut pas une licence bancaire

marsbitIl y a 32 mins

Un pays qui a miné du Bitcoin pendant 8 ans a créé une banque cryptographique qui lui est dédiée

Un petit royaume himalayen, le Bhoutan, lance une banque cryptographique unique après huit années d'expérience dans le minage de Bitcoin. La DK Bank, située dans la nouvelle ville de Gelephu Mindfulness City (GMC), est la seule banque agréée de la zone, conçue pour combler le déficit de services bancaires pour les entreprises de cryptomonnaies. Dirigée par le PDG Zheng YD, la banque permet la gestion conjointe de devises fiduciaires et de stablecoins comme l'USDT ou l'USDC sur un compte unique, avec des services de garde et de prêt sur nantissement de Bitcoin. Pour y parvenir, elle a dû relever le défi technique d'intégrer des systèmes bancaires traditionnels avec le marché cryptographique actif 24h/24. La zone économique spéciale de GMC opère sous une gouvernance distincte du reste du Bhoutan, s'inspirant du droit commun de Singapour et des régulations d'Abu Dhabi (ADGM) pour attirer les entreprises internationales. Les autorités soulignent que les processus accélérés d'obtention de licence ne signifient pas un assouplissement des normes, exigeant une présence physique réelle pour bénéficier d'avantages fiscaux. Cette initiative s'inscrit dans une stratégie nationale plus large. Le Bhoutan exploite le minage de Bitcoin depuis 2018, utilisant son énergie hydroélectrique. Les responsables insistent sur une approche diversifiée et prudentielle, ne misant pas uniquement sur le Bitcoin mais explorant aussi la tokenisation d'actifs réels. Le projet vise à positionner GMC comme une plaque tournante financière pour l'Asie du Sud. Alors que des infrastructures comme un aéroport international sont en cours de développement, la DK Bank représente déjà un pas concret pour ce petit pays, qui mise sur l'innovation cryptographique régulée pour son avenir économique.

marsbitIl y a 54 mins

Un pays qui a miné du Bitcoin pendant 8 ans a créé une banque cryptographique qui lui est dédiée

marsbitIl y a 54 mins

Trading

Spot
Futures
活动图片