À l'instant, l'IA chinoise se hisse à la deuxième place mondiale en programmation, seul Claude la devance

marsbitPublié le 2026-05-27Dernière mise à jour le 2026-05-27

Résumé

Aujourd'hui, Qwen3.7-Max d'Alibaba a marqué 1541 points sur le Code Arena, se hissant à la quatrième place du classement mondial des modèles de programmation IA. Il surpasse désormais des modèles leaders comme GPT-5.5 et Gemini 3.5 Flash, et n'est devancé que par les versions Claude Opus 4.7 et 4.6. Ainsi, Alibaba est le seul constructeur chinois présent sur ce podium, occupant la deuxième place mondiale derrière Anthropic (Claude). Les tests pratiques confirment sa puissance. Lors d'un défi de création d'un jeu de course 3D en HTML, Qwen3.7-Max a livré un jeu fonctionnel dès le premier essai, incluant une page de démarrage et des effets sonores, là où d'autres modèles nécessitaient plusieurs corrections. Il excelle également en termes de rapport coût-performance. La force de Qwen3.7-Max réside dans sa conception en tant que "modèle de base pour agents", optimisé pour des exécutions autonomes de longue durée. Lors d'un test interne, il a exécuté une tâche de programmation pendant 35 heures, effectuant 1158 appels d'outils sans dégradation. Cette robustesse provient de deux avancées : un « environnement étendu » d'entraînement qui lui apprend des stratégies universelles, et un cadre « d'exécution autonome à long terme » pour un raisonnement et une adaptation soutenus. En s'imposant dans cette compétition longtemps dominée par Claude, Qwen3.7-Max démontre que l'innovation en IA de programmation n'est plus l'apanage exclusif de la Silicon Valley.

C'est aujourd'hui que le dernier classement de Code Arena est tombé !

Qwen3.7-Max, avec un score de 1541 points, s'empare de la quatrième place mondiale, surpassant d'un coup une série de modèles de pointe comme GPT-5.5 et Gemini 3.5 Flash.

Devant lui, il ne reste plus que Claude Opus 4.7 et Opus 4.6.

En d'autres termes, sur l'arène mondiale des modèles de programmation, Alibaba est le seul acteur chinois à avoir réussi à intégrer cette table de jeu, se positionnant deuxième derrière Anthropic.

Qwen3.7-Max s'introduit dans le top cinq mondial

Le seul modèle non-Claude

En fait, avant même la publication du classement de Code Arena, Qwen3.7-Max s'était déjà fait un nom parmi les développeurs internationaux.

Atomic Chat a organisé une confrontation directe, mettant aux prises Opus 4.7, GPT-5.5 et Qwen3.7-Max, avec pour mission de créer une IA auto-apprenante pour Tetris.

Résultat, Qwen3.7-Max a non seulement surpassé Opus 4.7 et GPT-5.5 avec un coût en tokens de seulement 1,32 $, mais a également amélioré les performances de 56%.

Un autre développeur international a choisi Qwen3.7-Max pour construire un modèle 3D d'un univers, avec un résultat qualifié de stupéfiant.

Dans la tâche de génération d'un « modèle miniature de pagode en pixel art 3D », la vitesse et la qualité de sortie de Qwen3.7-Max ont également surpassé la concurrence de manière complète.

Le développeur Paul Couvert a même vivement loué Qwen3.7-Max, déclarant qu'une fois connecté à Hermes Agent et OpenCode, il pouvait essentiellement remplacer GPT-5.5 et Opus 4.7.

En programmation, vraiment efficace

Cependant, plutôt que des scores élevés, mieux vaut le tester en situation réelle.

Nous avons préparé pour Qwen3.7-Max un défi intense de « jeu de course automobile ».

Après avoir saisi un prompt détaillé, Qwen3.7-Max a rapidement généré un fichier HTML jouable.

La première version avait un petit bug : les touches de direction A/D étaient inversées.

Mais après un second ajustement simple via le dialogue, un jeu de course 3D complet et fonctionnel a été lancé.

Au moment de l'ouverture, pour être honnête, nous avons été un peu surpris.

Quatre voitures sur la piste, une course de 3 tours sur un circuit ovale, plus de 100 pièces d'or dispersées sur la piste, des ralentissements et des pertes de contrôle en cas de collision avec des obstacles.

Le tableau des scores après la course affichait le classement, le temps, le nombre de pièces, le meilleur tour, rien ne manquait.

Mais ce qui a vraiment été surprenant, ce sont deux détails que seul Qwen3.7-Max a réalisés.

Le premier est l'écran de démarrage. Après un test transversal des quatre modèles, seul lui a créé un véritable écran de démarrage pour le jeu, avec un bouton « Start » pour entrer dans la course. Les trois autres démarraient directement la course, sans même un écran-titre.

Le deuxième est le son. Le prompt incluait en fin de compte une demande : ajouter des bruitages de moteur et de collecte de pièces. Parmi les quatre modèles, seul lui a intégré ce bonus, avec les rugissements du moteur et les 'ding' des pièces.

Voyons maintenant les performances des autres candidats.

Les graphiques de Gemini 3.5 Flash étaient nettement plus simplistes, manquant de cette sensation de profondeur et de relief.

La mise en page de l'interface utilisateur posait aussi problème, les informations du tableau de bord étant dispersées aux quatre coins de l'écran, créant une focalisation visuelle éparpillée.

En comparaison, Qwen3.7-Max a choisi de regrouper les indicateurs clés au centre de l'écran, correspondant mieux au point de fixation naturel du regard du joueur.

Le résultat de Claude Opus 4.6 était, disons, assez décevant.

Non seulement les pièces sur la piste étaient très rares, mais les 3 voitures IA se déplaçaient pratiquement de manière synchronisée, sans aucune randomisation, comme si elles étaient copiées-collées.

Enfin, GPT-5.5.

On peut voir que la qualité visuelle est en effet bien supérieure aux deux premiers, et les sensations de jeu sont plus fluides.

Mais, on ne sait pas pourquoi, les pièces ont été transformées en « donuts » jaunes...

La forme est un détail. Le point crucial est que Gemini, Claude et ChatGPT ont tous dû corriger plusieurs bugs avant de faire fonctionner toutes les fonctionnalités.

Seul Qwen3.7-Max était fondamentalement jouable dès la première génération.

Des scores comparables, des tests réels solides, un prix plusieurs fois inférieur. La conclusion, il suffit d'attendre que les développeurs votent avec leurs pieds.

Le modèle « de base » de l'ère des Agents

Si Qwen3.7-Max peut performer à un tel niveau sur le ring de la programmation, l'explication réside dans son positionnement produit.

Il y a quelques jours, lors de la sortie de Qwen3.7-Max, Alibaba lui a attribué une étiquette très particulière : modèle de base pour Agents.

Il est conçu dès le départ pour être un modèle capable d'exécuter des tâches de manière autonome sur de longues durées.

Les données des tests internes montrent que lors d'une tâche de programmation autonome, Qwen3.7-Max a fonctionné pendant 35 heures d'affilée, effectuant 1158 appels d'outils.

Le code généré final a atteint une accélération moyenne géométrique impressionnante de 10 fois par rapport à l'implémentation de référence Triton.

Plus impressionnante encore est sa capacité de « guerre d'usure » —

Après plus de 30 heures de raisonnement, le modèle conservait son acuité, continuant à découvrir de nouveaux espaces d'optimisation.

Et ce, sans aucune dégradation du contexte, aucune dérive des instructions, aucune boucle infinie !

Il faut reconnaître que la difficulté ne réside pas dans les 1000 appels d'outils en eux-mêmes. Depuis l'expansion du protocole MCP, faire 1000 appels n'est pas si rare.

La difficulté réside dans le raisonnement cohérent sur 35 heures.

La majorité des modèles s'effondrent lors de longues tâches : soit le contexte s'accumule et devient confus, les objectifs fixés au début étant complètement oubliés plus tard ; soit ils entrent dans une boucle infinie, réessayant sans cesse la même solution qui échoue.

Qwen3.7-Max a réussi à « continuer à faire les choses correctement ».

Révélation des technologies clés

Nous pensons que cette amélioration significative en programmation de Qwen3.7-Max est liée à l'amélioration de deux méthodes d'entraînement.

Premièrement, l'extension de l'environnement.

Lors de l'entraînement en programmation de Qwen3.7-Max, chaque tâche est décomposée en trois dimensions indépendantes : la tâche elle-même, le cadre d'exécution et la méthode de validation, ces trois éléments étant combinés librement.

Un même problème est parfois traité dans le cadre de Claude Code, parfois dans OpenClaw, parfois avec une méthode de validation différente.

L'effet est comparable à un stagiaire envoyé en rotation dans tous les groupes de projets. Ce qu'il est forcé d'apprendre, ce sont des stratégies génériques de résolution de problèmes, pas « comment tricher dans un cadre spécifique ».

Cela explique un phénomène contre-intuitif : Qwen3.7-Max performe de manière stable dans les cadres Claude Code, OpenClaw et Qwen Code, sans présenter de faiblesse flagrante lorsqu'il change de cadre par rapport à ses propres performances dans son cadre natif.

La deuxième amélioration est l'exécution autonome de longue durée.

Dans l'entraînement, l'équipe a introduit un cadre de « jeu de survie à accumulation dynamique ».

C'est-à-dire, faire en sorte que le modèle prenne des décisions séquentielles sur plus de mille étapes dans un environnement simulé en constante évolution, qu'il établisse ses propres hypothèses, ajuste ses stratégies en fonction des retours, et qu'il ne « corrompe » pas son contexte en raison d'une exécution trop longue.

Voici une donnée illustrative : sur le benchmark YC-Bench simulant la gestion d'une startup pendant un an, Qwen3.7-Max a atteint un chiffre d'affaires de 2,08 millions de dollars, soit le double de la génération précédente (1,05 million).

Plus crucial encore, il a montré une évolution stratégique : en milieu de parcours, face à une crise, il a pu ajuster son orientation de manière autonome, identifier et bloquer des clients malveillants, pour finalement converger vers une boucle d'exécution stable.

C'est le socle sous-jacent de l'exemple d'optimisation de kernel de 35 heures, et c'est pourquoi sur Kernel Bench L3, Qwen3.7-Max a permis d'obtenir un effet d'accélération dans 96% des scénarios.

Et la programmation n'est que le premier champ de bataille. Ces fondations de raisonnement de longue durée et d'appel d'outils pointent vers une ambition plus grande : un modèle de base universel pour Agents.

La finale de la programmation compte un nouvel agitateur

Depuis son lancement, Code Arena teste toujours des compétences concrètes : raisonnement multi-étapes, orchestration d'outils, livraison de projets complets, tout est du vrai combat au niveau Agent.

Aujourd'hui, Qwen3.7-Max, avec son score de 1541 points, s'est inséré en quatrième position, se calant entre Opus 4.6 Thinking et Opus 4.6.

Sur cette piste dominée par Claude depuis plus d'un an, il a apporté sa réponse : les modèles chinois ne sont pas seulement des poursuivants, ils peuvent aussi être des définisseurs.

La compétition mondiale des modèles de programmation n'est plus un spectacle en solo pour la Silicon Valley.

Références :

https://arena.ai/leaderboard/code/webdev

Cet article provient du compte WeChat officiel « New Zhiyuan », auteur : ASI Apocalypse

Questions liées

QQuel modèle d'IA chinois a récemment obtenu un score élevé sur le classement Code Arena, et quel est son classement ?

ALe modèle Qwen3.7-Max d'Ali (Alibaba) a obtenu un score de 1541 points sur le classement Code Arena, se classant au quatrième rang mondial, derrière Claude Opus 4.7 et Opus 4.6.

QPourquoi l'article qualifie-t-il le Qwen3.7-Max de 'modèle de base pour Agent' ?

AL'article qualifie Qwen3.7-Max de 'modèle de base pour Agent' car il est spécifiquement conçu pour exécuter des tâches de manière autonome sur de longues périodes. Par exemple, lors d'un test interne, il a fonctionné pendant 35 heures, effectué 1158 appels d'outils et optimisé du code avec une accélération moyenne de 10x, sans dégradation du contexte ni dérive des instructions.

QDans le test pratique de création d'un jeu de course, quels sont les deux détails que seul Qwen3.7-Max a implémentés ?

ADans le test pratique de création d'un jeu de course, seuls Qwen3.7-Max a implémenté un écran de démarrage avec un bouton 'Start' et a ajouté des effets sonores (bruit du moteur et son des pièces), comme demandé dans le prompt bonus.

QSelon l'article, quelles sont les deux principales améliorations d'entraînement qui expliquent les performances de Qwen3.7-Max en programmation ?

ASelon l'article, les deux principales améliorations d'entraînement sont : 1) L'extension de l'environnement, où chaque tâche est décomposée et recombinée à travers différentes dimensions (tâche, cadre d'exécution, méthode de validation) pour apprendre des stratégies universelles. 2) L'exécution autonome à long terme, entraînée via un cadre de 'jeu de survie à accumulation dynamique' pour maintenir un raisonnement cohérent et s'adapter sur des milliers d'étapes.

QQuelle affirmation l'article fait-il concernant la concurrence mondiale dans les modèles de programmation IA après les résultats de Qwen3.7-Max ?

AL'article affirme que la compétition mondiale des modèles de programmation IA n'est plus un spectacle à sens unique de la Silicon Valley. Avec la percée de Qwen3.7-Max, les modèles chinois ne sont plus seulement des poursuivants, mais peuvent également devenir des acteurs qui définissent les règles du jeu.

Lectures associées

La destruction de LIT, d'une valeur de 42 millions de dollars, est-elle suffisante pour déclencher la prochaine grande envolée de cet altcoin ?

Le token Lighter (LIT) a connu une hausse de 3,68% sur 24 heures et de 18% sur la semaine. Après un avertissement de sur-achat et une correction à 2,3$, le prix est remonté à 2,60$. Cet élan pourrait être lié au brûlage massif du 10 juillet de 15,6 millions de tokens LIT (valant 42 millions $), représentant 6,3% de l'offre en circulation. L'analyse technique sur le graphique journalier révèle une divergence baissière entre le RSI et le prix, signalant un risque de correction malgré une demande solide. Les niveaux de retracement de Fibonacci suggèrent qu'une chute sous 2,30$ pourrait entraîner un repli plus profond. Sur l'échelle de 4 heures, le prix évolue dans une fourchette entre 2,31$ et 2,68$. Les traders attendent une cassure haussière au-dessus de 2,70$ pour viser 3,06$ et 3,21$. À l'inverse, une rupture sous 2,31$ rendrait un retrait sous les 2$ plus probable. En résumé, la dynamique reste globalement haussière malgré les signaux techniques de prudence, et la prochaine impulsion dépendra de la sortie de la fourchette de trading actuelle.

ambcryptoIl y a 2 h

La destruction de LIT, d'une valeur de 42 millions de dollars, est-elle suffisante pour déclencher la prochaine grande envolée de cet altcoin ?

ambcryptoIl y a 2 h

Près d'une centaine de joueurs se ruent vers les données incarnées : 44,7 milliards levés en un an, qui peut vraiment gagner de l'argent en "vendant des données" ?

Près d'une centaine d'acteurs se ruent dans le secteur des données d'embodiment : 44,7 milliards de yuans levés en un an, mais qui peut vraiment gagner de l'argent en "vendant des données" ? Le secteur des données pour l'intelligence incarnée (embodiment) est en plein essor, avec 97 acteurs identifiés en Chine, dont 70 dans la collecte et 27 dans l'infrastructure. Sur un an, 15 prestataires de services indépendants spécialisés ont levé environ 44,7 milliards de yuans, un montant modeste comparé aux investissements totaux dans l'embodiment. La collecte s'organise autour de quatre approches principales : téléopération de robots physiques, collecte sans robot (via capteurs de mouvement), synthèse par simulation et distillation de vidéos internet. La plupart des acteurs combinent plusieurs méthodes. Les prestataires indépendants constituent le groupe le plus important (40%), devant les plateformes publiques (26%) et les fabricants de robots (25%). La capacité de production annuelle actuelle est estimée entre 1,6 et 1,8 million d'heures de données, avec un objectif de multiplication par 15 à 20 d'ici 1 à 3 ans. Des "usines à données" sont implantées dans 20 provinces, principalement dans les régions côtières développées. Le financement reste concentré sur des sociétés en phase précoce ; plus de la moitié des prestataires indépendants financés ont moins d'un an. La startup Lightwheel AI se distingue, ayant levé 31 milliards de yuans et atteint une valorisation de plus de 20 milliards de dollars. Cependant, les investisseurs restent prudents, aucun n'ayant effectué de pari massif sur le secteur. En résumé, le marché des données d'embodiment est devenu une piste indépendante et créatrice d'emplois, mais il en est encore à ses débuts. La viabilité commerciale d'un modèle basé sur la seule vente de données n'est pas encore démontrée. Les prochaines années seront cruciales pour vérifier si ces "vendeurs de pelles" peuvent réellement être rentables.

marsbitIl y a 2 h

Près d'une centaine de joueurs se ruent vers les données incarnées : 44,7 milliards levés en un an, qui peut vraiment gagner de l'argent en "vendant des données" ?

marsbitIl y a 2 h

Conversation avec le partenaire de Multicoin : Le marché de la cryptographie a touché le fond, trois cryptomonnaies sont prometteuses pour ce cycle

Tushar Jain, associé gérant de Multicoin Capital, estime que le marché de la cryptographie a touché le fond et entre dans un point d'inflexion, marqué par une résistance aux mauvaises nouvelles et une adoption croissante des applications. Il partage sa vision sur trois actifs principaux. Solana reste pour lui l'architecture technique idéale pour les marchés de capitaux sur internet, leader pour le trading au comptant et les actifs tokenisés. Hyperliquid domine quant à lui le segment des dérivés. Jain détient des positions importantes dans les deux, mettant en avant leurs forces complémentaires plutôt qu'une approche maximaliste. Il exprime un fort optimisme pour Zcash (ZEC), y voyant un retour aux valeurs "cypherpunk" originelles de la cryptographie et un actif de réserve de valeur au potentiel de croissance important, basé sur le consensus. Malgré un récent bug ayant provoqué une panique du marché, il considère l'incident comme mineur et a augmenté ses positions. Concernant la gestion, Jain rejette le trading actif basé sur l'analyse technique. Sa stratégie d'investissement privilégie une approche qualitative, une diversification concentrée sur les meilleures convictions, et une méthode d'accumulation en trois phases pour atténuer le risque de rater le marché. Il identifie quatre sources d'avantage concurrentiel en investissement : l'accès à l'information, l'analyse, la psychologie et les avantages structurels. Enfin, il explique que Multicoin ne vend un actif que si la thèse d'investissement est invalidée, qu'un meilleur opportunité est identifiée, ou en cas de surenchère extrême du marché, utilisant alors le Bitcoin comme réserve de valeur pour réduire le risque.

marsbitIl y a 3 h

Conversation avec le partenaire de Multicoin : Le marché de la cryptographie a touché le fond, trois cryptomonnaies sont prometteuses pour ce cycle

marsbitIl y a 3 h

Bitcoin s'approche du creux du cycle malgré des sorties records de 8 milliards de dollars des ETF au comptant – Pourquoi ?

Au moment de la rédaction, le Bitcoin (BTC) se négociait à 64 099,20 dollars, montrant un rétablissement après être tombé sous les 60 000 dollars, mais des inquiétudes persistent. James Butterfill de CoinShares a souligné les vents contraires à trois niveaux : les tensions géopolitiques au Moyen-Orient, la politique monétaire restrictive de la Fed (taux maintenus entre 3,50 % et 3,75 % par crainte de l'inflation) et des sorties record des ETF Spot Bitcoin, avec environ 8 milliards de dollars de retraits nets sur huit semaines. Cependant, des signes préliminaires suggèrent que le Bitcoin pourrait approcher un point bas. Les sorties des ETF ont récemment ralenti, indiquant une possible diminution de la pression de vente institutionnelle. De plus, une importante vente de Bitcoin par l'Allemagne début juillet a eu un impact limité sur le marché. Sur le plan technique, une nouvelle accumulation de BTC dans la fourchette 60 000-63 000 dollars constitue un support, tandis que les niveaux de 77 000 et 84 000-85 000 dollars représentent des résistances clés. En résumé, le marché reste sous pression mais n'est pas brisé, avec des indicateurs mitigés entre les vents contraires macroéconomiques et les signes d'un épuisement des ventes forcées.

ambcryptoIl y a 3 h

Bitcoin s'approche du creux du cycle malgré des sorties records de 8 milliards de dollars des ETF au comptant – Pourquoi ?

ambcryptoIl y a 3 h

Prévision du prix du XRP : Les traders en retrait refusent-ils de poursuivre les rebonds superficiels ?

L'activité sur le réseau XRP Ledger a chuté à des niveaux inhabituellement bas, avec seulement environ 25 000 adresses actives quotidiennes début juillet 2026, parmi les plus faibles de l'année. Cette réduction de l'activité et de la croissance du réseau suggère que les traders et investisseurs attendent sur la touche, refusant de suivre les rebonds superficiels du prix, comme ceux observés en juin ou avril. Les données de volume spot et les flux nets sortants des plateformes d'échange confirment cette pression d'achat limitée et une tendance à l'accumulation en cold storage. Parallèlement, les taux de financement agrégés sur 30 jours sont restés négatifs tout au long de 2026, indiquant un biais spéculatif résolument baissier. L'analyste Darkfost note qu'un tel consensus bearish persistant, même après une correction de plus de 70% depuis le pic de juillet 2025, pourrait paradoxalement signaler une inversion de tendance à moyen terme, un scénario similaire ayant précédé un rally de 126% en avril 2025. Pour que cela se produise, une nette amélioration des volumes spot est cependant nécessaire. Le prix du XRP évolue actuellement autour du support des 1,10$.

ambcryptoIl y a 4 h

Prévision du prix du XRP : Les traders en retrait refusent-ils de poursuivre les rebonds superficiels ?

ambcryptoIl y a 4 h

Trading

Spot

À l'instant, l'IA chinoise se hisse à la deuxième place mondiale en programmation, seul Claude la devance

Résumé

Qwen3.7-Max s'introduit dans le top cinq mondial

Le seul modèle non-Claude

En programmation, vraiment efficace

Le modèle « de base » de l'ère des Agents

Révélation des technologies clés

La finale de la programmation compte un nouvel agitateur

Questions liées

Lectures associées

La destruction de LIT, d'une valeur de 42 millions de dollars, est-elle suffisante pour déclencher la prochaine grande envolée de cet altcoin ?

Près d'une centaine de joueurs se ruent vers les données incarnées : 44,7 milliards levés en un an, qui peut vraiment gagner de l'argent en "vendant des données" ?

Conversation avec le partenaire de Multicoin : Le marché de la cryptographie a touché le fond, trois cryptomonnaies sont prometteuses pour ce cycle

Bitcoin s'approche du creux du cycle malgré des sorties records de 8 milliards de dollars des ETF au comptant – Pourquoi ?

Prévision du prix du XRP : Les traders en retrait refusent-ils de poursuivre les rebonds superficiels ?

Trading

Catégories populaires

Tags tendances