刚刚,中国AI闯入全球编程前二,前面只剩Claude

marsbitPublié le 2026-05-27Dernière mise à jour le 2026-05-27

Résumé

Code Arena最新榜单显示,阿里通义千问Qwen3.7-Max以1541分位列全球第四,成为唯一进入该榜单前列的中国模型,排名仅次于Claude Opus系列模型。 在具体任务测试中,Qwen3.7-Max表现突出。例如,在编写可自我训练的俄罗斯方块AI任务中,其成本仅为1.32美元,性能却超越其他模型56%。在构建3D宇宙模型和生成3D像素风宝塔模型等任务中,其输出速度与质量也全面胜出。 一项硬核的3D赛车游戏生成挑战进一步验证了其能力。Qwen3.7-Max首轮生成即基本可玩,并独特地添加了开始界面和音效,细节处理优于其他对比模型(如Gemini 3.5 Flash、Claude Opus 4.6和GPT-5.5),后者大多需要多轮调试。 Qwen3.7-Max被定位为“Agent基座模型”,专为长时间自主执行复杂任务设计。内测数据显示,它能连续运行35小时,执行超千次工具调用,在长程任务中保持稳定推理,无上下文退化或指令漂移。 其技术核心在于训练方法的升级:一是“环境扩展”,让模型在不同执行框架和验证方式中学习通用解题策略;二是“长程自主执行”训练,使模型能在动态环境中进行超千步连续决策与策略调整。 此次Qwen3.7-Max在Code Arena榜单的突破,标志着中国AI模型已在全球编程竞技场中成为重要的竞争者。

就在今天,Code Arena最新榜单出炉!

Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。

排在它前面的,只剩Claude Opus 4.7和Opus 4.6。

换句话说,在全球编程模型的竞技场上,阿里是唯一杀进这张牌桌的中国厂商,仅次于Anthropic,位列第二。

Qwen3.7-Max闯入全球前五

唯一非Claude模型

其实在Code Arena放榜之前,Qwen3.7-Max在海外开发者圈子里已经杀出了名声。

Atomic Chat做了一场硬碰硬的对比,让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技,任务是写一个能自我训练的俄罗斯方块AI。

结果,Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了,而且性能还提升了56%。

另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型,效果足以用震撼形容。

在「3D像素风微缩宝塔模型」的生成任务中,Qwen3.7-Max的输出速度和质量同样全面胜出。

开发者Paul Couvert更是盛赞,Qwen3.7-Max接入Hermes Agent和OpenCode之后,基本可以替掉GPT-5.5和Opus 4.7。

编程,太能打了

不过跑分再高,不如真刀真枪拉出来练练。

我们给Qwen3.7-Max安排了一场硬核的「赛车游戏」挑战。

一段详细的Prompt丢进去,不一会儿功夫,Qwen3.7-Max直出一个可玩的HTML的文件。

第一版有个小bug,A/D转向键左右搞反了。

但经过第二轮简单对话微调,一个体验完整的3D赛车游戏就跑了起来。

打开的瞬间,说实话,有点被惊到了。

4车同台,3圈环形赛道竞速,赛道上散落着100多枚金币,碰到障碍物会减速、失控。

赛后成绩面板,排名、用时、金币数、最快单圈,一项不缺。

但真正让人意外的,是两个只有Qwen3.7-Max做到的细节。

一个是开始界面。四个模型横向测完,只有它给游戏做了一个正经的开始页面,点「Start」才进入比赛。其他三家全是打开即跑,连个标题画面都没有。

另一个是音效。Prompt最后附了一条要求,加上发动机轰鸣和吃金币的音效。 四个模型里,也只有它把这个bonus吃进去了,引擎声和金币叮咚都安排上了。

再看看其他选手的表现。

Gemini 3.5 Flash的画面明显单薄了一档,缺少那种呼之欲出的立体感。

UI布局也有问题,仪表盘信息分散在屏幕四角,视觉焦点一盘散沙。

相比之下,Qwen3.7-Max的处理方式是把关键指标集中到画面中央,更符合玩家视线的自然落点。

Claude Opus 4.6的效果,有点让人一言难尽了。

不仅赛道上金币少得可怜,而且3辆AI赛车几乎同步行驶,毫无随机性,像复制粘贴出来的。

最后是GPT-5.5。

可以看到,画面质感确实比前两家强了不少,操作起来也更流畅。

但不知道为什么,金币被做成了黄色的「甜甜圈」......

造型倒是小事。关键是,Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。

只有Qwen3.7-Max首轮生成就基本可玩。

跑分接近,实测不虚,价格只有几分之一。剩下的结论,等开发者用脚投票就行了。

Agent时代的「基座」模型

Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平,答案就藏在它的产品定位里。

几天前,阿里发布Qwen3.7-Max的时候,给了它一个非常特殊的标签:Agent基座模型

它生来,就是为长时间自主执行任务设计的模型。

内测数据显示,在一次自主编程任务中,Qwen3.7-Max连续运行35个小时,执行1158次工具调用。

最终生成的代码相较于Triton参考实现,达到了惊人的10倍几何平均加速。

更令人震撼的是它的「持久战」能力——

在推演进行到第30个小时之后,模型依然保持敏锐,持续挖掘出新的优化空间。

全程零上下文退化、零指令漂移、零死循环!

不得不说,这件事的难点不在1000次工具调用本身。MCP协议铺开之后,调1000次工具不算稀奇。

难点在于,35小时的连贯推理。

绝大多数模型跑长任务时会崩盘:要么上下文越积越乱,前半段定的目标到后面忘得干干净净;要么进入死循环,反复尝试同一个失败的方案。

Qwen3.7-Max把「持续做对事」这件事,做出来了。

核心技术揭秘

Qwen3.7-Max这波编程跃升,我们理解核心可能与两个训练方法的升级有关。

第一个是,环境扩展。

Qwen3.7-Max在做编程训练时,每个任务会被拆成三个独立维度,任务本身、执行框架、验证方式,三者自由组合。

同一道题,有时候在Claude Code的框架里做,有时候在OpenClaw里做,有时候换一种验证方式。

效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略,不是「在某个特定框架里怎么取巧」。

这解释了一个反直觉的现象,Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳,没有出现「在自家框架里很强、换一个就拉胯」的情况。

第二个升级是,长程自主执行。

在训练中,团队引入了「动态累积生存博弈」框架。

也就是,让模型在持续变化的模拟环境中做超过一千步的连续决策,自己建立假设、根据反馈调整策略,而且不能因为跑太久就「上下文腐化」。

这里有一个直观的数据,YC-Bench模拟创业公司经营一整年,Qwen3.7-Max做到了208万美元营收,是上一代(105万)的两倍。

更关键的是,它展现出了策略进化,中期遇到危机能自主调整方向,识别并拉黑恶意客户,最终收敛到稳定的执行循环。

这就是35小时kernel优化案例的底层支撑,也是为什么在Kernel Bench L3上,Qwen3.7-Max能让96%的场景跑出加速效果。

而编程还只是第一个战场。这套长程推理加工具调用的底子,指向的是一个更大的野心——通用Agent基座。

编程决赛,多了一个搅局者

Code Arena上线至今,考的从来都是硬活,多步推理、工具编排、完整项目交付,全是Agent级的真刀真枪。

今天,Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置,卡在Opus 4.6 Thinking和Opus 4.6之间。

在这条Claude统治了大半年的赛道上,它给出了自己的回答,中国模型不只是追赶者,也可以是定义者。

全球编程模型的竞赛,已经不再是硅谷的独角戏了。

参考资料:

https://arena.ai/leaderboard/code/webdev

本文来自微信公众号“新智元”,作者:ASI启示录

Questions liées

QQwen3.7-Max在Code Arena的最新榜单中取得了第几名?

AQwen3.7-Max在Code Arena的最新榜单中以1541分的成绩闯入了全球前四名,排名第四。排在它前面的只有Claude Opus 4.7和Opus 4.6。

Q在海外开发者的实际测试中,Qwen3.7-Max在哪些方面表现优于Claude Opus 4.7和GPT-5.5?

A在海外开发者的实际测试中,Qwen3.7-Max在写一个能自我训练的俄罗斯方块AI的任务中,不仅以更低的成本($1.32的token成本)超越了Claude Opus 4.7和GPT-5.5,而且性能还提升了56%。在生成3D模型和3D像素风微缩宝塔模型的任务中,其输出速度和质量也全面胜出。

Q在文章中提到的“赛车游戏”挑战中,Qwen3.7-Max相比其他模型有哪些独特优势?

A在“赛车游戏”挑战中,Qwen3.7-Max的优势包括:首轮生成的代码基本可玩(其他模型需要多轮调试);设计了正式的开始界面(其他模型打开即跑);成功添加了发动机轰鸣和吃金币的音效(其他模型未实现);游戏UI布局更合理,将关键指标集中到画面中央。

QQwen3.7-Max被定位为“Agent基座模型”,它具有哪些核心能力?

AQwen3.7-Max被定位为“Agent基座模型”,其核心能力包括:能够长时间自主执行任务,在一次编程任务中连续运行35小时并执行1158次工具调用;具备出色的持久战能力,能在长时间推理后依然保持敏锐,持续挖掘优化空间,全程零上下文退化、零指令漂移、零死循环。

Q文章中提到Qwen3.7-Max编程能力的提升主要与哪两个训练方法有关?

A文章中提到,Qwen3.7-Max编程能力的提升主要与两个训练方法有关:1. 环境扩展:训练时将任务、执行框架、验证方式三者自由组合,让模型学会解决问题的通用策略,而非依赖特定框架。2. 长程自主执行:通过“动态累积生存博弈”框架,让模型在持续变化的模拟环境中进行超过一千步的连续决策,并能自主调整策略,避免了长时间的“上下文腐化”。

Lectures associées

Tendance du marché américain : Une phrase de Huang Renxun a fait exploser 47 milliards de dollars, Google lève des fonds en « se vendant » pour la première fois en 20 ans

La course aux armements de l'IA a atteint un tournant crucial, passant de la puissance pure des puces à la capacité de transformer rapidement l'argent en puissance de calcul. Le 2 juin a illustré cette dynamique de manière frappante. D'un côté, une simple déclaration de Jensen Huang, PDG de Nvidia, lors du Computex à Taipei, a propulsé la capitalisation boursière de Marvell Technology de 47 milliards de dollars en une journée. Il a présenté la société comme "la prochaine entreprise à mille milliards de dollars", soulignant l'importance croissante des technologies d'interconnexion pour l'IA. Hewlett Packard Enterprise (HPE) a également bondi d'environ 25% après des résultats et des prévisions exceptionnels, démontrant que les fournisseurs d'infrastructure bénéficient aussi de l'essor de l'IA. De l'autre, Alphabet, la maison-mère de Google, a annoncé un plan de financement par actions de 80 milliards de dollars, le premier depuis 20 ans. Cette décision, qui a fait chuter son action d'environ 4%, reflète l'énorme appétit en dépenses d'investissement pour l'infrastructure IA, estimées à 1800 milliards de dollars pour 2026. Même les géants aux flux de trésorerie colossaux doivent lever des fonds pour rester dans la course, illustrant le dilemme : "sous-investir est une menace pour la survie, sur-investir est seulement coûteux". Sur les marchés, les indices américains ont atteint des records, portés par la technologie et les semi-conducteurs, malgré la faiblesse du secteur de la communication due à Alphabet. Alors que l'indice de volatilité VIX reste bas, des signaux d'alerte persistent, comme la concentration excessive des gains sur quelques titres liés à l'IA et les tensions géopolitiques. Les investisseurs attendent désormais le rapport sur l'emploi américain de vendredi, qui pourrait influencer les anticipations sur les taux d'intérêt de la Fed. Pour l'instant, la priorité du marché reste de suivre la trajectoire de l'IA.

marsbitIl y a 10 mins

Tendance du marché américain : Une phrase de Huang Renxun a fait exploser 47 milliards de dollars, Google lève des fonds en « se vendant » pour la première fois en 20 ans

marsbitIl y a 10 mins

Pour se couvrir, achetez de l'or ou du pétrole ; pour les plus-values, achetez de l'IA. Le Bitcoin "dépassé" entre en marché baissier

Le bitcoin est en baisse persistante, tombant récemment à 66 123 USD, son plus bas en deux mois. Les explications variées (sorties des ETF, tensions géopolitiques, ventes inattendues) sont considérées comme des symptômes d'un problème plus profond : le bitcoin perd une compétition entre actifs. Autrefois, il profitait du mécontentement des investisseurs face à des taux nuls et à l'inflation. Aujourd'hui, le marché a changé. Le bitcoin est pris dans une "position intermédiaire inconfortable" et perd sur trois fronts : 1. **Couverture contre l'inflation** : L'or, les actions énergétiques et les matières premières, avec leurs supports physiques et leur pouvoir de fixation des prix, sont désormais préférés. 2. **Croissance** : Les entreprises d'IA, générant des revenus et bénéfices réels, attirent les investisseurs en quête de croissance forte, un domaine où le bitcoin, sans flux de trésorerie, n'a pas d'avantage. 3. **Exposition aux crypto-monnaies** : Les investisseurs peuvent désormais se tourner vers les places de marché, les stablecoins ou les infrastructures, dont la performance est liée à l'adoption réelle du secteur. Un signe révélateur : les avertissements récents sur une inflation persistante n'ont pas provoqué de hausse du bitcoin, contrairement aux réactions passées. Le récit de "l'or numérique" est grignoté par l'or physique et l'énergie. Les sorties des ETF et les ventes sont donc le reflet d'une nouvelle réalité : les capitaux ont plus de choix et les investisseurs sont plus exigeants. La nouvelle logique baissière n'est plus que le bitcoin est une bulle, mais que **la rareté seule ne suffit plus**. Il n'est ni la meilleure valeur refuge, ni le meilleur actif de croissance, ni la seule option crypto.

华尔街日报Il y a 1 h

Pour se couvrir, achetez de l'or ou du pétrole ; pour les plus-values, achetez de l'IA. Le Bitcoin "dépassé" entre en marché baissier

华尔街日报Il y a 1 h

Pourquoi les flux entrants des ETF XRP augmentent-ils tandis que Bitcoin et Ethereum enregistrent des sorties ?

Les fonds ETF adossés au XRP continuent d'enregistrer des entrées de capitaux régulières, tandis que les ETF Bitcoin et Ethereum subissent d'importantes sorties de fonds consécutives. Depuis le 20 mai, les ETF américains liés au XRP auraient attiré environ 35 millions de dollars d'entrées nettes, selon un analyste, alors que les produits Bitcoin et Ethereum ont vu des sorties combinées avoisinant 2 milliards de dollars sur la même période. Ce contraste marqué reflète un refroidissement de la demande institutionnelle pour les deux principales cryptomonnaies et un intérêt croissant pour des actifs alternatifs comme le XRP. Les observateurs évoquent des facteurs tels que son positionnement réglementaire, les perspectives d'expansion des ETF et des spéculations sur une éventuelle demande de type "trésorerie" liée à Ripple. Cependant, malgré ces entrées de fonds soutenues, le cours du XRP est resté atone, affichant même une baisse de plus de 6% sur la semaine passée. Dans le détail, les ETF XRP ont enregistré 17 jours consécutifs d'entrées nettes, avec 4,13 millions de dollars ajoutés le 1er juin. À l'inverse, les ETF spot Bitcoin ont connu leur 11e jour consécutif de sorties (-483,7 M$ le 1er juin) et les ETF Ethereum leur 15e jour consécutif (-44,4 M$ le 1er juin). Ce schéma suggère que les investisseurs institutionnels deviennent plus sélectifs, ciblant des actifs selon des récits de marché spécifiques plutôt qu'en effectuant des rotations larges vers les actifs à plus grande capitalisation.

bitcoinistIl y a 2 h

Pourquoi les flux entrants des ETF XRP augmentent-ils tandis que Bitcoin et Ethereum enregistrent des sorties ?

bitcoinistIl y a 2 h

Trading

Spot
Futures
活动图片