刚刚,中国AI闯入全球编程前二,前面只剩Claude

marsbit發佈於 2026-05-27更新於 2026-05-27

文章摘要

Code Arena最新榜单显示,阿里通义千问Qwen3.7-Max以1541分位列全球第四,成为唯一进入该榜单前列的中国模型,排名仅次于Claude Opus系列模型。 在具体任务测试中,Qwen3.7-Max表现突出。例如,在编写可自我训练的俄罗斯方块AI任务中,其成本仅为1.32美元,性能却超越其他模型56%。在构建3D宇宙模型和生成3D像素风宝塔模型等任务中,其输出速度与质量也全面胜出。 一项硬核的3D赛车游戏生成挑战进一步验证了其能力。Qwen3.7-Max首轮生成即基本可玩,并独特地添加了开始界面和音效,细节处理优于其他对比模型(如Gemini 3.5 Flash、Claude Opus 4.6和GPT-5.5),后者大多需要多轮调试。 Qwen3.7-Max被定位为“Agent基座模型”,专为长时间自主执行复杂任务设计。内测数据显示,它能连续运行35小时,执行超千次工具调用,在长程任务中保持稳定推理,无上下文退化或指令漂移。 其技术核心在于训练方法的升级:一是“环境扩展”,让模型在不同执行框架和验证方式中学习通用解题策略;二是“长程自主执行”训练,使模型能在动态环境中进行超千步连续决策与策略调整。 此次Qwen3.7-Max在Code Arena榜单的突破,标志着中国AI模型已在全球编程竞技场中成为重要的竞争者。

就在今天,Code Arena最新榜单出炉!

Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。

排在它前面的,只剩Claude Opus 4.7和Opus 4.6。

换句话说,在全球编程模型的竞技场上,阿里是唯一杀进这张牌桌的中国厂商,仅次于Anthropic,位列第二。

Qwen3.7-Max闯入全球前五

唯一非Claude模型

其实在Code Arena放榜之前,Qwen3.7-Max在海外开发者圈子里已经杀出了名声。

Atomic Chat做了一场硬碰硬的对比,让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技,任务是写一个能自我训练的俄罗斯方块AI。

结果,Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了,而且性能还提升了56%。

另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型,效果足以用震撼形容。

在「3D像素风微缩宝塔模型」的生成任务中,Qwen3.7-Max的输出速度和质量同样全面胜出。

开发者Paul Couvert更是盛赞,Qwen3.7-Max接入Hermes Agent和OpenCode之后,基本可以替掉GPT-5.5和Opus 4.7。

编程,太能打了

不过跑分再高,不如真刀真枪拉出来练练。

我们给Qwen3.7-Max安排了一场硬核的「赛车游戏」挑战。

一段详细的Prompt丢进去,不一会儿功夫,Qwen3.7-Max直出一个可玩的HTML的文件。

第一版有个小bug,A/D转向键左右搞反了。

但经过第二轮简单对话微调,一个体验完整的3D赛车游戏就跑了起来。

打开的瞬间,说实话,有点被惊到了。

4车同台,3圈环形赛道竞速,赛道上散落着100多枚金币,碰到障碍物会减速、失控。

赛后成绩面板,排名、用时、金币数、最快单圈,一项不缺。

但真正让人意外的,是两个只有Qwen3.7-Max做到的细节。

一个是开始界面。四个模型横向测完,只有它给游戏做了一个正经的开始页面,点「Start」才进入比赛。其他三家全是打开即跑,连个标题画面都没有。

另一个是音效。Prompt最后附了一条要求,加上发动机轰鸣和吃金币的音效。 四个模型里,也只有它把这个bonus吃进去了,引擎声和金币叮咚都安排上了。

再看看其他选手的表现。

Gemini 3.5 Flash的画面明显单薄了一档,缺少那种呼之欲出的立体感。

UI布局也有问题,仪表盘信息分散在屏幕四角,视觉焦点一盘散沙。

相比之下,Qwen3.7-Max的处理方式是把关键指标集中到画面中央,更符合玩家视线的自然落点。

Claude Opus 4.6的效果,有点让人一言难尽了。

不仅赛道上金币少得可怜,而且3辆AI赛车几乎同步行驶,毫无随机性,像复制粘贴出来的。

最后是GPT-5.5。

可以看到,画面质感确实比前两家强了不少,操作起来也更流畅。

但不知道为什么,金币被做成了黄色的「甜甜圈」......

造型倒是小事。关键是,Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。

只有Qwen3.7-Max首轮生成就基本可玩。

跑分接近,实测不虚,价格只有几分之一。剩下的结论,等开发者用脚投票就行了。

Agent时代的「基座」模型

Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平,答案就藏在它的产品定位里。

几天前,阿里发布Qwen3.7-Max的时候,给了它一个非常特殊的标签:Agent基座模型

它生来,就是为长时间自主执行任务设计的模型。

内测数据显示,在一次自主编程任务中,Qwen3.7-Max连续运行35个小时,执行1158次工具调用。

最终生成的代码相较于Triton参考实现,达到了惊人的10倍几何平均加速。

更令人震撼的是它的「持久战」能力——

在推演进行到第30个小时之后,模型依然保持敏锐,持续挖掘出新的优化空间。

全程零上下文退化、零指令漂移、零死循环!

不得不说,这件事的难点不在1000次工具调用本身。MCP协议铺开之后,调1000次工具不算稀奇。

难点在于,35小时的连贯推理。

绝大多数模型跑长任务时会崩盘:要么上下文越积越乱,前半段定的目标到后面忘得干干净净;要么进入死循环,反复尝试同一个失败的方案。

Qwen3.7-Max把「持续做对事」这件事,做出来了。

核心技术揭秘

Qwen3.7-Max这波编程跃升,我们理解核心可能与两个训练方法的升级有关。

第一个是,环境扩展。

Qwen3.7-Max在做编程训练时,每个任务会被拆成三个独立维度,任务本身、执行框架、验证方式,三者自由组合。

同一道题,有时候在Claude Code的框架里做,有时候在OpenClaw里做,有时候换一种验证方式。

效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略,不是「在某个特定框架里怎么取巧」。

这解释了一个反直觉的现象,Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳,没有出现「在自家框架里很强、换一个就拉胯」的情况。

第二个升级是,长程自主执行。

在训练中,团队引入了「动态累积生存博弈」框架。

也就是,让模型在持续变化的模拟环境中做超过一千步的连续决策,自己建立假设、根据反馈调整策略,而且不能因为跑太久就「上下文腐化」。

这里有一个直观的数据,YC-Bench模拟创业公司经营一整年,Qwen3.7-Max做到了208万美元营收,是上一代(105万)的两倍。

更关键的是,它展现出了策略进化,中期遇到危机能自主调整方向,识别并拉黑恶意客户,最终收敛到稳定的执行循环。

这就是35小时kernel优化案例的底层支撑,也是为什么在Kernel Bench L3上,Qwen3.7-Max能让96%的场景跑出加速效果。

而编程还只是第一个战场。这套长程推理加工具调用的底子,指向的是一个更大的野心——通用Agent基座。

编程决赛,多了一个搅局者

Code Arena上线至今,考的从来都是硬活,多步推理、工具编排、完整项目交付,全是Agent级的真刀真枪。

今天,Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置,卡在Opus 4.6 Thinking和Opus 4.6之间。

在这条Claude统治了大半年的赛道上,它给出了自己的回答,中国模型不只是追赶者,也可以是定义者。

全球编程模型的竞赛,已经不再是硅谷的独角戏了。

参考资料:

https://arena.ai/leaderboard/code/webdev

本文来自微信公众号“新智元”,作者:ASI启示录

相關問答

QQwen3.7-Max在Code Arena的最新榜单中取得了第几名?

AQwen3.7-Max在Code Arena的最新榜单中以1541分的成绩闯入了全球前四名,排名第四。排在它前面的只有Claude Opus 4.7和Opus 4.6。

Q在海外开发者的实际测试中,Qwen3.7-Max在哪些方面表现优于Claude Opus 4.7和GPT-5.5?

A在海外开发者的实际测试中,Qwen3.7-Max在写一个能自我训练的俄罗斯方块AI的任务中,不仅以更低的成本($1.32的token成本)超越了Claude Opus 4.7和GPT-5.5,而且性能还提升了56%。在生成3D模型和3D像素风微缩宝塔模型的任务中,其输出速度和质量也全面胜出。

Q在文章中提到的“赛车游戏”挑战中,Qwen3.7-Max相比其他模型有哪些独特优势?

A在“赛车游戏”挑战中,Qwen3.7-Max的优势包括:首轮生成的代码基本可玩(其他模型需要多轮调试);设计了正式的开始界面(其他模型打开即跑);成功添加了发动机轰鸣和吃金币的音效(其他模型未实现);游戏UI布局更合理,将关键指标集中到画面中央。

QQwen3.7-Max被定位为“Agent基座模型”,它具有哪些核心能力?

AQwen3.7-Max被定位为“Agent基座模型”,其核心能力包括:能够长时间自主执行任务,在一次编程任务中连续运行35小时并执行1158次工具调用;具备出色的持久战能力,能在长时间推理后依然保持敏锐,持续挖掘优化空间,全程零上下文退化、零指令漂移、零死循环。

Q文章中提到Qwen3.7-Max编程能力的提升主要与哪两个训练方法有关?

A文章中提到,Qwen3.7-Max编程能力的提升主要与两个训练方法有关:1. 环境扩展:训练时将任务、执行框架、验证方式三者自由组合,让模型学会解决问题的通用策略,而非依赖特定框架。2. 长程自主执行:通过“动态累积生存博弈”框架,让模型在持续变化的模拟环境中进行超过一千步的连续决策,并能自主调整策略,避免了长时间的“上下文腐化”。

你可能也喜歡

阿里“上货”,字节“练功”

5月最后一周,阿里和字节的两项动作展现了中国大厂在AI领域的两种不同战略路径。 阿里正将AI快速“上货”落地。5月11日,千问App与淘宝全面打通,接入40亿商品库和20年购物场景数据。随后在阿里云峰会上,吴泳铭宣布升级全栈能力,并计划未来五年资本开支远超过去三年。阿里的核心策略是将AI深度融入现有商业场景,如蚂蚁的AI支付用户数破亿、淘宝的AI比价等,并推动“智能体商业信任协议”作为信任基础设施。其商业模式依赖AI服务变现,阿里云外部收入增长40%,服务器“几乎没有一张卡是空的”。然而,这种路径可能以基础模型能力的长期领先性为代价。 字节则选择在Seed部门潜心“练功”,聚焦探索AI智能上限。其视频生成模型Seedance 2.0在权威评测中登顶,获业界高度评价。部门内部目标纯粹,如设定“国际榜单进前三”的KPI,并投入8个月撰写纯学术论文。字节计划大幅增加资本开支,最高或达4700亿元,资金来源于其巨额利润,且因其未上市,无需承受短期业绩压力,得以专注于长期技术突破。但商业化压力已初现,豆包开始测试付费和广告。 文章指出,两种路径差异的根本原因在于公司是否上市。阿里作为上市公司,必须关注季度财报和股价,战略倾向于快速变现;字节作为非上市公司,则拥有更大的自由去进行长期、前沿的技术投资。这决定了当前中国AI领域“卖AI”与“做AI”的格局分野。未来若字节启动IPO,其长期研发投入或将面临资本市场的考验。

marsbit57 分鐘前

阿里“上货”,字节“练功”

marsbit57 分鐘前

Circle 将 Zama 协议地址列入黑名单,冻结价值 1260 万美元的用户资金 - 详情

稳定币发行商Circle已将一个与隐私协议Zama相关的智能合约列入黑名单,冻结了约1260万美元的用户资金。此次冻结首先由链上调查员ZachXBT发现,涉及Zama在以太坊上部署的保密USDC(cUSDC)合约。该合约地址在Zama的公开文档中可查,其冻结过程可被实时追踪和验证。 进一步分析显示,此次冻结可能与资产管理和收益协议Overnight Finance近期的争议及法律问题间接相关。数据显示,一个疑似与Overnight Finance相关的钱包于2026年5月11日向Zama合约存入约1240万美元USDC。Overnight Finance近期正面临治理纠纷和可能被团队“拉地毯”的指控,并因此进行了国库资产分配投票。此外,该公司还卷入一起民事诉讼,原告之一是DeFi领域以激进治理策略闻名的Patagon Management。尽管Circle的行动与这些事件之间尚无直接因果证据,但法律程序、资金流动与冻结事件的重叠,引发了人们对DeFi协议间风险传导的担忧。 Circle此次单方面行动再次引发对中心化发行商透明度的批评。据ZachXBT称,Zama团队在合约被列入黑名单前似乎未获任何通知。这加剧了人们对中心化实体在无预警情况下影响去中心化应用及其用户的担忧。此前在2026年3月,Circle曾冻结多个实体相关的热钱包而未公开说明理由。本次行动则更进一步,直接冻结了协议级别的资金池合约,而非独立钱包,这引发了人们对所谓去中心化系统中托管风险的质疑。截至目前,Circle尚未就冻结Zama合约的原因发布官方解释。

bitcoinist1 小時前

Circle 将 Zama 协议地址列入黑名单,冻结价值 1260 万美元的用户资金 - 详情

bitcoinist1 小時前

三年之后:回看 2023 年我对 ChatGPT 的判断

作者王健硕在2026年5月回看其于2023年3月对ChatGPT做出的二十条预测,并借助AI代理进行验证。整体看,其大方向判断多正确,但细节和程度常有偏差。 **看对的方面:** - **技术架构**:准确预测RAG(检索增强生成)将成为解决知识更新和幻觉的主流方法,以及LUI(自然语言用户界面)将催生巨大新产业。 - **发展趋势**:预见到“机器人网络”和新的agent寻址系统将出现,中国能快速做出可用大模型并缩小与顶尖差距。 - **本质认知**:正确指出ChatGPT没有意识,图灵测试仅测表象;判断其是巨大进步但非AGI,且短期内不会造成整体失业潮。 **看错或看偏的方面:** - **具体数据错误**:关于GPT-4有100T参数的传闻完全错误。 - **绝对化判断**:断言LLM“不可能”自己学好数学被后来模型在IMO夺金证伪;认为AI生成内容可“规避”版权,实则引发史上最大侵权赔偿。 - **价值与成本误判**:认为价值终落应用层,但最大赢家是算力层(如英伟达);模型成本“5-10亿封顶”的估算严重偏离实际。 - **社会影响误读**:认为ChatGPT的“加权平均”特性可能促进“世界大同”,但实际AI正走向个性化,并可能制造新信息茧房。 **总结规律:** 1. 预测机制和方向比具体数字更可靠。 2. 倾向于高估短期变化速度,低估长期影响程度。 3. 容易忽略问题内部的“分布”差异(如失业影响集中在年轻群体)。 4. 留有餘地、分层表述的判断更经得起时间检验。 5. 一些根本性争议,三年时间仍不足以给出定论。 这次复盘旨在为未来的判断立下更审慎的规矩。

marsbit9 小時前

三年之后:回看 2023 年我对 ChatGPT 的判断

marsbit9 小時前

交易

現貨
合約
活动图片