刚刚，中国AI闯入全球编程前二，前面只剩Claude

marsbit发布于2026-05-27更新于2026-05-27

文章摘要

Code Arena最新榜单显示，阿里通义千问Qwen3.7-Max以1541分位列全球第四，成为唯一进入该榜单前列的中国模型，排名仅次于Claude Opus系列模型。在具体任务测试中，Qwen3.7-Max表现突出。例如，在编写可自我训练的俄罗斯方块AI任务中，其成本仅为1.32美元，性能却超越其他模型56%。在构建3D宇宙模型和生成3D像素风宝塔模型等任务中，其输出速度与质量也全面胜出。一项硬核的3D赛车游戏生成挑战进一步验证了其能力。Qwen3.7-Max首轮生成即基本可玩，并独特地添加了开始界面和音效，细节处理优于其他对比模型（如Gemini 3.5 Flash、Claude Opus 4.6和GPT-5.5），后者大多需要多轮调试。 Qwen3.7-Max被定位为“Agent基座模型”，专为长时间自主执行复杂任务设计。内测数据显示，它能连续运行35小时，执行超千次工具调用，在长程任务中保持稳定推理，无上下文退化或指令漂移。其技术核心在于训练方法的升级：一是“环境扩展”，让模型在不同执行框架和验证方式中学习通用解题策略；二是“长程自主执行”训练，使模型能在动态环境中进行超千步连续决策与策略调整。此次Qwen3.7-Max在Code Arena榜单的突破，标志着中国AI模型已在全球编程竞技场中成为重要的竞争者。

就在今天,Code Arena最新榜单出炉!

Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。

排在它前面的,只剩Claude Opus 4.7和Opus 4.6。

换句话说,在全球编程模型的竞技场上,阿里是唯一杀进这张牌桌的中国厂商,仅次于Anthropic,位列第二。

Qwen3.7-Max闯入全球前五

唯一非Claude模型

其实在Code Arena放榜之前,Qwen3.7-Max在海外开发者圈子里已经杀出了名声。

Atomic Chat做了一场硬碰硬的对比,让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技,任务是写一个能自我训练的俄罗斯方块AI。

结果,Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了,而且性能还提升了56%。

另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型,效果足以用震撼形容。

在「3D像素风微缩宝塔模型」的生成任务中,Qwen3.7-Max的输出速度和质量同样全面胜出。

开发者Paul Couvert更是盛赞,Qwen3.7-Max接入Hermes Agent和OpenCode之后,基本可以替掉GPT-5.5和Opus 4.7。

编程,太能打了

不过跑分再高,不如真刀真枪拉出来练练。

我们给Qwen3.7-Max安排了一场硬核的「赛车游戏」挑战。

一段详细的Prompt丢进去,不一会儿功夫,Qwen3.7-Max直出一个可玩的HTML的文件。

第一版有个小bug,A/D转向键左右搞反了。

但经过第二轮简单对话微调,一个体验完整的3D赛车游戏就跑了起来。

打开的瞬间,说实话,有点被惊到了。

4车同台,3圈环形赛道竞速,赛道上散落着100多枚金币,碰到障碍物会减速、失控。

赛后成绩面板,排名、用时、金币数、最快单圈,一项不缺。

但真正让人意外的,是两个只有Qwen3.7-Max做到的细节。

一个是开始界面。四个模型横向测完,只有它给游戏做了一个正经的开始页面,点「Start」才进入比赛。其他三家全是打开即跑,连个标题画面都没有。

另一个是音效。Prompt最后附了一条要求,加上发动机轰鸣和吃金币的音效。四个模型里,也只有它把这个bonus吃进去了,引擎声和金币叮咚都安排上了。

再看看其他选手的表现。

Gemini 3.5 Flash的画面明显单薄了一档,缺少那种呼之欲出的立体感。

UI布局也有问题,仪表盘信息分散在屏幕四角,视觉焦点一盘散沙。

相比之下,Qwen3.7-Max的处理方式是把关键指标集中到画面中央,更符合玩家视线的自然落点。

Claude Opus 4.6的效果,有点让人一言难尽了。

不仅赛道上金币少得可怜,而且3辆AI赛车几乎同步行驶,毫无随机性,像复制粘贴出来的。

最后是GPT-5.5。

可以看到,画面质感确实比前两家强了不少,操作起来也更流畅。

但不知道为什么,金币被做成了黄色的「甜甜圈」......

造型倒是小事。关键是,Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。

只有Qwen3.7-Max首轮生成就基本可玩。

跑分接近,实测不虚,价格只有几分之一。剩下的结论,等开发者用脚投票就行了。

Agent时代的「基座」模型

Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平,答案就藏在它的产品定位里。

几天前,阿里发布Qwen3.7-Max的时候,给了它一个非常特殊的标签:Agent基座模型。

它生来,就是为长时间自主执行任务设计的模型。

内测数据显示,在一次自主编程任务中,Qwen3.7-Max连续运行35个小时,执行1158次工具调用。

最终生成的代码相较于Triton参考实现,达到了惊人的10倍几何平均加速。

更令人震撼的是它的「持久战」能力——

在推演进行到第30个小时之后,模型依然保持敏锐,持续挖掘出新的优化空间。

全程零上下文退化、零指令漂移、零死循环!

不得不说,这件事的难点不在1000次工具调用本身。MCP协议铺开之后,调1000次工具不算稀奇。

难点在于,35小时的连贯推理。

绝大多数模型跑长任务时会崩盘:要么上下文越积越乱,前半段定的目标到后面忘得干干净净;要么进入死循环,反复尝试同一个失败的方案。

Qwen3.7-Max把「持续做对事」这件事,做出来了。

核心技术揭秘

Qwen3.7-Max这波编程跃升,我们理解核心可能与两个训练方法的升级有关。

第一个是,环境扩展。

Qwen3.7-Max在做编程训练时,每个任务会被拆成三个独立维度,任务本身、执行框架、验证方式,三者自由组合。

同一道题,有时候在Claude Code的框架里做,有时候在OpenClaw里做,有时候换一种验证方式。

效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略,不是「在某个特定框架里怎么取巧」。

这解释了一个反直觉的现象,Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳,没有出现「在自家框架里很强、换一个就拉胯」的情况。

第二个升级是,长程自主执行。

在训练中,团队引入了「动态累积生存博弈」框架。

也就是,让模型在持续变化的模拟环境中做超过一千步的连续决策,自己建立假设、根据反馈调整策略,而且不能因为跑太久就「上下文腐化」。

这里有一个直观的数据,YC-Bench模拟创业公司经营一整年,Qwen3.7-Max做到了208万美元营收,是上一代(105万)的两倍。

更关键的是,它展现出了策略进化,中期遇到危机能自主调整方向,识别并拉黑恶意客户,最终收敛到稳定的执行循环。

这就是35小时kernel优化案例的底层支撑,也是为什么在Kernel Bench L3上,Qwen3.7-Max能让96%的场景跑出加速效果。

而编程还只是第一个战场。这套长程推理加工具调用的底子,指向的是一个更大的野心——通用Agent基座。

编程决赛,多了一个搅局者

Code Arena上线至今,考的从来都是硬活,多步推理、工具编排、完整项目交付,全是Agent级的真刀真枪。

今天,Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置,卡在Opus 4.6 Thinking和Opus 4.6之间。

在这条Claude统治了大半年的赛道上,它给出了自己的回答,中国模型不只是追赶者,也可以是定义者。

全球编程模型的竞赛,已经不再是硅谷的独角戏了。

参考资料:

https://arena.ai/leaderboard/code/webdev

本文来自微信公众号“新智元”,作者:ASI启示录

你可能也喜欢

Bitroot公链受邀出席腾讯云新加坡AI大会，与Solana同台共话未来

5月19日，腾讯云在新加坡举办AI主题活动，聚焦AI基础设施、企业落地、Web3可验证计算等议题。Bitroot公链作为新兴Layer 1项目受邀出席，与Solana、金融科技等代表同台探讨AI与Web3融合。活动反映出AI竞争正从模型能力转向复合型基础设施。随着AI Agent需处理支付、结算等任务，区块链的可验证性与自动化能力成为补充传统系统的关键。Bitroot虽未上线主网，但其定位为高性能、EVM兼容的AI原生公链，契合了AI Agent对低成本、高吞吐执行环境的需求。 Bitroot CEO Juan Jose指出，未来AI的护城河在于数据、场景与信任机制。AI Agent要走向企业级自治，需可靠、可审计的基础设施支持。Bitroot通过并行EVM等技术优化性能，测试网数据显示其峰值TPS达50,000+，旨在为AI应用提供高效链上环境。行业观察认为，新一代公链需平衡性能、安全与去中心化，以承载AI与Web3融合的复杂场景。Bitroot以“并行EVM+AI原生计算”架构切入赛道，其发展值得关注。

marsbit55分钟前

marsbit55分钟前

对冲基金一季度解读：每个人都在抛软件，买芯片

一季度美国对冲基金与大型共同基金出现罕见共识：同步抛售软件股并大举涌入半导体板块，将对冲基金半导体多头持仓权重推至历史新高。高盛报告显示，对冲基金回报率达7%，而跑赢基准的共同基金占比低于历史均值。科技板块内结构性轮动显著：半导体持仓达历史高位，软件持仓则降至多年低点。个股层面，微软遭两类基金大幅减持；对冲基金增持META和苹果，并净增持部分半导体设备股，共同基金则增持英特尔等。机构策略出现分化：对冲基金在市场反弹后迅速加仓，净杠杆升至近一年高位；共同基金则选择小幅增加现金配置。板块配置上，两类基金均超配工业、低配信息技术，但调仓方向相反；在金融和非必需消费品板块上持仓态度迥异。高盛筛选出四只对冲基金与共同基金共同超配的“最爱股”，包括波音、万事达等，今年迄今跑赢大盘。值得注意的是，“七巨头”全部入选对冲基金核心持仓名单，但均被共同基金低配，凸显两大机构在核心资产上的鲜明分歧。

marsbit1小时前

marsbit1小时前

前高盛CEO访谈：危机、领导力、AI与年轻人的建议

前高盛CEO Lloyd Blankfein在对话中分享了他对领导力、风险管理和企业文化的见解。他提到，在危机中保持冷静是关键，自己习惯在紧张时刻用幽默缓解气氛。他建议企业在挑选董事会成员时，优先考虑有危机经验的人。 Blankfein回顾了自己从普通家庭到哈佛的成长经历，认为低起点反而是一种优势。他加入高盛源于其收购的商品交易公司J.Aron，这段经历塑造了他的风险管理理念：投资既要勇于承担风险，也要时刻防范潜在危机。他强调，管理层需要平衡鼓励冒险与适时克制风险。谈到技术，他指出金融业是技术的快速采用者，但作为受监管机构，高盛对系统变更极为谨慎。在IPO后，高盛努力保留了合伙人文化，通过薪酬机制和沟通保持员工的归属感。在金融危机中，高盛凭借严格的风险管理和逐日盯市制度提前预警，并坚持对客户负责，维护了长期声誉。他对当前科技公司的建议是：在危机前主动与公众沟通，建立理解。关于AI与市场风险，Blankfein认为，当前风险可能被低估，尤其是自动化交易系统的可靠性与杠杆问题。但他总体上支持技术进步。最后，他建议年轻人拓宽知识面，学习历史与人文，成为一个完整的人。长远来看，广泛的兴趣和坚韧的心态将带来更丰富的职业生涯。

marsbit1小时前

marsbit1小时前

实体比特币的演进之路

比特币的数字化特性使其具备自主托管与全球快速流转的优势，但也因无形属性阻碍了大众接受。多年来，业界不断尝试将比特币实体化，以保留其类似现金的特性，产生了一系列经典产品。 2011年出现的Casascius Coins是早期代表性实体比特币，采用防篡改贴纸覆盖私钥，其中心化铸币模式依赖对发行者的信任，后因监管压力停产。随后出现的RavenBit Coins尝试去中心化铸币，允许用户自行生成并粘贴私钥，但难以保证安全与可信。 2016年推出的Opendimes是一次重大突破。这款U盘形态的硬件设备能自主生成并安全存储私钥，转入比特币后需物理破坏设备才能提取资产，解决了铸币信任问题，但成本较高且形态不便日常流通。 Satodime在Opendimes理念上改进，采用卡片、戒指等多种形态，通过NFC交互，成本有所降低，但仍属于高安全性硬件钱包，难以达到日常现金的普及成本。实现实体比特币普及的核心难点在于硬件成本。美元纸币成本仅数美分，而当前能运行比特币加密算法的芯片成本难以降至1美元以下。虽然恩智浦NTAG X DNA等芯片展现了降价潜力，但原生支持比特币算法、完全开源的安全芯片研发投入巨大。此外，比特币作为数字资产，实体载体需联网核验余额，若依赖发行机构信任则背离了比特币去信任化的初衷。OfflineCash等产品结合安全芯片与纸币形态，构想美好但距大规模落地尚远。近期Coinkite推出的Tapsigner采用借记卡外形，内置自研比特币NFC芯片，支持碰一碰支付，可作为可充值的硬件钱包或定向支付工具，虽单价约20美元，但推动重点回归线下支付生态融合。综上所述，实体比特币的演进在安全、去信任与低成本之间持续探索，目前卡片形态硬件钱包是相对可行的方向，但要实现如现金般低成本、易流通的普及仍面临显著的技术与成本挑战。

marsbit1小时前

marsbit1小时前

PhotonPay 升级嵌入式钱包 API：打造“隐形且势在必行”的稳定币支付底层基础设施

光子支付（PhotonPay）宣布对其嵌入式钱包API进行重大升级，旨在为企业提供“隐形且势在必行”的稳定币支付底层基础设施。此次升级的核心是打造“零触碰”架构，使非加密原生的传统企业能够快速、安全地接入稳定币支付，而无需管理私钥或应对复杂的合规负担，最快可在5天内上线。传统跨境支付存在高成本、低效率的“结构性税收”问题，例如国际汇款平均成本高达6.36%。稳定币以其近乎即时、低成本和可编程的特性，正成为跨境贸易的重要结算层，尤其在B2B领域增长迅猛。然而，技术复杂性与合规门槛阻碍了广大企业采用。 PhotonPay的解决方案通过嵌入式钱包API，为企业提供一站式服务，涵盖KYC验证、钱包配置、链上结算到法币出金的全流程。其关键优势包括：快速部署与集成、内嵌的“合规即基础设施”（如AML/CFT风控）、消除单点故障的安全架构，以及全球法币与稳定币的无缝协同。公司强调，在监管日益明确（如欧盟MiCA）和机构基础设施成熟的当下，“合规优先”已从成本中心转变为关键竞争护城河。其合规技术栈确保交易符合国际标准，为企业安全扩张铺路。市场驱动力包括全球监管框架明朗化、主流金融机构的采纳，以及新兴市场对稳定币结算的强劲需求。PhotonPay的API旨在帮助企业把握这一趋势，高效满足市场需求。 PhotonPay是一家以稳定币驱动的全球金融基础设施操作系统，服务覆盖200多个国家和地区，致力于重新定义全球薪酬发放与跨境支付格局。

链捕手2小时前

PhotonPay 升级嵌入式钱包 API：打造“隐形且势在必行”的稳定币支付底层基础设施

链捕手2小时前

交易

现货

合约

刚刚，中国AI闯入全球编程前二，前面只剩Claude

文章摘要

Qwen3.7-Max闯入全球前五

唯一非Claude模型

编程,太能打了

Agent时代的「基座」模型

核心技术揭秘

编程决赛,多了一个搅局者

相关问答

你可能也喜欢

Bitroot公链受邀出席腾讯云新加坡AI大会，与Solana同台共话未来

对冲基金一季度解读：每个人都在抛软件，买芯片

前高盛CEO访谈：危机、领导力、AI与年轻人的建议

实体比特币的演进之路

PhotonPay 升级嵌入式钱包 API：打造“隐形且势在必行”的稳定币支付底层基础设施

交易

热门分类

热门标签