刚刚，中国AI闯入全球编程前二，前面只剩Claude

marsbit发布于2026-05-27更新于2026-05-27

文章摘要

Code Arena最新榜单显示，阿里通义千问Qwen3.7-Max以1541分位列全球第四，成为唯一进入该榜单前列的中国模型，排名仅次于Claude Opus系列模型。在具体任务测试中，Qwen3.7-Max表现突出。例如，在编写可自我训练的俄罗斯方块AI任务中，其成本仅为1.32美元，性能却超越其他模型56%。在构建3D宇宙模型和生成3D像素风宝塔模型等任务中，其输出速度与质量也全面胜出。一项硬核的3D赛车游戏生成挑战进一步验证了其能力。Qwen3.7-Max首轮生成即基本可玩，并独特地添加了开始界面和音效，细节处理优于其他对比模型（如Gemini 3.5 Flash、Claude Opus 4.6和GPT-5.5），后者大多需要多轮调试。 Qwen3.7-Max被定位为“Agent基座模型”，专为长时间自主执行复杂任务设计。内测数据显示，它能连续运行35小时，执行超千次工具调用，在长程任务中保持稳定推理，无上下文退化或指令漂移。其技术核心在于训练方法的升级：一是“环境扩展”，让模型在不同执行框架和验证方式中学习通用解题策略；二是“长程自主执行”训练，使模型能在动态环境中进行超千步连续决策与策略调整。此次Qwen3.7-Max在Code Arena榜单的突破，标志着中国AI模型已在全球编程竞技场中成为重要的竞争者。

就在今天,Code Arena最新榜单出炉!

Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。

排在它前面的,只剩Claude Opus 4.7和Opus 4.6。

换句话说,在全球编程模型的竞技场上,阿里是唯一杀进这张牌桌的中国厂商,仅次于Anthropic,位列第二。

Qwen3.7-Max闯入全球前五

唯一非Claude模型

其实在Code Arena放榜之前,Qwen3.7-Max在海外开发者圈子里已经杀出了名声。

Atomic Chat做了一场硬碰硬的对比,让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技,任务是写一个能自我训练的俄罗斯方块AI。

结果,Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了,而且性能还提升了56%。

另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型,效果足以用震撼形容。

在「3D像素风微缩宝塔模型」的生成任务中,Qwen3.7-Max的输出速度和质量同样全面胜出。

开发者Paul Couvert更是盛赞,Qwen3.7-Max接入Hermes Agent和OpenCode之后,基本可以替掉GPT-5.5和Opus 4.7。

编程,太能打了

不过跑分再高,不如真刀真枪拉出来练练。

我们给Qwen3.7-Max安排了一场硬核的「赛车游戏」挑战。

一段详细的Prompt丢进去,不一会儿功夫,Qwen3.7-Max直出一个可玩的HTML的文件。

第一版有个小bug,A/D转向键左右搞反了。

但经过第二轮简单对话微调,一个体验完整的3D赛车游戏就跑了起来。

打开的瞬间,说实话,有点被惊到了。

4车同台,3圈环形赛道竞速,赛道上散落着100多枚金币,碰到障碍物会减速、失控。

赛后成绩面板,排名、用时、金币数、最快单圈,一项不缺。

但真正让人意外的,是两个只有Qwen3.7-Max做到的细节。

一个是开始界面。四个模型横向测完,只有它给游戏做了一个正经的开始页面,点「Start」才进入比赛。其他三家全是打开即跑,连个标题画面都没有。

另一个是音效。Prompt最后附了一条要求,加上发动机轰鸣和吃金币的音效。四个模型里,也只有它把这个bonus吃进去了,引擎声和金币叮咚都安排上了。

再看看其他选手的表现。

Gemini 3.5 Flash的画面明显单薄了一档,缺少那种呼之欲出的立体感。

UI布局也有问题,仪表盘信息分散在屏幕四角,视觉焦点一盘散沙。

相比之下,Qwen3.7-Max的处理方式是把关键指标集中到画面中央,更符合玩家视线的自然落点。

Claude Opus 4.6的效果,有点让人一言难尽了。

不仅赛道上金币少得可怜,而且3辆AI赛车几乎同步行驶,毫无随机性,像复制粘贴出来的。

最后是GPT-5.5。

可以看到,画面质感确实比前两家强了不少,操作起来也更流畅。

但不知道为什么,金币被做成了黄色的「甜甜圈」......

造型倒是小事。关键是,Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。

只有Qwen3.7-Max首轮生成就基本可玩。

跑分接近,实测不虚,价格只有几分之一。剩下的结论,等开发者用脚投票就行了。

Agent时代的「基座」模型

Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平,答案就藏在它的产品定位里。

几天前,阿里发布Qwen3.7-Max的时候,给了它一个非常特殊的标签:Agent基座模型。

它生来,就是为长时间自主执行任务设计的模型。

内测数据显示,在一次自主编程任务中,Qwen3.7-Max连续运行35个小时,执行1158次工具调用。

最终生成的代码相较于Triton参考实现,达到了惊人的10倍几何平均加速。

更令人震撼的是它的「持久战」能力——

在推演进行到第30个小时之后,模型依然保持敏锐,持续挖掘出新的优化空间。

全程零上下文退化、零指令漂移、零死循环!

不得不说,这件事的难点不在1000次工具调用本身。MCP协议铺开之后,调1000次工具不算稀奇。

难点在于,35小时的连贯推理。

绝大多数模型跑长任务时会崩盘:要么上下文越积越乱,前半段定的目标到后面忘得干干净净;要么进入死循环,反复尝试同一个失败的方案。

Qwen3.7-Max把「持续做对事」这件事,做出来了。

核心技术揭秘

Qwen3.7-Max这波编程跃升,我们理解核心可能与两个训练方法的升级有关。

第一个是,环境扩展。

Qwen3.7-Max在做编程训练时,每个任务会被拆成三个独立维度,任务本身、执行框架、验证方式,三者自由组合。

同一道题,有时候在Claude Code的框架里做,有时候在OpenClaw里做,有时候换一种验证方式。

效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略,不是「在某个特定框架里怎么取巧」。

这解释了一个反直觉的现象,Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳,没有出现「在自家框架里很强、换一个就拉胯」的情况。

第二个升级是,长程自主执行。

在训练中,团队引入了「动态累积生存博弈」框架。

也就是,让模型在持续变化的模拟环境中做超过一千步的连续决策,自己建立假设、根据反馈调整策略,而且不能因为跑太久就「上下文腐化」。

这里有一个直观的数据,YC-Bench模拟创业公司经营一整年,Qwen3.7-Max做到了208万美元营收,是上一代(105万)的两倍。

更关键的是,它展现出了策略进化,中期遇到危机能自主调整方向,识别并拉黑恶意客户,最终收敛到稳定的执行循环。

这就是35小时kernel优化案例的底层支撑,也是为什么在Kernel Bench L3上,Qwen3.7-Max能让96%的场景跑出加速效果。

而编程还只是第一个战场。这套长程推理加工具调用的底子,指向的是一个更大的野心——通用Agent基座。

编程决赛,多了一个搅局者

Code Arena上线至今,考的从来都是硬活,多步推理、工具编排、完整项目交付,全是Agent级的真刀真枪。

今天,Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置,卡在Opus 4.6 Thinking和Opus 4.6之间。

在这条Claude统治了大半年的赛道上,它给出了自己的回答,中国模型不只是追赶者,也可以是定义者。

全球编程模型的竞赛,已经不再是硅谷的独角戏了。

参考资料:

https://arena.ai/leaderboard/code/webdev

本文来自微信公众号“新智元”,作者:ASI启示录

你可能也喜欢

LIT销毁4200万美元代币，是否足以引爆山寨币下一轮大涨？

Lighter (LIT) 代币近期表现活跃，过去24小时上涨3.68%，一周内涨幅达18%。此前分析曾预警其超买可能回调至2美元，随后LIT一度下跌13%至2.3美元，但目前已回升至2.6美元附近。 7月10日，项目方销毁了超过1560万枚LIT（价值约4200万美元），约占流通量的6.3%。这一大规模销毁可能为代币带来了短期的看涨动力，价格走势显示其有望挑战3美元。然而，技术分析揭示了一些风险。日线图显示价格创出更高高点时，RSI指标却出现更低高点，形成了经典的看跌背离信号，预示着价格可能出现回调。尽管需求依然强劲，但这一背离警告潜在的回调风险。从斐波那契回撤水平来看，若LIT跌破2.30美元（23.6%回撤位），可能开启更深度的调整。同时，4小时图显示价格在2.31美元至2.68美元之间形成了震荡区间。交易策略方面，建议关注该区间的突破方向。若 bullish 突破2.70美元，可考虑买入，目标看向3.06美元和3.21美元。反之，若跌破2.31美元的区间下沿及日线级别的2.30美元斐波那契支撑，则价格重回2美元下方的可能性将增大。总结来说，尽管存在看跌背离信号，但LIT的需求和看涨动能目前仍占主导。交易者应密切关注短期区间的突破情况，以判断下一波趋势的方向。

ambcrypto1小时前

ambcrypto1小时前

近百名玩家涌入具身数据 : 一年融资44.7亿，谁能真靠“卖数据”赚钱？

近百名玩家涌入具身数据领域，行业一年融资约44.7亿元。该行业已成长为一个独立赛道，但整体仍处早期阶段。数据采集主要有四大技术路线：真机遥操、无本体采集、仿真合成和互联网视频蒸馏。其中，采用跨路线采集方案的公司最多，单独押注真机遥操的玩家也占相当比例。行业现有年产能估计在160万至180万小时数据，短期目标是在1-3年内扩大15到20倍，但相比大语言模型的数据需求仍有巨大差距。从玩家构成看，独立数据服务商已成为最大群体（占40%），其次是国资数据平台和机器人公司。超过六成的数采公司是“具身原生”企业，而数据基础设施（infra）公司则有约七成来自AI数据标注等领域的“跨界转型”。资本方面，过去一年有15家“独立具身数据服务商”获得融资，总额约44.7亿元，但这仅为同期具身智能全行业融资额的一个零头。头部公司光轮智能融资占行业总融资近七成，其余多数公司融资轮次较早、金额较小。共有69家投资机构出手，但无一重仓，显示出资本态度谨慎。行业面临的核心挑战是：尽管产能快速扩张、玩家众多，但尚未有公司能明确验证“纯卖数据”是一门可持续盈利的生意。未来一两年将是商业模式验证的关键窗口期。

marsbit2小时前

marsbit2小时前

对话Multicoin合伙人：加密市场已触底，本轮周期看好三种加密货币

Multicoin Capital管理合伙人Tushar Jain近日表示，加密市场可能已经触底，正进入新的转折点。他指出，市场情绪触底、坏消息不再引发大幅下跌以及应用采用率持续增长是重要信号。他详细阐述了对三种加密货币的投资逻辑： 1. **Solana（SOL）**：依然看好其作为互联网资本市场基础设施的性能与架构，认为它将主导现货和代币化证券交易。 2. **Hyperliquid（HYPE）**：在衍生品交易领域领先，虽然缺乏Solana的“可信中立性”，但以性能换取用户认可。 3. **Zcash（ZEC）**：虽仓位较小，但看好其代表行业“密码朋克”初心的价值存储属性，认为其有进入市值前五的潜力。在投资策略上，Tushar Jain强调： - 仓位管理是艺术而非科学，应集中投资于最看好的标的。 - 采用“三分法”建仓以降低踏空风险。 - 绝不进行波段交易，而是“主动管理”而非“主动交易”。 - 卖出原则只有三点：找到更好标的、投资逻辑证伪或市场估值过度狂热。关于市场底部，他认为价格低点可能已过，但市场可能需要时间横盘构建新叙事，而非立即V型反转。

marsbit2小时前

marsbit2小时前

尽管现货ETF录得创纪录的80亿美元流出，比特币为何仍接近周期底部？

截至发稿时，比特币交易价格约为64,099.20美元，虽从跌破6万美元后有所回升，但市场担忧依然存在。CoinShares研究主管James Butterfill指出，比特币正面临三方面阻力。主要问题包括伊朗与以色列之间脆弱的停火协议未能缓解中东冲突担忧，以及美联储会议纪要显示利率维持在3.50%-3.75%区间不变。由于关税、霍尔木兹海峡局势及强劲的AI需求，通胀仍是联储首要关切，核心PCE通胀率居高不下，而美国失业率较低，使得政策制定者缺乏放宽货币政策的理由。尽管存在这些阻力，Butterfill发现初步迹象表明比特币可能正在接近周期底部。现货比特币ETF经历了创纪录的连续八周资金净流出，总计约80亿美元，但最近三个交易日的资金流入表明机构抛压可能正在减弱。此外，Strategy在7月初较大规模的比特币抛售对市场影响有限，比特币价格随后反弹。监管方面，CLARITY法案在参议院全院投票的前景黯淡，其若获批本可能推动比特币上涨。链上数据显示，77,000美元的成本基础集群已成为重要阻力位，84,000-85,000美元区域也存在显著供应阻力。同时，在60,000-63,000美元区间出现新的积累，表明买家正在建立支撑基础。总体而言，比特币仍低于重要历史成本基础水平，市场情绪谨慎。

ambcrypto2小时前

ambcrypto2小时前

XRP价格预测：旁观交易者是否拒绝追逐浅层反弹？

近期XRP链上活跃度显著下降，7月9日至10日每日活跃地址数仅约2.5万个，为2026年第二低水平。同时，网络新增地址数也降至2024年11月以来的最低点。数据显示，交易者似乎不愿追逐浅度反弹（如今年6月中旬和4月初的行情），而是在等待更有力的价格动能出现。现货市场的参与度同样疲软：过去90天的现货CVD（衡量积极交易者活动）处于中性区间但呈下降趋势，表明自3月以来购买力持续减弱。尽管5月曾出现短暂的买入活跃期并推动价格反弹至1.55美元，但随后迅速回落至1.10美元支撑位附近横盘。另一方面，交易所的XRP净头寸变化持续为负，意味着代币正从交易所流出，可能转向长期存储或积累，但流出强度不及2025年。值得注意的是，XRP的30天平均资金费率在2026年以来持续为负，表明市场投机情绪依然坚定看空。分析师指出，在价格已从2025年7月高点3.66美元下跌超70%后，这种强烈的看空共识可能暗示中期反转机会——类似情况曾在2025年4月出现，随后XRP迎来了126%的上涨。不过，任何大幅反弹都需要现货交易量趋势发生根本性转变。

ambcrypto3小时前

交易

现货

刚刚，中国AI闯入全球编程前二，前面只剩Claude

文章摘要

Qwen3.7-Max闯入全球前五

唯一非Claude模型

编程,太能打了

Agent时代的「基座」模型

核心技术揭秘

编程决赛,多了一个搅局者

相关问答

你可能也喜欢

LIT销毁4200万美元代币，是否足以引爆山寨币下一轮大涨？

近百名玩家涌入具身数据 : 一年融资44.7亿，谁能真靠“卖数据”赚钱？

对话Multicoin合伙人：加密市场已触底，本轮周期看好三种加密货币

尽管现货ETF录得创纪录的80亿美元流出，比特币为何仍接近周期底部？

XRP价格预测：旁观交易者是否拒绝追逐浅层反弹？

交易

热门分类

热门标签