刚刚,中国AI闯入全球编程前二,前面只剩Claude

marsbitPublicado a 2026-05-27Actualizado a 2026-05-27

Resumen

Code Arena最新榜单显示,阿里通义千问Qwen3.7-Max以1541分位列全球第四,成为唯一进入该榜单前列的中国模型,排名仅次于Claude Opus系列模型。 在具体任务测试中,Qwen3.7-Max表现突出。例如,在编写可自我训练的俄罗斯方块AI任务中,其成本仅为1.32美元,性能却超越其他模型56%。在构建3D宇宙模型和生成3D像素风宝塔模型等任务中,其输出速度与质量也全面胜出。 一项硬核的3D赛车游戏生成挑战进一步验证了其能力。Qwen3.7-Max首轮生成即基本可玩,并独特地添加了开始界面和音效,细节处理优于其他对比模型(如Gemini 3.5 Flash、Claude Opus 4.6和GPT-5.5),后者大多需要多轮调试。 Qwen3.7-Max被定位为“Agent基座模型”,专为长时间自主执行复杂任务设计。内测数据显示,它能连续运行35小时,执行超千次工具调用,在长程任务中保持稳定推理,无上下文退化或指令漂移。 其技术核心在于训练方法的升级:一是“环境扩展”,让模型在不同执行框架和验证方式中学习通用解题策略;二是“长程自主执行”训练,使模型能在动态环境中进行超千步连续决策与策略调整。 此次Qwen3.7-Max在Code Arena榜单的突破,标志着中国AI模型已在全球编程竞技场中成为重要的竞争者。

就在今天,Code Arena最新榜单出炉!

Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。

排在它前面的,只剩Claude Opus 4.7和Opus 4.6。

换句话说,在全球编程模型的竞技场上,阿里是唯一杀进这张牌桌的中国厂商,仅次于Anthropic,位列第二。

Qwen3.7-Max闯入全球前五

唯一非Claude模型

其实在Code Arena放榜之前,Qwen3.7-Max在海外开发者圈子里已经杀出了名声。

Atomic Chat做了一场硬碰硬的对比,让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技,任务是写一个能自我训练的俄罗斯方块AI。

结果,Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了,而且性能还提升了56%。

另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型,效果足以用震撼形容。

在「3D像素风微缩宝塔模型」的生成任务中,Qwen3.7-Max的输出速度和质量同样全面胜出。

开发者Paul Couvert更是盛赞,Qwen3.7-Max接入Hermes Agent和OpenCode之后,基本可以替掉GPT-5.5和Opus 4.7。

编程,太能打了

不过跑分再高,不如真刀真枪拉出来练练。

我们给Qwen3.7-Max安排了一场硬核的「赛车游戏」挑战。

一段详细的Prompt丢进去,不一会儿功夫,Qwen3.7-Max直出一个可玩的HTML的文件。

第一版有个小bug,A/D转向键左右搞反了。

但经过第二轮简单对话微调,一个体验完整的3D赛车游戏就跑了起来。

打开的瞬间,说实话,有点被惊到了。

4车同台,3圈环形赛道竞速,赛道上散落着100多枚金币,碰到障碍物会减速、失控。

赛后成绩面板,排名、用时、金币数、最快单圈,一项不缺。

但真正让人意外的,是两个只有Qwen3.7-Max做到的细节。

一个是开始界面。四个模型横向测完,只有它给游戏做了一个正经的开始页面,点「Start」才进入比赛。其他三家全是打开即跑,连个标题画面都没有。

另一个是音效。Prompt最后附了一条要求,加上发动机轰鸣和吃金币的音效。 四个模型里,也只有它把这个bonus吃进去了,引擎声和金币叮咚都安排上了。

再看看其他选手的表现。

Gemini 3.5 Flash的画面明显单薄了一档,缺少那种呼之欲出的立体感。

UI布局也有问题,仪表盘信息分散在屏幕四角,视觉焦点一盘散沙。

相比之下,Qwen3.7-Max的处理方式是把关键指标集中到画面中央,更符合玩家视线的自然落点。

Claude Opus 4.6的效果,有点让人一言难尽了。

不仅赛道上金币少得可怜,而且3辆AI赛车几乎同步行驶,毫无随机性,像复制粘贴出来的。

最后是GPT-5.5。

可以看到,画面质感确实比前两家强了不少,操作起来也更流畅。

但不知道为什么,金币被做成了黄色的「甜甜圈」......

造型倒是小事。关键是,Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。

只有Qwen3.7-Max首轮生成就基本可玩。

跑分接近,实测不虚,价格只有几分之一。剩下的结论,等开发者用脚投票就行了。

Agent时代的「基座」模型

Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平,答案就藏在它的产品定位里。

几天前,阿里发布Qwen3.7-Max的时候,给了它一个非常特殊的标签:Agent基座模型

它生来,就是为长时间自主执行任务设计的模型。

内测数据显示,在一次自主编程任务中,Qwen3.7-Max连续运行35个小时,执行1158次工具调用。

最终生成的代码相较于Triton参考实现,达到了惊人的10倍几何平均加速。

更令人震撼的是它的「持久战」能力——

在推演进行到第30个小时之后,模型依然保持敏锐,持续挖掘出新的优化空间。

全程零上下文退化、零指令漂移、零死循环!

不得不说,这件事的难点不在1000次工具调用本身。MCP协议铺开之后,调1000次工具不算稀奇。

难点在于,35小时的连贯推理。

绝大多数模型跑长任务时会崩盘:要么上下文越积越乱,前半段定的目标到后面忘得干干净净;要么进入死循环,反复尝试同一个失败的方案。

Qwen3.7-Max把「持续做对事」这件事,做出来了。

核心技术揭秘

Qwen3.7-Max这波编程跃升,我们理解核心可能与两个训练方法的升级有关。

第一个是,环境扩展。

Qwen3.7-Max在做编程训练时,每个任务会被拆成三个独立维度,任务本身、执行框架、验证方式,三者自由组合。

同一道题,有时候在Claude Code的框架里做,有时候在OpenClaw里做,有时候换一种验证方式。

效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略,不是「在某个特定框架里怎么取巧」。

这解释了一个反直觉的现象,Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳,没有出现「在自家框架里很强、换一个就拉胯」的情况。

第二个升级是,长程自主执行。

在训练中,团队引入了「动态累积生存博弈」框架。

也就是,让模型在持续变化的模拟环境中做超过一千步的连续决策,自己建立假设、根据反馈调整策略,而且不能因为跑太久就「上下文腐化」。

这里有一个直观的数据,YC-Bench模拟创业公司经营一整年,Qwen3.7-Max做到了208万美元营收,是上一代(105万)的两倍。

更关键的是,它展现出了策略进化,中期遇到危机能自主调整方向,识别并拉黑恶意客户,最终收敛到稳定的执行循环。

这就是35小时kernel优化案例的底层支撑,也是为什么在Kernel Bench L3上,Qwen3.7-Max能让96%的场景跑出加速效果。

而编程还只是第一个战场。这套长程推理加工具调用的底子,指向的是一个更大的野心——通用Agent基座。

编程决赛,多了一个搅局者

Code Arena上线至今,考的从来都是硬活,多步推理、工具编排、完整项目交付,全是Agent级的真刀真枪。

今天,Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置,卡在Opus 4.6 Thinking和Opus 4.6之间。

在这条Claude统治了大半年的赛道上,它给出了自己的回答,中国模型不只是追赶者,也可以是定义者。

全球编程模型的竞赛,已经不再是硅谷的独角戏了。

参考资料:

https://arena.ai/leaderboard/code/webdev

本文来自微信公众号“新智元”,作者:ASI启示录

Preguntas relacionadas

QQwen3.7-Max在Code Arena的最新榜单中取得了第几名?

AQwen3.7-Max在Code Arena的最新榜单中以1541分的成绩闯入了全球前四名,排名第四。排在它前面的只有Claude Opus 4.7和Opus 4.6。

Q在海外开发者的实际测试中,Qwen3.7-Max在哪些方面表现优于Claude Opus 4.7和GPT-5.5?

A在海外开发者的实际测试中,Qwen3.7-Max在写一个能自我训练的俄罗斯方块AI的任务中,不仅以更低的成本($1.32的token成本)超越了Claude Opus 4.7和GPT-5.5,而且性能还提升了56%。在生成3D模型和3D像素风微缩宝塔模型的任务中,其输出速度和质量也全面胜出。

Q在文章中提到的“赛车游戏”挑战中,Qwen3.7-Max相比其他模型有哪些独特优势?

A在“赛车游戏”挑战中,Qwen3.7-Max的优势包括:首轮生成的代码基本可玩(其他模型需要多轮调试);设计了正式的开始界面(其他模型打开即跑);成功添加了发动机轰鸣和吃金币的音效(其他模型未实现);游戏UI布局更合理,将关键指标集中到画面中央。

QQwen3.7-Max被定位为“Agent基座模型”,它具有哪些核心能力?

AQwen3.7-Max被定位为“Agent基座模型”,其核心能力包括:能够长时间自主执行任务,在一次编程任务中连续运行35小时并执行1158次工具调用;具备出色的持久战能力,能在长时间推理后依然保持敏锐,持续挖掘优化空间,全程零上下文退化、零指令漂移、零死循环。

Q文章中提到Qwen3.7-Max编程能力的提升主要与哪两个训练方法有关?

A文章中提到,Qwen3.7-Max编程能力的提升主要与两个训练方法有关:1. 环境扩展:训练时将任务、执行框架、验证方式三者自由组合,让模型学会解决问题的通用策略,而非依赖特定框架。2. 长程自主执行:通过“动态累积生存博弈”框架,让模型在持续变化的模拟环境中进行超过一千步的连续决策,并能自主调整策略,避免了长时间的“上下文腐化”。

Lecturas Relacionadas

Para cobertura, compra oro y petróleo; para subidas explosivas, IA. El Bitcoin "pasado de moda" entra en mercado bajista

Autor: Wall Street Journal El bitcoin ha caído recientemente, alcanzando un mínimo de dos meses en 66,123 dólares. El ether también cayó a un mínimo de tres meses. Explicaciones comunes incluyen salidas de fondos ETF, tensiones geopolíticas y ventas inesperadas de Strategy (anteriormente MicroStrategy). Sin embargo, según analistas de Bloomberg, el problema es más profundo: el bitcoin está perdiendo en una competencia de activos. Antes, con tasas de interés cercanas a cero, el bitcoin competía contra la "insatisfacción del inversor" por la inflación y las opciones existentes. Ahora, el mercado ha cambiado. **El bitcoin enfrenta presión en tres frentes:** 1. **Cobertura contra la inflación:** El oro y las acciones de energía ganan. Los inversores prefieren activos con respaldo físico y poder de fijación de precios. 2. **Búsqueda de crecimiento:** La IA gana. Los inversores que buscan alto crecimiento optan por empresas de IA con ingresos y ganancias reales, donde el bitcoin, al no generar flujo de caja, no tiene ventaja. 3. **Exposición a las criptomonedas:** Las stablecoins y la infraestructura ganan. Los inversores pueden obtener exposición al sector a través de exchanges, redes de pago o empresas de finanzas tokenizadas, cuyos resultados están vinculados a la adopción real. En resumen, el bitcoin ya no es el mejor activo refugio, ni el mejor activo de crecimiento, ni la única opción cripto. Un detalle revelador: a pesar de las recientes advertencias sobre una inflación más persistente, el mercado no ha reaccionado comprando bitcoin como antes. La narrativa del "oro digital" está siendo erosionada por el oro real y las acciones energéticas. Las salidas de los ETF y las ventas de Strategy son síntomas, no la causa. Reflejan una nueva realidad: el capital tiene más opciones y los inversores son más exigentes. Ya no basta con la mera exposición a las criptomonedas; exigen claridad sobre los rendimientos y el valor añadido. La lógica actual del mercado bajista para el bitcoin ya no se basa en acusaciones de ser una estafa o una burbuja, sino en que **la escasez por sí sola ya no es suficiente.** Los inversores tienen alternativas más claras para cada objetivo de inversión.

marsbitHace 21 min(s)

Para cobertura, compra oro y petróleo; para subidas explosivas, IA. El Bitcoin "pasado de moda" entra en mercado bajista

marsbitHace 21 min(s)

Tendencias en el Mercado Accionario de EE.UU.: Una frase de Jensen Huang añadió $47 mil millones; Google 'vende parte de su empresa' por primera vez en 20 años para recaudar fondos

**Tendencia de las acciones en EE.UU.: Una frase de Jensen Huang genera 470.000 millones de dólares, Alphabet recurre a una ampliación de capital tras 20 años** La carrera armamentística de la IA está pasando de centrarse en quién tiene el mejor chip a quién puede convertir el dinero más rápido en capacidad de computación. El 2 de junio, el mercado observó ambas caras de la moneda. En Computex Taipei, Jensen Huang, CEO de NVIDIA, calificó a Marvell Technology como la "próxima empresa de un billón de dólares", lo que hizo que su valor bursátil se disparara un 32.5%, añadiendo unos 470.000 millones de dólares. Ese mismo día, Alphabet, matriz de Google, anunció un plan de financiación de 80.000 millones de dólares mediante una ampliación de capital, la primera en 20 años, para cubrir unos gastos de capital previstos de más de 180.000 millones de dólares en 2026, duplicando el año anterior. Los índices principales de Wall Street (S&P 500, Dow Jones y Nasdaq) cerraron en máximos históricos, con un impulso liderado por la tecnología, especialmente los semiconductores (índice SOXX +5.79%). Además de Marvell, Hewlett Packard Enterprise (HPE) subió un 25% tras presentar unos resultados trimestrales excepcionales y aumentar su previsión anual. Mientras tanto, la noticia de Alphabet hizo que sus acciones cayeran un 4% y arrastraron al sector de servicios de comunicación. El movimiento refleja la preocupación del mercado por el inmenso coste de la infraestructura de IA, incluso para los gigantes tecnológicos con mayor flujo de caja. En otros sectores, Palo Alto Networks subió tras el cierre gracias a unos sólidos resultados, y se esperan con atención los datos de empleo no agrícola del viernes, que podrían influir en las expectativas sobre la política de la Reserva Federal.

marsbitHace 1 hora(s)

Tendencias en el Mercado Accionario de EE.UU.: Una frase de Jensen Huang añadió $47 mil millones; Google 'vende parte de su empresa' por primera vez en 20 años para recaudar fondos

marsbitHace 1 hora(s)

Trading

Spot
Futuros
活动图片