刚刚,中国AI闯入全球编程前二,前面只剩Claude
Code Arena最新榜单显示,阿里通义千问Qwen3.7-Max以1541分位列全球第四,成为唯一进入该榜单前列的中国模型,排名仅次于Claude Opus系列模型。
在具体任务测试中,Qwen3.7-Max表现突出。例如,在编写可自我训练的俄罗斯方块AI任务中,其成本仅为1.32美元,性能却超越其他模型56%。在构建3D宇宙模型和生成3D像素风宝塔模型等任务中,其输出速度与质量也全面胜出。
一项硬核的3D赛车游戏生成挑战进一步验证了其能力。Qwen3.7-Max首轮生成即基本可玩,并独特地添加了开始界面和音效,细节处理优于其他对比模型(如Gemini 3.5 Flash、Claude Opus 4.6和GPT-5.5),后者大多需要多轮调试。
Qwen3.7-Max被定位为“Agent基座模型”,专为长时间自主执行复杂任务设计。内测数据显示,它能连续运行35小时,执行超千次工具调用,在长程任务中保持稳定推理,无上下文退化或指令漂移。
其技术核心在于训练方法的升级:一是“环境扩展”,让模型在不同执行框架和验证方式中学习通用解题策略;二是“长程自主执行”训练,使模型能在动态环境中进行超千步连续决策与策略调整。
此次Qwen3.7-Max在Code Arena榜单的突破,标志着中国AI模型已在全球编程竞技场中成为重要的竞争者。
marsbit05/27 00:17