Только что, китайский ИИ ворвался в мировую двойку в программировании, впереди остался только Claude

marsbitОпубликовано 2026-05-27Обновлено 2026-05-27

Введение

Сегодня обновление рейтинга Code Arena показало, что китайская модель Qwen3.7-Max от Alibaba набрала 1541 балл и вошла в первую пятерку мировых моделей для программирования, став единственной не-Claude моделью в топ-листе. Она превзошла такие модели, как GPT-5.5 и Gemini 3.5 Flash. В практическом тесте на создание 3D-игры в гонки Qwen3.7-Max продемонстрировала исключительное качество кода и внимание к деталям, выполнив дополнительные требования, такие как создание стартового экрана и добавление звуковых эффектов, с чем другие модели не справились. Это подтвердило её высокие практические способности, помимо результатов в синтетических тестах. Высокая производительность Qwen3.7-Max объясняется её позиционированием как базовой модели (Agent基座模型) для длительного автономного выполнения задач. Внутренние тесты показали, что она способна непрерывно работать до 35 часов, выполняя более 1150 вызовов инструментов без деградации контекста или зацикливания. Два ключевых усовершенствования в обучении способствовали этому прорыву: 1) Расширение окружения (Environment Extension) для развития универсальных стратегий решения задач, и 2) Методология обучения длительному автономному выполнению (Long-range Autonomy), основанная на «динамической накопительной игре на выживание». Появление Qwen3.7-Max в верхней части рейтинга Code Arena, где долгое время доминировали модели Claude, знаменует собой изменение в глобальной конкурентной среде моделей для программирования, представляя Китай как сер...

Именно сегодня вышел свежий рейтинг Code Arena!

Qwen3.7-Max с результатом 1541 балла ворвался в мировой топ-4, обогнав целый ряд ведущих моделей, таких как GPT-5.5, Gemini 3.5 Flash и другие.

Впереди него остались только Claude Opus 4.7 и Opus 4.6.

Другими словами, на мировой арене моделей программирования Alibaba — единственный китайский производитель, пробившийся за этот стол, занимающий второе место после Anthropic.

Qwen3.7-Max врывается в мировой топ-5

Единственная модель не от Claude

На самом деле, ещё до публикации рейтинга Code Arena, Qwen3.7-Max уже завоевала репутацию в среде зарубежных разработчиков.

Atomic Chat провёл жёсткое сравнение, поставив Opus 4.7, GPT-5.5 и Qwen3.7-Max соревноваться друг с другом. Задача — написать самообучающийся ИИ для игры «Тетрис».

В итоге, Qwen3.7-Max не только превзошла Opus 4.7 и GPT-5.5 при стоимости токенов всего в $1.32, но и повысила производительность на 56%.

Другой зарубежный разработчик решил, чтобы Qwen3.7-Max построила 3D-модель вселенной, и результат можно охарактеризовать как потрясающий.

В задаче по генерации «3D пиксельной модели миниатюрной пагоды» скорость и качество вывода Qwen3.7-Max также полностью превзошли конкурентов.

Разработчик Пол Куверт также высоко оценил, что после подключения Qwen3.7-Max к Hermes Agent и OpenCode, она в основном может заменить GPT-5.5 и Opus 4.7.

Программирование — невероятно мощное

Однако высокие бенчмарки — это одно, а реальные испытания — другое.

Мы устроили Qwen3.7-Max жёсткое испытание в виде задачи по созданию «гоночной игры».

Подробный промпт был передан модели, и вскоре Qwen3.7-Max прямо выдала готовый к запуску HTML-файл.

В первой версии была небольшая ошибка: клавиши поворота A/D были перепутаны (влево/вправо).

Но после второго раунда простой корректировки через диалог, полноценная 3D-гоночная игра была запущена.

Честно говоря, в момент открытия мы были немного шокированы.

Четыре машины на трассе одновременно, 3 круга кольцевой гонки, на трассе разбросано более 100 золотых монет, при столкновении с препятствием происходит замедление и потеря контроля.

Панель результатов после гонки включала рейтинг, время, количество монет, самый быстрый круг — ничего не упущено.

Но по-настоящему удивили две детали, которые сделал только Qwen3.7-Max.

Первая — начальный экран. После тестирования четырёх моделей, только он создал полноценный начальный экран для игры, и нажатие «Start» запускало гонку. Остальные три сразу начинали гонку, без даже заглавного экрана.

Вторая — звуковые эффекты. В конце промпта было дополнительное требование добавить звук рева двигателя и звук сбора монет. Из четырёх моделей только Qwen3.7-Max реализовал этот бонус, добавив и звук двигателя, и звон монет.

Давайте посмотрим на результаты других участников.

Графика Gemini 3.5 Flash заметно беднее, не хватает того ощущения объёма.

С расположением элементов UI тоже проблемы: информация на приборной панели разбросана по четырём углам экрана, визуальный фокус рассеян.

В то время как Qwen3.7-Max разместил ключевые показатели в центре экрана, что более естественно для взгляда игрока.

Результат Claude Opus 4.6... сложно описать словами.

Не только монет на трассе было катастрофически мало, но и 3 машины с ИИ двигались почти синхронно, без какой-либо случайности, как будто скопированные.

Наконец, GPT-5.5.

Видно, что качество графики действительно лучше, чем у первых двух, и управление более плавное.

Но непонятно почему, монеты были сделаны в виде жёлтых «пончиков»...

Форма — мелочь. Ключевое в том, что Gemini, Claude и ChatGPT потребовалось несколько раундов исправления багов, чтобы запустить все функции.

Только Qwen3.7-Max в первом раунде сгенерировал в основном играбельную версию.

Результаты тестов близки, практические испытания подтверждают, а цена составляет лишь доли от конкурентов. Остальное — за разработчиками и их выбором.

«Базовая» модель эпохи Agent

То, как Qwen3.7-Max смог продемонстрировать такой уровень на самой конкурентной арене программирования, скрыто в его продуктовом позиционировании.

Несколько дней назад, когда Alibaba представляла Qwen3.7-Max, ей был присвоен очень специфический ярлык: Базовая модель для Agent.

Она создана как модель, предназначенная для длительного автономного выполнения задач.

Данные внутреннего тестирования показывают, что в одной автономной задаче по программированию Qwen3.7-Max непрерывно работала 35 часов, выполнив 1158 вызовов инструментов.

В итоге сгенерированный код по сравнению с эталонной реализацией Triton достиг ошеломляющего 10-кратного среднего геометрического ускорения.

Ещё более впечатляет её способность вести «затяжные бои» —

Даже после 30 часов рассуждений модель сохраняла остроту и продолжала находить новые возможности для оптимизации.

Полностью без деградации контекста, без дрейфа инструкций, без бесконечных циклов!

Нужно признать, что сложность не в самих 1000 вызовах инструментов. С распространением протокола MCP, 1000 вызовов — не редкость.

Сложность в 35 часах последовательных рассуждений.

Большинство моделей «ломаются» при выполнении длительных задач: либо контекст накапливается и путается, цели, поставленные вначале, к концу полностью забываются; либо они входят в бесконечный цикл, повторяя одну и ту же неудачную стратегию.

Qwen3.7-Max смогла реализовать принцип «постоянно делать правильные вещи».

Раскрытие ключевых технологий

Мы полагаем, что этот скачок Qwen3.7-Max в программировании может быть связан с улучшением двух методов обучения.

Во-первых, расширение среды (Environment Expansion).

При обучении программированию каждая задача для Qwen3.7-Max разделяется на три независимых измерения: сама задача, среда выполнения и способ проверки. Эти три компонента комбинируются произвольно.

Одна и та же задача иногда выполняется в среде Claude Code, иногда в OpenClaw, иногда с другим способом проверки.

Эффект похож на то, как стажёра ротируют по всем проектным группам. Он вынужден учиться универсальным стратегиям решения проблем, а не «как схитрить в конкретной среде».

Это объясняет неинтуитивное явление: Qwen3.7-Max стабильно показывает себя в средах Claude Code, OpenClaw, Qwen Code, без ситуации «отлично в своей среде, но провал в другой».

Второе улучшение — длительное автономное выполнение (Long-Range Autonomous Execution).

В обучение команда внедрила фреймворк «динамической накопительной игры на выживание».

То есть, модель принимает последовательные решения на протяжении более тысячи шагов в постоянно меняющейся симулированной среде, самостоятельно строит гипотезы, корректирует стратегию на основе обратной связи, и при этом не должна страдать от «коррупции контекста» из-за долгой работы.

Есть наглядные данные: в симуляции управления стартапом в течение целого года по бенчмарку YC-Bench, Qwen3.7-Max достигла выручки в 2.08 миллиона долларов, что в два раза больше, чем у предыдущего поколения (1.05 млн).

Что ещё важнее, она продемонстрировала эволюцию стратегии: в середине, столкнувшись с кризисом, смогла самостоятельно изменить направление, выявить и заблокировать злонамеренных клиентов, в конечном итоге сойдясь к стабильному циклу выполнения.

Это основа для случая с 35-часовой оптимизацией ядра, и именно поэтому в Kernel Bench L3, Qwen3.7-Max смогла обеспечить ускорение в 96% сценариев.

А программирование — лишь первое поле битвы. Эта основа долгосрочных рассуждений и вызова инструментов указывает на более масштабные амбиции — универсальную базовую модель для Agent.

В финал программирования добавился новый «нарушитель спокойствия»

С момента своего запуска, Code Arena всегда тестировал суровые навыки: многошаговые рассуждения, оркестрация инструментов, доставка целых проектов — всё это настоящие испытания уровня Agent.

Сегодня Qwen3.7-Max с результатом 1541 балла вклинилась на четвёртое место, между Opus 4.6 Thinking и Opus 4.6.

На этой трассе, где Claude доминировал большую часть года, она дала свой ответ: китайские модели — не просто догоняющие, они тоже могут быть определяющими игроками.

Мировая гонка моделей программирования больше не является монополией Кремниевой долины.

Источники:

https://arena.ai/leaderboard/code/webdev

Статья взята с официального аккаунта WeChat «Новая Эпоха Искусственного Интеллекта», автор: ASI Апокалипсис

Связанные с этим вопросы

QКакой китайский ИИ-модель вошла в первую пятёрку глобального рейтинга Code Arena и какое место она заняла?

AМодель Qwen3.7-Max от компании Alibaba заняла четвёртое место в глобальном рейтинге Code Arena.

QКакие модели в рейтинге Code Arena опережают китайскую Qwen3.7-Max?

AВпереди Qwen3.7-Max находятся модели Claude Opus 4.7 и Claude Opus 4.6 от компании Anthropic.

QПочему Qwen3.7-Max описывается как "базовая модель для агентов" (Agent Base Model)?

AQwen3.7-Max разрабатывалась как базовая модель для агентов, предназначенная для длительного автономного выполнения задач. Она способна вести непрерывное рассуждение до 35 часов, совершать множество вызовов инструментов без деградации контекста или потери цели.

QКакие два метода обучения, согласно статье, способствовали успеху Qwen3.7-Max в программировании?

AПервым методом является "расширение среды" (environment expansion), где задачи разбиваются на независимые измерения (сама задача, фреймворк исполнения, способ валидации) и свободно комбинируются. Второй — "долгосрочное автономное исполнение" (long-range autonomous execution), при котором модель обучается в динамической среде на последовательности из более чем тысячи шагов.

QКак Qwen3.7-Max проявила себя в практическом тесте по созданию игры-гонки по сравнению с другими моделями?

AВ тесте на создание 3D-игры гонок Qwen3.7-Max с первой попытки сгенерировала играбельный HTML-файл с минимальными багами. Она единственная добавила стартовый экран и звуковые эффекты, как требовалось в задании, в то время как другие модели (Gemini, Claude, ChatGPT) нуждались в нескольких итерациях исправления ошибок.

Похожее

Достаточно ли сжигания LIT на сумму 42 миллиона долларов, чтобы спровоцировать следующий крупный ралли альткоина?

Lighter (LIT) продемонстрировал рост на 3,68% за последние 24 часа с увеличением торгового объема на 13,52%. На прошлой неделе его рост составил 18%. Ранее AMBCrypto предупреждал о возможной перекупленности и коррекции к уровню $2. После снижения примерно на 13% до $2,3 токен восстановился до $2,60. 10 июля проект провел масштабное сжигание более 15,6 миллионов токенов LIT на сумму свыше $42 млн, что составляет около 6,3% от циркулирующего предложения. Это событие могло создать краткосрочный бычий импульс, указывая на возможность движения к $3. Однако на дневном графике наблюдается медвежья дивергенция RSI: при росте цены до более высокого максимума индикатор сформировал более низкий пик, что сигнализирует о вероятной коррекции. Уровни Фибоначчи указывают на то, что падение ниже $2,30 (уровень 23,6%) может открыть путь к более глубокой коррекции. На 4-часовом графике сформировался диапазон между $2,31 и $2,68. Трейдеры могут рассматривать покупки при бычьем пробое выше $2,70 с целями у $3,06 и $3,21. С другой стороны, пробой ниже $2,31 усилит вероятность снижения к отметке $2. В итоге, несмотря на сильный спрос и бычий импульс после сжигания, технический анализ предупреждает о признаках перекупленности. Следующее направление тренда, вероятно, определит пробой границ текущего ценового диапазона.

ambcrypto2 ч. назад

Достаточно ли сжигания LIT на сумму 42 миллиона долларов, чтобы спровоцировать следующий крупный ралли альткоина?

ambcrypto2 ч. назад

Почти сто игроков ворвались в индустрию данных для воплощенного интеллекта: Кто на самом деле может заработать на «продаже данных», если за год привлекли 4,47 млрд?

Более 90 игроков выходят на рынок данных для воплощенного интеллекта: за год привлечено 44,7 млрд юаней инвестиций, но кто действительно может заработать на «продаже данных»? Индустрия данных для воплощенного интеллекта (Embodied AI) формируется как самостоятельный сегмент, привлекая разнообразных участников: независимых поставщиков данных, государственные платформы, робототехнические компании и игроков из смежных отраслей. За последний год 15 независимых поставщиков услуг по обработке данных привлекли около 44,7 млрд юаней. Однако, по сравнению с общим объемом финансирования в области воплощенного интеллекта (438 млрд юаней за первое полугодие 2026 года), эта сумма невелика, что указывает на сохраняющуюся осторожность инвесторов. Основные методы сбора данных включают телеуправление реальными роботами, сбор данных без робота (с использованием захвата движений, перспективы от первого лица и т.д.), синтез в симуляциях и дистилляцию из интернет-видео. Наиболее распространены гибридные подходы. Текущая годовая производственная мощность отрасли оценивается в 1,6-1,8 млн часов данных + 70-80 млн отдельных единиц данных, но краткосрочная цель — увеличить это в 15-20 раз. Сбор данных ведется более чем в 20 провинциях Китая, при этом наибольшая концентрация — в регионе дельты Янцзы. Несмотря на бурный рост, отрасль остается на ранней стадии: более половины ключевых независимых компаний младше года, большинство находятся на ранних стадиях финансирования (A-раунд и ранее), и лишь одна компания заявляет о прибыльности. Капитал распределен широко, но ни один институциональный инвестор не сделал крупной ставки. Ключевой вопрос, который предстоит решить в ближайшие год-два, — сможет ли «чистая» продажа данных стать устойчивой и прибыльной бизнес-моделью в этой сфере.

marsbit2 ч. назад

Почти сто игроков ворвались в индустрию данных для воплощенного интеллекта: Кто на самом деле может заработать на «продаже данных», если за год привлекли 4,47 млрд?

marsbit2 ч. назад

Диалог с партнером Multicoin: Крипторынок достиг дна, в этом цикле ожидается рост трех криптовалют

Источник: интервью Tushar Jain, управляющего партнера Multicoin Capital, в подкасте «When Shift Happens». Ключевые тезисы: * **Рынок достиг дна:** По мнению Джейна, крипторынок пережил минимум. Сигналы: негативные новости больше не вызывают падений, а внедрение приложений растёт при отставании цены. * **Видение на текущий цикл:** Jain выделяет три основных актива: 1. **Solana (SOL):** Сохраняет уверенность как архитектура для интернет-рынков капитала, лидер в спотовой торговле и размещении токенизированных активов (RWA). Ценится за «доверенную нейтральность». 2. **Hyperliquid (HYPE):** Рассматривается как лидер в децентрализованных деривативах, предлагающий высокую производительность. Multicoin видит значительный потенциал роста. 3. **Zcash (ZEC):** Символизирует возврат к ценностям «киберпанка» и приватности. Рассматривается как актив для хранения стоимости с потенциалом войти в топ-5 по капитализации. Недавний инцидент с уязвимостью был расценён как нерациональная паника и возможность для увеличения позиции. * **Подход к инвестициям:** Multicoin избегает активной торговли и технического анализа. Стратегия включает концентрацию на наиболее убедительных идеях, метод «третей» для входа в позицию (немедленная покупка, усреднение и докупка на просадках) и продажу только при изменении тезиса, нахождении лучшей возможности или экстремальном завышении оценки. Биткоин используется в портфеле как инструмент хеджирования и «кэш». * **Об Ethereum:** Отмечается его ценовая устойчивость, несмотря на потерю доли рынка в спотовой торговле (Solana) и деривативах (Hyperliquid). Позиция Ethereum Foundation считается нечёткой.

marsbit3 ч. назад

Диалог с партнером Multicoin: Крипторынок достиг дна, в этом цикле ожидается рост трех криптовалют

marsbit3 ч. назад

Bitcoin приближается к минимуму цикла, несмотря на рекордные оттоки $8 млрд из спотовых ETF – Почему?

На момент публикации Bitcoin торговался на уровне $64 099,20, восстановившись после падения ниже $60 000, однако опасения сохраняются. По словам Джеймса Баттерфилла из CoinShares, на BTC оказывают давление три фактора: напряженность на Ближнем Востоке, опасения ФРС по поводу инфляции и сохраняющаяся высокая процентная ставка в США (3,50%-3,75%). Несмотря на рекордный отток средств из спотовых Bitcoin-ETF на $8 млрд за последние восемь недель, появились предварительные признаки возможного дна. Вливания за последние три торговые сессии указывают на снижение институционального давления продаж. Также крупная продажа 3 588 BTC в начале июля не обрушила рынок. Технический анализ показывает, что зона сопротивления теперь находится у отметки $77 000, а значительное сопротивление — в диапазоне $84 000–$85 000. При этом в диапазоне $60 000–$63 000 формируется новая зона поддержки. Общий вывод: рынок остается под давлением, но не сломлен, и есть признаки того, что цикл снижения может приближаться к завершению.

ambcrypto3 ч. назад

Bitcoin приближается к минимуму цикла, несмотря на рекордные оттоки $8 млрд из спотовых ETF – Почему?

ambcrypto3 ч. назад

Прогноз цены XRP: Стоят ли на паузе трейдеры, отказываясь гнаться за слабыми отскоками?

По данным Santiment, активность в сети XRP Ledger недавно упала до необычно низкого уровня: 9 и 10 июля было зафиксировано всего 25 350 и 24 887 ежедневно активных адресов соответственно. Эти показатели стали вторыми самыми низкими в 2026 году. Ежедневный рост сети также замедлился. Трейдеры, по-видимому, воздерживаются от покупок во время незначительных ценовых отскоков, ожидая более устойчивого движения. Тенденции спотового объема подтверждают эту осторожность: индикатор Spot CVD (Cumulative Volume Delta) находится в нейтральной зоне и снижается, указывая на ослабление покупательского давления с марта. Хотя чистый отток XRP с бирж продолжается, он менее интенсивен, чем в 2025 году. Аналитик Darkfost отмечает, что агрегированные funding rates остаются отрицательными на протяжении всего 2026 года, отражая устойчивый медвежий консенсус даже после коррекции более чем на 70% от пика июля 2025 года. Подобная ситуация наблюдалась в апреле 2025 года и предшествовала росту на 126%. Таким образом, текущий сильный пессимизм может служить сигналом к развороту на среднесрочной перспективе, однако для существенного роста необходимы значительные изменения в спотовых объемах. В настоящее время цена XRP движется в боковом диапазоне около уровня поддержки $1,10.

ambcrypto4 ч. назад

Прогноз цены XRP: Стоят ли на паузе трейдеры, отказываясь гнаться за слабыми отскоками?

ambcrypto4 ч. назад

Торговля

Спот

Только что, китайский ИИ ворвался в мировую двойку в программировании, впереди остался только Claude

Введение

Qwen3.7-Max врывается в мировой топ-5

Единственная модель не от Claude

Программирование — невероятно мощное

«Базовая» модель эпохи Agent

Раскрытие ключевых технологий

В финал программирования добавился новый «нарушитель спокойствия»

Связанные с этим вопросы

Похожее

Достаточно ли сжигания LIT на сумму 42 миллиона долларов, чтобы спровоцировать следующий крупный ралли альткоина?

Почти сто игроков ворвались в индустрию данных для воплощенного интеллекта: Кто на самом деле может заработать на «продаже данных», если за год привлекли 4,47 млрд?

Диалог с партнером Multicoin: Крипторынок достиг дна, в этом цикле ожидается рост трех криптовалют

Bitcoin приближается к минимуму цикла, несмотря на рекордные оттоки $8 млрд из спотовых ETF – Почему?

Прогноз цены XRP: Стоят ли на паузе трейдеры, отказываясь гнаться за слабыми отскоками?

Торговля

Популярные категории

Популярные теги