Только что, китайский ИИ ворвался в мировую двойку в программировании, впереди остался только Claude

marsbitОпубликовано 2026-05-27Обновлено 2026-05-27

Введение

Сегодня обновление рейтинга Code Arena показало, что китайская модель Qwen3.7-Max от Alibaba набрала 1541 балл и вошла в первую пятерку мировых моделей для программирования, став единственной не-Claude моделью в топ-листе. Она превзошла такие модели, как GPT-5.5 и Gemini 3.5 Flash. В практическом тесте на создание 3D-игры в гонки Qwen3.7-Max продемонстрировала исключительное качество кода и внимание к деталям, выполнив дополнительные требования, такие как создание стартового экрана и добавление звуковых эффектов, с чем другие модели не справились. Это подтвердило её высокие практические способности, помимо результатов в синтетических тестах. Высокая производительность Qwen3.7-Max объясняется её позиционированием как базовой модели (Agent基座模型) для длительного автономного выполнения задач. Внутренние тесты показали, что она способна непрерывно работать до 35 часов, выполняя более 1150 вызовов инструментов без деградации контекста или зацикливания. Два ключевых усовершенствования в обучении способствовали этому прорыву: 1) Расширение окружения (Environment Extension) для развития универсальных стратегий решения задач, и 2) Методология обучения длительному автономному выполнению (Long-range Autonomy), основанная на «динамической накопительной игре на выживание». Появление Qwen3.7-Max в верхней части рейтинга Code Arena, где долгое время доминировали модели Claude, знаменует собой изменение в глобальной конкурентной среде моделей для программирования, представляя Китай как сер...

Именно сегодня вышел свежий рейтинг Code Arena!

Qwen3.7-Max с результатом 1541 балла ворвался в мировой топ-4, обогнав целый ряд ведущих моделей, таких как GPT-5.5, Gemini 3.5 Flash и другие.

Впереди него остались только Claude Opus 4.7 и Opus 4.6.

Другими словами, на мировой арене моделей программирования Alibaba — единственный китайский производитель, пробившийся за этот стол, занимающий второе место после Anthropic.

Qwen3.7-Max врывается в мировой топ-5

Единственная модель не от Claude

На самом деле, ещё до публикации рейтинга Code Arena, Qwen3.7-Max уже завоевала репутацию в среде зарубежных разработчиков.

Atomic Chat провёл жёсткое сравнение, поставив Opus 4.7, GPT-5.5 и Qwen3.7-Max соревноваться друг с другом. Задача — написать самообучающийся ИИ для игры «Тетрис».

В итоге, Qwen3.7-Max не только превзошла Opus 4.7 и GPT-5.5 при стоимости токенов всего в $1.32, но и повысила производительность на 56%.

Другой зарубежный разработчик решил, чтобы Qwen3.7-Max построила 3D-модель вселенной, и результат можно охарактеризовать как потрясающий.

В задаче по генерации «3D пиксельной модели миниатюрной пагоды» скорость и качество вывода Qwen3.7-Max также полностью превзошли конкурентов.

Разработчик Пол Куверт также высоко оценил, что после подключения Qwen3.7-Max к Hermes Agent и OpenCode, она в основном может заменить GPT-5.5 и Opus 4.7.

Программирование — невероятно мощное

Однако высокие бенчмарки — это одно, а реальные испытания — другое.

Мы устроили Qwen3.7-Max жёсткое испытание в виде задачи по созданию «гоночной игры».

Подробный промпт был передан модели, и вскоре Qwen3.7-Max прямо выдала готовый к запуску HTML-файл.

В первой версии была небольшая ошибка: клавиши поворота A/D были перепутаны (влево/вправо).

Но после второго раунда простой корректировки через диалог, полноценная 3D-гоночная игра была запущена.

Честно говоря, в момент открытия мы были немного шокированы.

Четыре машины на трассе одновременно, 3 круга кольцевой гонки, на трассе разбросано более 100 золотых монет, при столкновении с препятствием происходит замедление и потеря контроля.

Панель результатов после гонки включала рейтинг, время, количество монет, самый быстрый круг — ничего не упущено.

Но по-настоящему удивили две детали, которые сделал только Qwen3.7-Max.

Первая — начальный экран. После тестирования четырёх моделей, только он создал полноценный начальный экран для игры, и нажатие «Start» запускало гонку. Остальные три сразу начинали гонку, без даже заглавного экрана.

Вторая — звуковые эффекты. В конце промпта было дополнительное требование добавить звук рева двигателя и звук сбора монет. Из четырёх моделей только Qwen3.7-Max реализовал этот бонус, добавив и звук двигателя, и звон монет.

Давайте посмотрим на результаты других участников.

Графика Gemini 3.5 Flash заметно беднее, не хватает того ощущения объёма.

С расположением элементов UI тоже проблемы: информация на приборной панели разбросана по четырём углам экрана, визуальный фокус рассеян.

В то время как Qwen3.7-Max разместил ключевые показатели в центре экрана, что более естественно для взгляда игрока.

Результат Claude Opus 4.6... сложно описать словами.

Не только монет на трассе было катастрофически мало, но и 3 машины с ИИ двигались почти синхронно, без какой-либо случайности, как будто скопированные.

Наконец, GPT-5.5.

Видно, что качество графики действительно лучше, чем у первых двух, и управление более плавное.

Но непонятно почему, монеты были сделаны в виде жёлтых «пончиков»...

Форма — мелочь. Ключевое в том, что Gemini, Claude и ChatGPT потребовалось несколько раундов исправления багов, чтобы запустить все функции.

Только Qwen3.7-Max в первом раунде сгенерировал в основном играбельную версию.

Результаты тестов близки, практические испытания подтверждают, а цена составляет лишь доли от конкурентов. Остальное — за разработчиками и их выбором.

«Базовая» модель эпохи Agent

То, как Qwen3.7-Max смог продемонстрировать такой уровень на самой конкурентной арене программирования, скрыто в его продуктовом позиционировании.

Несколько дней назад, когда Alibaba представляла Qwen3.7-Max, ей был присвоен очень специфический ярлык: Базовая модель для Agent.

Она создана как модель, предназначенная для длительного автономного выполнения задач.

Данные внутреннего тестирования показывают, что в одной автономной задаче по программированию Qwen3.7-Max непрерывно работала 35 часов, выполнив 1158 вызовов инструментов.

В итоге сгенерированный код по сравнению с эталонной реализацией Triton достиг ошеломляющего 10-кратного среднего геометрического ускорения.

Ещё более впечатляет её способность вести «затяжные бои» —

Даже после 30 часов рассуждений модель сохраняла остроту и продолжала находить новые возможности для оптимизации.

Полностью без деградации контекста, без дрейфа инструкций, без бесконечных циклов!

Нужно признать, что сложность не в самих 1000 вызовах инструментов. С распространением протокола MCP, 1000 вызовов — не редкость.

Сложность в 35 часах последовательных рассуждений.

Большинство моделей «ломаются» при выполнении длительных задач: либо контекст накапливается и путается, цели, поставленные вначале, к концу полностью забываются; либо они входят в бесконечный цикл, повторяя одну и ту же неудачную стратегию.

Qwen3.7-Max смогла реализовать принцип «постоянно делать правильные вещи».

Раскрытие ключевых технологий

Мы полагаем, что этот скачок Qwen3.7-Max в программировании может быть связан с улучшением двух методов обучения.

Во-первых, расширение среды (Environment Expansion).

При обучении программированию каждая задача для Qwen3.7-Max разделяется на три независимых измерения: сама задача, среда выполнения и способ проверки. Эти три компонента комбинируются произвольно.

Одна и та же задача иногда выполняется в среде Claude Code, иногда в OpenClaw, иногда с другим способом проверки.

Эффект похож на то, как стажёра ротируют по всем проектным группам. Он вынужден учиться универсальным стратегиям решения проблем, а не «как схитрить в конкретной среде».

Это объясняет неинтуитивное явление: Qwen3.7-Max стабильно показывает себя в средах Claude Code, OpenClaw, Qwen Code, без ситуации «отлично в своей среде, но провал в другой».

Второе улучшение — длительное автономное выполнение (Long-Range Autonomous Execution).

В обучение команда внедрила фреймворк «динамической накопительной игры на выживание».

То есть, модель принимает последовательные решения на протяжении более тысячи шагов в постоянно меняющейся симулированной среде, самостоятельно строит гипотезы, корректирует стратегию на основе обратной связи, и при этом не должна страдать от «коррупции контекста» из-за долгой работы.

Есть наглядные данные: в симуляции управления стартапом в течение целого года по бенчмарку YC-Bench, Qwen3.7-Max достигла выручки в 2.08 миллиона долларов, что в два раза больше, чем у предыдущего поколения (1.05 млн).

Что ещё важнее, она продемонстрировала эволюцию стратегии: в середине, столкнувшись с кризисом, смогла самостоятельно изменить направление, выявить и заблокировать злонамеренных клиентов, в конечном итоге сойдясь к стабильному циклу выполнения.

Это основа для случая с 35-часовой оптимизацией ядра, и именно поэтому в Kernel Bench L3, Qwen3.7-Max смогла обеспечить ускорение в 96% сценариев.

А программирование — лишь первое поле битвы. Эта основа долгосрочных рассуждений и вызова инструментов указывает на более масштабные амбиции — универсальную базовую модель для Agent.

В финал программирования добавился новый «нарушитель спокойствия»

С момента своего запуска, Code Arena всегда тестировал суровые навыки: многошаговые рассуждения, оркестрация инструментов, доставка целых проектов — всё это настоящие испытания уровня Agent.

Сегодня Qwen3.7-Max с результатом 1541 балла вклинилась на четвёртое место, между Opus 4.6 Thinking и Opus 4.6.

На этой трассе, где Claude доминировал большую часть года, она дала свой ответ: китайские модели — не просто догоняющие, они тоже могут быть определяющими игроками.

Мировая гонка моделей программирования больше не является монополией Кремниевой долины.

Источники:

https://arena.ai/leaderboard/code/webdev

Статья взята с официального аккаунта WeChat «Новая Эпоха Искусственного Интеллекта», автор: ASI Апокалипсис

Связанные с этим вопросы

QКакой китайский ИИ-модель вошла в первую пятёрку глобального рейтинга Code Arena и какое место она заняла?

AМодель Qwen3.7-Max от компании Alibaba заняла четвёртое место в глобальном рейтинге Code Arena.

QКакие модели в рейтинге Code Arena опережают китайскую Qwen3.7-Max?

AВпереди Qwen3.7-Max находятся модели Claude Opus 4.7 и Claude Opus 4.6 от компании Anthropic.

QПочему Qwen3.7-Max описывается как "базовая модель для агентов" (Agent Base Model)?

AQwen3.7-Max разрабатывалась как базовая модель для агентов, предназначенная для длительного автономного выполнения задач. Она способна вести непрерывное рассуждение до 35 часов, совершать множество вызовов инструментов без деградации контекста или потери цели.

QКакие два метода обучения, согласно статье, способствовали успеху Qwen3.7-Max в программировании?

AПервым методом является "расширение среды" (environment expansion), где задачи разбиваются на независимые измерения (сама задача, фреймворк исполнения, способ валидации) и свободно комбинируются. Второй — "долгосрочное автономное исполнение" (long-range autonomous execution), при котором модель обучается в динамической среде на последовательности из более чем тысячи шагов.

QКак Qwen3.7-Max проявила себя в практическом тесте по созданию игры-гонки по сравнению с другими моделями?

AВ тесте на создание 3D-игры гонок Qwen3.7-Max с первой попытки сгенерировала играбельный HTML-файл с минимальными багами. Она единственная добавила стартовый экран и звуковые эффекты, как требовалось в задании, в то время как другие модели (Gemini, Claude, ChatGPT) нуждались в нескольких итерациях исправления ошибок.

Похожее

В результате взлома Coldcard, одного из крупнейших взломов биткоин-кошельков за последнее время, началась новая волна убытков! Убытки растут

В результате взлома Coldcard, одного из крупнейших взломов биткоин-кошельков за последнее время, произошла третья волна атак. Исследовательская компания Galaxy Research сообщает, что из кошельков, созданных на этих устройствах, было выведено еще 207,73 BTC. Общие потери теперь составляют около 1367 BTC (примерно 88,6 млн долларов США) по 4585 адресам. Первые две волны атак демонстрировали схожие черты, что указывало на одного злоумышленника. Однако третья волна отличается по методам: используются отдельные адреса для каждой жертвы, адреса P2WSH вместо P2WPKH, и атака нацелена на стандартный путь генерации. Это может означать либо модификацию инструментов первоначальным взломщиком, либо появление нового. Похищенные биткоины, общая стоимость которых оценивается в 88,6 млн долларов, пока не были потрачены злоумышленниками. Анализ показывает, что потери в основном пришлись на кошельки с небольшим балансом, что характерно для индивидуальных пользователей, а не институциональных сервисов. Уязвимое ПО Coldcard было выпущено 17 марта 2021 года, и все украденные средства были созданы после этой даты.

cryptonews.ru25 мин. назад

В результате взлома Coldcard, одного из крупнейших взломов биткоин-кошельков за последнее время, началась новая волна убытков! Убытки растут

cryptonews.ru25 мин. назад

Trump Media продаёт ещё 2628 BTC, запасы снижаются до 4261 BTC

Компания Trump Media & Technology Group (TMTG), стоящая за социальной сетью Truth Social, продолжает сокращать свои вложения в Bitcoin. По данным аналитической платформы Lookonchain, компания продала ещё 2628 BTC на сумму около 165 миллионов долларов через платформу Crypto.com. Это продолжение серии продаж, начавшихся семь месяцев назад. Всего за этот период TMTG продала 7281 BTC на общую сумму примерно 545 миллионов долларов по средней цене 74 855 долларов за монету. Первоначально компания приобрела 11542 BTC по средней цене 118 522 доллара. После последних транзакций её резервы сократились до 4261 BTC (около 269,8 миллиона долларов), что на 63% меньше изначальных холдингов. Эти продажи происходят на фоне усиленного внимания законодателей к криптовалютным интересам, связанным с Дональдом Трампом. В Конгрессе идут дебаты по закону CLARITY Act, который касается этических норм, владения цифровыми активами и потенциальных конфликтов интересов государственных лиц. Критики указывают на такие проекты, как мемкойны TRUMP и MELANIA, а также на токены World Liberty Financial, связывая политическое влияние с частными криптоинтересами.

cointelegraph45 мин. назад

Trump Media продаёт ещё 2628 BTC, запасы снижаются до 4261 BTC

cointelegraph45 мин. назад

Фуцзянь, Цзиньцзян: супер-единорог в сфере памяти тихо делает своё дело

В провинции Фуцзянь в городе Цзиньцзян, известном производством спортивной обуви, находится перспективная компания в области производства чипов памяти — Fujian Jinhua Integrated Circuit Co. (Jinhua). Основанная в 2016 году как часть национального плана по развитию полупроводниковой промышленности, компания столкнулась с серьёзными вызовами. В 2018 году она была внесена в санкционный список Министерства торговли США по обвинению в промышленном шпионаже в пользу американской компании Micron, что привело к остановке производственной линии. После пяти лет судебных разбирательств в феврале 2024 года федеральный суд в Сан-Франциско полностью оправдал Jinhua, сняв все обвинения. Несмотря на правовую победу, компания всё ещё остаётся в санкционном списке, а годы задержек серьёзно замедлили её развитие. Под руководством своего ключевого инженера Чэнь Чжэнкуня, известного как «мастер эффективности», компания сумела адаптировать производство, увеличив долю отечественного оборудования. В отличие от ChangXin Memory Technologies (CXMT) и Yangtze Memory Technologies (YMTC), которые продвинулись дальше в производстве DRAM и NAND-памяти соответственно, Jinhua сосредоточена на специализированной (нишевой) DRAM-памяти для потребительской электроники. Её текущая производственная мощность составляет около 40 000 пластин в месяц. Хотя её доход в 2023 году оценивался примерно в 2 млрд юаней, что значительно меньше, чем у конкурентов, компания остаётся важным игроком. История Jinhua тесно связана с амбициозной промышленной трансформацией города Цзиньцзян. Местные власти оказали компании полную поддержку, включая финансовые гарантии и создание кластера, что демонстрирует стратегическую важность проекта для региона. Несмотря на то, что Jinhua упустила первые годы бума на рынке памяти, её устойчивость в условиях санкций показывает потенциал для восстановления в новом цикле роста, движимом развитием искусственного интеллекта.

marsbit1 ч. назад

Фуцзянь, Цзиньцзян: супер-единорог в сфере памяти тихо делает своё дело

marsbit1 ч. назад

Почему биткойн-фермы внезапно стали новым входом для вычислительных мощностей ИИ на фоне дефицита электроэнергии в 38 ГВт?

Заголовок: Почему майнинговые фермы для биткоина внезапно стали новым входом для вычислительных мощностей ИИ на фоне дефицита электроэнергии в 38 ГВт? Краткое содержание: Когда конкуренция между центрами обработки данных ИИ сместилась с вопроса «кто купит больше GPU» к «кто раньше получит электроэнергию», некоторые майнинговые фермы для биткоина, ранее считавшиеся волатильными активами, начали трансформироваться в центры обработки данных для облачных провайдеров, используя свои готовые возможности подключения к сети, землю и трансформаторные подстанции. По расчетам Morgan Stanley, в период 2026-2028 годов в США может возникнуть дефицит электроэнергии для ЦОДов около 38 ГВт, и модернизация старых майнинговых ферм может обеспечить от 10 до 19 ГВт. Такие компании, как TeraWulf и Hut 8, переориентируются с добычи криптовалют на предоставление инфраструктуры («Powered Shell Provider»), предлагая клиентам из сферы ИИ критически важный ресурс — возможность быстрее конкурентов развернуть значительные вычислительные мощности. Ключевой ценностью становится не вычислительная мощность для майнинга, а дефицитный доступ к электросетям, получение которого «с нуля» в некоторых регионах США теперь может занять 5-7 лет.

华尔街日报1 ч. назад

Почему биткойн-фермы внезапно стали новым входом для вычислительных мощностей ИИ на фоне дефицита электроэнергии в 38 ГВт?

华尔街日报1 ч. назад

Майкл Сэйлор: «Мы никогда не говорили, что никогда не будем продавать биткоины»

Председатель стратегической комиссии Майкл Сэйлор прокомментировал сообщения о новом разрешении компании Strategy на продажу биткоинов. Он заявил, что данное разрешение не является новым — оно было объявлено ещё 29 июня в рамках системы управления капиталом компании. Соглашение позволяет продавать BTC на сумму до 5 миллиардов долларов для определённых целей, но не обязывает компанию к продаже. Сэйлор подчеркнул, что Strategy никогда официально не брала на себя обязательство никогда не продавать свои биткоины, хотя и рассчитывает оставаться чистым покупателем BTC в долгосрочной перспективе. Он назвал текущие новости «старыми», переподанными как новые, и подтвердил, что программа монетизации биткоинов компании не предполагает обязательной продажи её активов.

cryptonews.ru2 ч. назад

Майкл Сэйлор: «Мы никогда не говорили, что никогда не будем продавать биткоины»

cryptonews.ru2 ч. назад

Торговля

Спот

Только что, китайский ИИ ворвался в мировую двойку в программировании, впереди остался только Claude

Введение

Qwen3.7-Max врывается в мировой топ-5

Единственная модель не от Claude

Программирование — невероятно мощное

«Базовая» модель эпохи Agent

Раскрытие ключевых технологий

В финал программирования добавился новый «нарушитель спокойствия»

Связанные с этим вопросы

Похожее

В результате взлома Coldcard, одного из крупнейших взломов биткоин-кошельков за последнее время, началась новая волна убытков! Убытки растут

Trump Media продаёт ещё 2628 BTC, запасы снижаются до 4261 BTC

Фуцзянь, Цзиньцзян: супер-единорог в сфере памяти тихо делает своё дело

Почему биткойн-фермы внезапно стали новым входом для вычислительных мощностей ИИ на фоне дефицита электроэнергии в 38 ГВт?

Майкл Сэйлор: «Мы никогда не говорили, что никогда не будем продавать биткоины»

Торговля

Популярные категории

Популярные теги