Baru Saja, AI China Mencapai Peringkat Dua Global dalam Pemrograman, Hanya Tinggal Claude di Depannya

marsbitDipublikasikan tanggal 2026-05-27Terakhir diperbarui pada 2026-05-27

Abstrak

Baru-baru ini, peringkat Code Arena terbaru dirilis, dengan Qwen3.7-Max dari Alibaba meraih 1541 poin dan memasuki posisi empat besar global, melampaui model-model top seperti GPT-5.5 dan Gemini 3.5 Flash. Saat ini, hanya Claude Opus 4.7 dan Opus 4.6 yang berada di depannya. Ini menjadikan Alibaba sebagai satu-satunya perusahaan China yang berada di papan atas, menempati posisi kedua setelah Anthropic. Qwen3.7-Max juga menunjukkan performa luar biasa dalam berbagai uji coba praktis. Dalam tugas membuat AI Tetris yang dapat melatih dirinya sendiri, model ini berhasil mengungguli Opus 4.7 dan GPT-5.5 dengan biaya token yang lebih rendah serta peningkatan performa 56%. Pengembang lain memujinya dalam pembuatan model 3D alam semesta dan mencatat bahwa model ini, ketika digabungkan dengan Hermes Agent dan OpenCode, berpotensi menggantikan GPT-5.5 dan Opus 4.7. Pada uji coba pembuatan game balap 3D, Qwen3.7-Max menghasilkan file HTML yang dapat langsung dimainkan hanya dengan sedikit penyesuaian bug kecil. Game ini menampilkan antarmuka start khusus dan efek suara, yang merupakan detail yang tidak dipenuhi oleh model pesaing lainnya seperti Gemini 3.5 Flash, Claude Opus 4.6, dan GPT-5.5. Kekuatan Qwen3.7-Max berasal dari posisinya sebagai model dasar (base model) yang dirancang khusus untuk Agent, mampu menjalankan tugas otonom dalam waktu lama. Data uji internal menunjukkan model ini dapat berjalan terus-menerus selama 35 jam, melakukan 1.158 panggilan alat, dan menghasilkan ko...

Hari ini, peringkat terbaru Code Arena resmi dirilis!

Qwen3.7-Max dengan skor 1541 berhasil masuk ke empat besar global, melampaui sejumlah model top seperti GPT-5.5 dan Gemini 3.5 Flash.

Di depannya, hanya tersisa Claude Opus 4.7 dan Opus 4.6.

Dengan kata lain, di arena pertandingan model pemrograman global, Alibaba adalah satu-satunya perusahaan China yang berhasil masuk ke meja permainan ini, berada di posisi kedua setelah Anthropic.

Qwen3.7-Max Masuk Lima Besar Global

Satu-satunya Model Non-Claude

Sebenarnya, sebelum peringkat Code Arena dirilis, Qwen3.7-Max sudah terkenal di kalangan developer luar negeri.

Atomic Chat melakukan perbandingan langsung, membuat Opus 4.7, GPT-5.5, dan Qwen3.7-Max bertanding, dengan tugas menulis AI Tetris yang bisa melatih dirinya sendiri.

Hasilnya, Qwen3.7-Max tidak hanya melampaui Opus 4.7 dan GPT-5.5 dengan biaya token hanya $1.32, tetapi juga meningkatkan kinerja hingga 56%.

Seorang developer luar negeri lain meminta Qwen3.7-Max membuat model 3D alam semesta, hasilnya cukup mengesankan.

Dalam tugas pembuatan "Model Pagoda Miniatur dengan Gaya Pixel 3D", kecepatan dan kualitas output Qwen3.7-Max juga sepenuhnya mengungguli yang lain.

Developer Paul Couvert bahkan memuji, setelah Qwen3.7-Max terintegrasi dengan Hermes Agent dan OpenCode, pada dasarnya dapat menggantikan GPT-5.5 dan Opus 4.7.

Pemrograman, Sangat Tangguh

Namun, skor benchmark setinggi apapun, lebih baik diuji secara langsung.

Kami memberikan Qwen3.7-Max tantangan "Game Balap" yang sulit.

Setelah dimasukkan prompt yang detail, Qwen3.7-Max langsung menghasilkan file HTML yang bisa dimainkan.

Versi pertama ada bug kecil, tombol belok A/D terbalik.

Tapi setelah penyesuaian sederhana dalam dialog putaran kedua, game balap 3D yang lengkap langsung bisa dijalankan.

Setelah dibuka, jujur, agak terkejut.

4 mobil bersaing, lintasan melingkar 3 lap, lebih dari 100 koin tersebar di trek, menabrak rintangan akan memperlambat dan kehilangan kendali.

Panel skor setelah balapan, peringkat, waktu, jumlah koin, putaran tercepat, semuanya ada.

Tapi yang benar-benar mengejutkan adalah dua detail yang hanya dilakukan oleh Qwen3.7-Max.

Satu adalah layar awal. Setelah menguji keempat model secara horizontal, hanya dia yang membuat halaman awal yang layak untuk game, klik "Start" baru masuk ke pertandingan. Tiga lainnya langsung berjalan begitu dibuka, bahkan tanpa layar judul.

Lainnya adalah efek suara. Di akhir prompt ada permintaan untuk menambahkan efek suara mesin dan suara mengambil koin. Dari keempat model, hanya dia yang memenuhinya, suara mesin dan denting koin sudah disiapkan.

Mari lihat performa peserta lainnya.

Visual Gemini 3.5 Flash jelas lebih sederhana satu tingkat, kurang ada kesan 3D yang nyata.

Layout UI juga bermasalah, informasi dasbor tersebar di empat sudut layar, fokus visual berantakan.

Sebaliknya, Qwen3.7-Max menempatkan indikator kunci di tengah layar, lebih sesuai dengan titik pandang alami pemain.

Efek Claude Opus 4.6, agak sulit diungkapkan.

Tidak hanya koin di lintasan sangat sedikit, tetapi juga 3 mobil AI hampir berjalan bersamaan, tanpa keacakan, seolah-olah dicopy-paste.

Terakhir adalah GPT-5.5.

Bisa dilihat, kualitas visual memang lebih baik dari dua model sebelumnya, dan lebih lancar saat dioperasikan.

Tapi entah kenapa, koin dibuat menjadi "donat" kuning...

Bentuk bukan masalah besar. Kuncinya adalah, Gemini, Claude, ChatGPT ketiganya harus memperbaiki bug beberapa kali agar semua fungsi bisa berjalan.

Hanya Qwen3.7-Max yang pada putaran pertama sudah menghasilkan sesuatu yang bisa dimainkan.

Skor benchmark mendekati, uji nyata tidak mengecewakan, harga hanya sepersekian. Kesimpulan selanjutnya, tunggu saja developer memilih dengan tindakan.

Model "Landasan" di Era Agent

Alasan mengapa Qwen3.7-Max bisa mencapai level seperti ini di arena pemrograman yang paling kompetitif, jawabannya tersembunyi dalam posisi produknya.

Beberapa hari yang lalu, saat Alibaba meluncurkan Qwen3.7-Max, memberinya label yang sangat khusus: Model Landasan Agent.

Dia memang dirancang untuk model yang dapat menjalankan tugas secara mandiri dalam waktu lama.

Data uji internal menunjukkan, dalam satu tugas pemrograman mandiri, Qwen3.7-Max berjalan terus menerus selama 35 jam, melakukan 1158 kali pemanggilan alat.

Kode yang dihasilkan akhirnya mencapai percepatan rata-rata geometrik 10 kali lipat yang menakjubkan dibandingkan implementasi referensi Triton.

Yang lebih mengesankan adalah kemampuan "perang berkepanjangan"-nya —

Setelah deduksi berjalan lebih dari 30 jam, model tetap tajam, terus menemukan ruang optimasi baru.

Sepanjang proses, nol degradasi konteks, nol pergeseran instruksi, nol perulangan tak berujung!

Harus diakui, kesulitannya bukan pada 1000 kali pemanggilan alat itu sendiri. Setelah protokol MCP diperluas, memanggil alat 1000 kali bukan hal aneh.

Kesulitannya terletak pada penalaran koheren selama 35 jam.

Sebagian besar model akan gagal dalam tugas panjang: konteks semakin menumpuk dan kacau, tujuan yang ditetapkan di awal terlupakan di belakang; atau masuk ke perulangan tak berujung, berulang kali mencoba solusi yang sama yang gagal.

Qwen3.7-Max berhasil mewujudkan hal "terus melakukan hal yang benar".

Mengungkap Teknologi Inti

Lompatan pemrograman Qwen3.7-Max ini, kami pahami mungkin terkait dengan peningkatan dua metode pelatihan.

Pertama adalah, ekstensi lingkungan.

Saat melakukan pelatihan pemrograman, setiap tugas di Qwen3.7-Max dipecah menjadi tiga dimensi independen: tugas itu sendiri, kerangka kerja eksekusi, dan cara verifikasi, ketiganya dapat dikombinasikan secara bebas.

Soal yang sama, kadang-kadang dikerjakan dalam kerangka kerja Claude Code, kadang-kadang di OpenClaw, kadang-kadang dengan cara verifikasi yang berbeda.

Efeknya seperti seorang magang yang dipindahkan ke semua tim proyek. Apa yang dipelajari secara paksa adalah strategi umum untuk memecahkan masalah, bukan "bagaimana cara mencari jalan pintas dalam kerangka kerja tertentu".

Ini menjelaskan fenomena kontra-intuitif, performa Qwen3.7-Max dalam kerangka kerja Claude Code, OpenClaw, dan Qwen Code sangat stabil, tidak ada situasi "sangat kuat di kerangka kerja sendiri, tetapi buruk saat berganti".

Peningkatan kedua adalah, eksekusi mandiri jarak jauh.

Dalam pelatihan, tim memperkenalkan kerangka kerja "permainan akumulatif dinamis".

Artinya, model membuat lebih dari seribu keputusan berurutan dalam lingkungan simulasi yang terus berubah, membangun hipotesis sendiri, menyesuaikan strategi berdasarkan umpan balik, dan tidak boleh mengalami "pembusukan konteks" karena berjalan terlalu lama.

Ada data intuitif di sini, YC-Bench mensimulasikan operasi perusahaan startup selama setahun penuh, Qwen3.7-Max menghasilkan pendapatan $2,08 juta, dua kali lipat dari generasi sebelumnya ($1,05 juta).

Yang lebih penting adalah, dia menunjukkan evolusi strategi, dapat menyesuaikan arah secara mandiri saat menghadapi krisis di tengah jalan, mengidentifikasi dan memblokir klien jahat, dan akhirnya menyatu ke dalam siklus eksekusi yang stabil.

Inilah dukungan mendasar dari kasus optimasi kernel 35 jam, dan juga alasan mengapa di Kernel Bench L3, Qwen3.7-Max dapat menghasilkan efek percepatan pada 96% skenario.

Dan pemrograman hanyalah medan pertempuran pertama. Fondasi penalaran jarak jauh ditambah pemanggilan alat ini mengarah pada ambisi yang lebih besar — Landasan Agent Umum.

Final Pemrograman, Bertambah Satu Pengacau

Sejak diluncurkan, Code Arena selalu menguji kemampuan keras: penalaran multi-langkah, pengaturan alat, pengiriman proyek lengkap, semuanya adalah pertarungan nyata tingkat Agent.

Hari ini, Qwen3.7-Max dengan skor 1541 menempati posisi keempat, berada di antara Opus 4.6 Thinking dan Opus 4.6.

Di lintasan yang telah dikuasai Claude selama setengah tahun ini, dia memberikan jawabannya sendiri, model China bukan hanya pengejar, tetapi juga dapat menjadi pendefinisi.

Kompetisi model pemrograman global bukan lagi pertunjukan tunggal Silicon Valley.

Referensi:

https://arena.ai/leaderboard/code/webdev

Artikel ini berasal dari akun WeChat "新智元", penulis: ASI启示录

Pertanyaan Terkait

QModel AI mana yang menempati posisi kedua di dunia dalam pemrograman menurut artikel ini?

AModel AI Qwen3.7-Max dari Alibaba menempati posisi kedua di dunia dalam pemrograman, di bawah model Claude dari Anthropic.

QApa yang membuat Qwen3.7-Max unggul dalam tantangan membuat game balap 3D dibandingkan model lain?

AQwen3.7-Max unggul karena dapat menghasilkan game yang dapat dimainkan dalam satu putaran, menambahkan halaman mulai dan efek suara sesuai permintaan, serta mengatur UI dengan lebih baik dibandingkan Gemini, Claude, dan GPT.

QApa label khusus yang diberikan Alibaba kepada Qwen3.7-Max dan mengapa?

AAlibaba memberi label Qwen3.7-Max sebagai "Model Dasar (Base) Agen" karena dirancang khusus untuk mengeksekusi tugas secara otonom dalam waktu yang lama, seperti yang dibuktikan dengan menjalankan tugas pemrograman selama 35 jam tanpa degradasi konteks.

QMetode pelatihan apa yang disebutkan sebagai kunci peningkatan kemampuan pemrograman Qwen3.7-Max?

ADua metode pelatihan kunci adalah: 1) Perluasan Lingkungan (Environment Expansion), yaitu melatih model dalam berbagai kombinasi tugas, kerangka kerja, dan metode verifikasi. 2) Eksekusi Otonom Jarak Jauh (Long-range Autonomous Execution), melatih model untuk pengambilan keputusan berkelanjutan dalam lingkungan yang dinamis.

QDi platform Code Arena, berapa skor yang dicapai Qwen3.7-Max dan peringkat berapa yang diraihnya?

ADi platform Code Arena, Qwen3.7-Max mencapai skor 1541 dan menempati peringkat keempat secara global, yang juga merupakan posisi kedua di antara model non-Claude.

Bacaan Terkait

Model Generatif Bisa Dilatih End-to-End? Intinya Hanya Sebuah For Loop

Model generatif seperti model difusi atau autoregresif yang dominan saat ini biasanya tidak melatih seluruh proses generasi secara end-to-end. Mereka dilatih hanya untuk memprediksi satu "langkah kecil" dalam proses, namun saat inferensi, langkah ini harus diulang ratusan atau ribuan kali. Ketidaksesuaian ini menyebabkan masalah "exposure bias," di mana kesalahan menumpuk seiring waktu. Makalah terbaru dari UIUC dan Harvard memperkenalkan paradigma baru bernama **Explorative Modeling (XM)**. Inti dari metode ini sangat sederhana: alih-alih menghasilkan satu sampel, model menghasilkan **K kandidat** dalam setiap langkah pelatihan. Kemudian, hanya kandidat yang paling dekat dengan data target yang dipilih untuk menghitung gradien dan memperbarui model. Mengapa ini berhasil? Dalam tugas generatif, satu input bisa memiliki banyak output yang valid (mode). Fungsi kerugian rekonstruksi tradisional cenderung menyebabkan "mode blurring," di mana model hanya mempelajari rata-rata dari semua mode, menghasilkan output yang tidak realistis. Dengan menghasilkan beberapa kandidat, model dapat "mengeksplorasi" dan menangkap beberapa mode yang berbeda sekaligus, sehingga menghindari rata-rata yang kabur. Penelitian ini menunjukkan bahwa **"eksplorasi" (K) bertindak sebagai sumbu penskalaan ketiga** yang efektif, selain parameter dan data. Eksperimen pada gambar, video, dan bahasa menunjukkan peningkatan kinerja yang monoton dengan peningkatan K, dengan keuntungan yang lebih besar pada skala yang lebih besar. XM dapat meningkatkan efisiensi FLOP hingga 4.1x dan efisiensi sampel hingga 6.2x. Yang lebih menarik, ketika diterapkan secara ekstrem, XM memungkinkan **pelatihan generatif yang benar-benar end-to-end**. Dalam tugas kontrol robot, "Explorative Policy" berbasis XM mencapai kinerja yang setara dengan "Diffusion Policy" yang membutuhkan 100 langkah inferensi, sementara hanya membutuhkan satu langkah inferensi maju. Ini membuktikan bahwa kompleksitas untuk menangani banyak mode dapat dipindahkan dari inferensi ke pelatihan. Meskipun ide "best-of-K" bukan hal baru, kontribusi utama makalah ini adalah penjelasan teoritis bahwa mekanisme ini secara langsung meningkatkan **ekspresivitas generatif** model. Dengan demikian, ini menawarkan cara baru yang ampuh untuk mengatasi tantangan mendasar dalam pemodelan generatif.

marsbit4m yang lalu

Model Generatif Bisa Dilatih End-to-End? Intinya Hanya Sebuah For Loop

marsbit4m yang lalu

Upbit Rebalance 864B SHIB dalam Pergerakan Wallet Internal

Bursa Korea Selatan Upbit melakukan penataan ulang 864 miliar SHIB di antara alamat dompet internalnya, menciptakan pergerakan rantai-blok besar senilai sekitar $4 juta. Pergerakan ini melibatkan transfer 384 miliar SHIB keluar dari dompet panas dan 480 miliar SHIB kembali ke dompet yang sama, tampaknya sebagai bagian dari operasi penyeimbangan kembali (rebalancing) dompet rutin, bukan pelepasan atau penjualan aset oleh bursa. Aktivitas ini terjadi setelah SHIB mengalami reli harga 36%, yang membuatnya lebih mencolok dan ditanggapi dengan sensitif oleh pedagang. Namun, karena perpindahan terjadi antara alamat yang diketahui milik Upbit sendiri, hal ini tidak secara langsung mengubah pasokan di pasar. Artikel ini menekankan pentingnya konteks dan pelabelan dompet yang tepat dalam menafsirkan data on-chain, agar pergerakan besar tidak disalahartikan sebagai sinyal jual atau aksi "paus" yang dapat menyesatkan narasi pasar.

bitcoinist6m yang lalu

Upbit Rebalance 864B SHIB dalam Pergerakan Wallet Internal

bitcoinist6m yang lalu

Maksimal 20 Makalah Per Orang? Aturan Baru ICLR Ditanggapi dengan "Petisi Sarkas" dari Peneliti DeepMind

Apakah ada batas yang wajar untuk jumlah makalah yang dapat disertakan seorang penulis di konferensi AI top? ICLR 2027 memberlakukan aturan baru: maksimal 20 makalah per penulis. Aturan ini dirancang untuk meringankan tekanan pada sistem peninjauan, terutama setelah ICLR 2026 mengalami lonjakan 68% dalam jumlah pengajuan hingga 19.525 makalah. Peraturan ini langsung memicu perdebatan. Dan Roy, seorang peneliti dari Google DeepMind, meluncurkan petisi satir di platform X yang menyerukan pencabutan batas 20 makalah tersebut. Dalam petisinya, dia secara ironis berargumen bahwa batasan ini akan "memperlambat kemajuan AI," terutama di era di mana AI Agent dapat menghasilkan banyak penelitian dan model bahasa besar (LLM) sudah digunakan untuk meninjau makalah. Sindirannya menyoroti kekhawatiran nyata tentang kualitas penelitian dan peninjauan. Poin utamanya adalah: dengan maraknya penggunaan AI untuk menulis dan meninjau makalah, apakah solusinya hanya membatasi jumlah pengajuan? ICLR mendorong ilmu "lebih lambat" dan lebih matang, sementara dinamika saat ini berisiko membanjiri sistem dengan makalah inkremental. Petisi Roy, meski sarkastik, mendorong komunitas untuk merenungkan inti permasalahan ini.

marsbit10m yang lalu

Maksimal 20 Makalah Per Orang? Aturan Baru ICLR Ditanggapi dengan "Petisi Sarkas" dari Peneliti DeepMind

marsbit10m yang lalu

Celah Keamanan Coldcard Picu Pencurian Senilai $89 Juta, Picu Migrasi On-Chain Terbesar Setelah FTX

Kerusakan pada dompet perangkat keras Coldcard mengakibatkan pencurian Bitcoin senilai sekitar $89 juta, memicu migrasi aset besar-besaran di blockchain terbesar sejak runtuhnya FTX. Menurut Galaxy Research, 1.367,05 BTC dicuri dari 4.585 alamat dalam tiga gelombang serangan yang menargetkan dompet dengan frasa pemulihan (seed phrase) yang lemah akibat cacat perangkat lunak. Insiden ini menyebabkan gangguan signifikan pada indikator rantai Bitcoin. Pengguna yang terdampak berbondong-bondong memindahkan aset mereka ke dompet baru yang aman, menyebabkan lonjakan ekstrem dalam aktivitas alamat aktif dan volume transaksi kecil. CryptoQuant mencatat puncak baru dalam transaksi berukuran di bawah 1 BTC dan peningkatan drastis deposit ke bursa, sementara sentimen pasar berubah sangat bearish. Pelacakan dana curian menghadapi tantangan unik: aturan keamanan AI di AS menghambat analisis data investigasi oleh model komersial utama, memaksa peneliti seperti tim Galaxy untuk beralih ke model AI sumber terbuka dari China (seperti GLM 5.2) guna melacak aliran dana dengan cepat. Kasus ini menyoroti dilema dalam penggunaan AI untuk keamanan siber: pembatasan yang melindungi juga dapat memperlambat respons defensif terhadap kejahatan yang bergerak cepat di ruang kripto.

marsbit55m yang lalu

Celah Keamanan Coldcard Picu Pencurian Senilai $89 Juta, Picu Migrasi On-Chain Terbesar Setelah FTX

marsbit55m yang lalu

OpenAI Tidak Lagi Mengandalkan Model Termahal untuk Menghasilkan Uang

OpenAI tidak lagi mengandalkan model termahal untuk menghasilkan uang. Pada 30 Juli, perusahaan mengumumkan penyesuaian harga, menurunkan harga model GPT-5.6 Luna sebesar 80% dan Terra sebesar 20%. Yang lebih penting dari angka penurunan harga adalah pesan intinya: untuk banyak tugas, model terkuat (seperti Sol) tidak selalu diperlukan. OpenAI secara eksplisit merekomendasikan strategi di mana model mahal (Sol) menangani perencanaan dan analisis kompleks, sementara model yang lebih terjangkau (Luna) mengeksekusi tugas, menulis kode, dan menjalankan pengujian. Pergeseran ini mencerminkan perubahan industri AI dari hanya mengejar kecerdasan tertinggi menuju optimisasi biaya dan efisiensi untuk penggunaan skala besar. Anthropic juga mengikuti pola serupa dengan meluncurkan Claude Opus 5 dengan harga setengah dari model andalannya, Fable 5. Kedua raksasa Silicon Valley ini menunjukkan bahwa model flagship kini berfungsi lebih untuk nilai merek dan pembuktian teknologi, sementara model "kendaraan massal" yang lebih murah (seperti Luna, Terra, Opus) yang akan mendorong adopsi komersial luas dan menghasilkan pendapatan utama. OpenAI mengungkapkan bahwa penurunan biaya ini sebagian didorong oleh model AI (Sol) yang mengoptimalkan kode produksi dan alur kerjanya sendiri, menciptakan siklus peningkatan efisiensi yang dapat mempercepat penurunan biaya di masa depan. Intinya, kompetisi AI bergeser dari "siapa yang paling pintar" menjadi "mana yang paling bernilai". Perusahaan tidak lagi membeli satu model tunggal, tetapi merancang sistem dengan beberapa model yang cocok untuk tugas yang berbeda—mirip dengan arsitektur komputasi awan. Tujuan akhir OpenAI adalah membangun ekosistem yang mengunci alur kerja pengembang melalui volume panggilan API yang sangat besar dan biaya yang sangat rendah, sehingga menciptakan daya tarik yang kuat. Ketika AI menjadi murah dan tersebar luas seperti listrik, tertanam dalam setiap proses tanpa diperdebatkan, era sesungguhnya baru dimulai.

marsbit1j yang lalu

Trading

Spot

Baru Saja, AI China Mencapai Peringkat Dua Global dalam Pemrograman, Hanya Tinggal Claude di Depannya

Abstrak

Qwen3.7-Max Masuk Lima Besar Global

Satu-satunya Model Non-Claude

Pemrograman, Sangat Tangguh

Model "Landasan" di Era Agent

Mengungkap Teknologi Inti

Final Pemrograman, Bertambah Satu Pengacau

Pertanyaan Terkait

Bacaan Terkait

Model Generatif Bisa Dilatih End-to-End? Intinya Hanya Sebuah For Loop

Upbit Rebalance 864B SHIB dalam Pergerakan Wallet Internal

Maksimal 20 Makalah Per Orang? Aturan Baru ICLR Ditanggapi dengan "Petisi Sarkas" dari Peneliti DeepMind

Celah Keamanan Coldcard Picu Pencurian Senilai $89 Juta, Picu Migrasi On-Chain Terbesar Setelah FTX

OpenAI Tidak Lagi Mengandalkan Model Termahal untuk Menghasilkan Uang

Trading

Kategori Populer

Tag Populer