Baru Saja, AI China Mencapai Peringkat Dua Global dalam Pemrograman, Hanya Tinggal Claude di Depannya

marsbitDipublikasikan tanggal 2026-05-27Terakhir diperbarui pada 2026-05-27

Abstrak

Baru-baru ini, peringkat Code Arena terbaru dirilis, dengan Qwen3.7-Max dari Alibaba meraih 1541 poin dan memasuki posisi empat besar global, melampaui model-model top seperti GPT-5.5 dan Gemini 3.5 Flash. Saat ini, hanya Claude Opus 4.7 dan Opus 4.6 yang berada di depannya. Ini menjadikan Alibaba sebagai satu-satunya perusahaan China yang berada di papan atas, menempati posisi kedua setelah Anthropic. Qwen3.7-Max juga menunjukkan performa luar biasa dalam berbagai uji coba praktis. Dalam tugas membuat AI Tetris yang dapat melatih dirinya sendiri, model ini berhasil mengungguli Opus 4.7 dan GPT-5.5 dengan biaya token yang lebih rendah serta peningkatan performa 56%. Pengembang lain memujinya dalam pembuatan model 3D alam semesta dan mencatat bahwa model ini, ketika digabungkan dengan Hermes Agent dan OpenCode, berpotensi menggantikan GPT-5.5 dan Opus 4.7. Pada uji coba pembuatan game balap 3D, Qwen3.7-Max menghasilkan file HTML yang dapat langsung dimainkan hanya dengan sedikit penyesuaian bug kecil. Game ini menampilkan antarmuka start khusus dan efek suara, yang merupakan detail yang tidak dipenuhi oleh model pesaing lainnya seperti Gemini 3.5 Flash, Claude Opus 4.6, dan GPT-5.5. Kekuatan Qwen3.7-Max berasal dari posisinya sebagai model dasar (base model) yang dirancang khusus untuk Agent, mampu menjalankan tugas otonom dalam waktu lama. Data uji internal menunjukkan model ini dapat berjalan terus-menerus selama 35 jam, melakukan 1.158 panggilan alat, dan menghasilkan ko...

Hari ini, peringkat terbaru Code Arena resmi dirilis!

Qwen3.7-Max dengan skor 1541 berhasil masuk ke empat besar global, melampaui sejumlah model top seperti GPT-5.5 dan Gemini 3.5 Flash.

Di depannya, hanya tersisa Claude Opus 4.7 dan Opus 4.6.

Dengan kata lain, di arena pertandingan model pemrograman global, Alibaba adalah satu-satunya perusahaan China yang berhasil masuk ke meja permainan ini, berada di posisi kedua setelah Anthropic.

Qwen3.7-Max Masuk Lima Besar Global

Satu-satunya Model Non-Claude

Sebenarnya, sebelum peringkat Code Arena dirilis, Qwen3.7-Max sudah terkenal di kalangan developer luar negeri.

Atomic Chat melakukan perbandingan langsung, membuat Opus 4.7, GPT-5.5, dan Qwen3.7-Max bertanding, dengan tugas menulis AI Tetris yang bisa melatih dirinya sendiri.

Hasilnya, Qwen3.7-Max tidak hanya melampaui Opus 4.7 dan GPT-5.5 dengan biaya token hanya $1.32, tetapi juga meningkatkan kinerja hingga 56%.

Seorang developer luar negeri lain meminta Qwen3.7-Max membuat model 3D alam semesta, hasilnya cukup mengesankan.

Dalam tugas pembuatan "Model Pagoda Miniatur dengan Gaya Pixel 3D", kecepatan dan kualitas output Qwen3.7-Max juga sepenuhnya mengungguli yang lain.

Developer Paul Couvert bahkan memuji, setelah Qwen3.7-Max terintegrasi dengan Hermes Agent dan OpenCode, pada dasarnya dapat menggantikan GPT-5.5 dan Opus 4.7.

Pemrograman, Sangat Tangguh

Namun, skor benchmark setinggi apapun, lebih baik diuji secara langsung.

Kami memberikan Qwen3.7-Max tantangan "Game Balap" yang sulit.

Setelah dimasukkan prompt yang detail, Qwen3.7-Max langsung menghasilkan file HTML yang bisa dimainkan.

Versi pertama ada bug kecil, tombol belok A/D terbalik.

Tapi setelah penyesuaian sederhana dalam dialog putaran kedua, game balap 3D yang lengkap langsung bisa dijalankan.

Setelah dibuka, jujur, agak terkejut.

4 mobil bersaing, lintasan melingkar 3 lap, lebih dari 100 koin tersebar di trek, menabrak rintangan akan memperlambat dan kehilangan kendali.

Panel skor setelah balapan, peringkat, waktu, jumlah koin, putaran tercepat, semuanya ada.

Tapi yang benar-benar mengejutkan adalah dua detail yang hanya dilakukan oleh Qwen3.7-Max.

Satu adalah layar awal. Setelah menguji keempat model secara horizontal, hanya dia yang membuat halaman awal yang layak untuk game, klik "Start" baru masuk ke pertandingan. Tiga lainnya langsung berjalan begitu dibuka, bahkan tanpa layar judul.

Lainnya adalah efek suara. Di akhir prompt ada permintaan untuk menambahkan efek suara mesin dan suara mengambil koin. Dari keempat model, hanya dia yang memenuhinya, suara mesin dan denting koin sudah disiapkan.

Mari lihat performa peserta lainnya.

Visual Gemini 3.5 Flash jelas lebih sederhana satu tingkat, kurang ada kesan 3D yang nyata.

Layout UI juga bermasalah, informasi dasbor tersebar di empat sudut layar, fokus visual berantakan.

Sebaliknya, Qwen3.7-Max menempatkan indikator kunci di tengah layar, lebih sesuai dengan titik pandang alami pemain.

Efek Claude Opus 4.6, agak sulit diungkapkan.

Tidak hanya koin di lintasan sangat sedikit, tetapi juga 3 mobil AI hampir berjalan bersamaan, tanpa keacakan, seolah-olah dicopy-paste.

Terakhir adalah GPT-5.5.

Bisa dilihat, kualitas visual memang lebih baik dari dua model sebelumnya, dan lebih lancar saat dioperasikan.

Tapi entah kenapa, koin dibuat menjadi "donat" kuning...

Bentuk bukan masalah besar. Kuncinya adalah, Gemini, Claude, ChatGPT ketiganya harus memperbaiki bug beberapa kali agar semua fungsi bisa berjalan.

Hanya Qwen3.7-Max yang pada putaran pertama sudah menghasilkan sesuatu yang bisa dimainkan.

Skor benchmark mendekati, uji nyata tidak mengecewakan, harga hanya sepersekian. Kesimpulan selanjutnya, tunggu saja developer memilih dengan tindakan.

Model "Landasan" di Era Agent

Alasan mengapa Qwen3.7-Max bisa mencapai level seperti ini di arena pemrograman yang paling kompetitif, jawabannya tersembunyi dalam posisi produknya.

Beberapa hari yang lalu, saat Alibaba meluncurkan Qwen3.7-Max, memberinya label yang sangat khusus: Model Landasan Agent.

Dia memang dirancang untuk model yang dapat menjalankan tugas secara mandiri dalam waktu lama.

Data uji internal menunjukkan, dalam satu tugas pemrograman mandiri, Qwen3.7-Max berjalan terus menerus selama 35 jam, melakukan 1158 kali pemanggilan alat.

Kode yang dihasilkan akhirnya mencapai percepatan rata-rata geometrik 10 kali lipat yang menakjubkan dibandingkan implementasi referensi Triton.

Yang lebih mengesankan adalah kemampuan "perang berkepanjangan"-nya —

Setelah deduksi berjalan lebih dari 30 jam, model tetap tajam, terus menemukan ruang optimasi baru.

Sepanjang proses, nol degradasi konteks, nol pergeseran instruksi, nol perulangan tak berujung!

Harus diakui, kesulitannya bukan pada 1000 kali pemanggilan alat itu sendiri. Setelah protokol MCP diperluas, memanggil alat 1000 kali bukan hal aneh.

Kesulitannya terletak pada penalaran koheren selama 35 jam.

Sebagian besar model akan gagal dalam tugas panjang: konteks semakin menumpuk dan kacau, tujuan yang ditetapkan di awal terlupakan di belakang; atau masuk ke perulangan tak berujung, berulang kali mencoba solusi yang sama yang gagal.

Qwen3.7-Max berhasil mewujudkan hal "terus melakukan hal yang benar".

Mengungkap Teknologi Inti

Lompatan pemrograman Qwen3.7-Max ini, kami pahami mungkin terkait dengan peningkatan dua metode pelatihan.

Pertama adalah, ekstensi lingkungan.

Saat melakukan pelatihan pemrograman, setiap tugas di Qwen3.7-Max dipecah menjadi tiga dimensi independen: tugas itu sendiri, kerangka kerja eksekusi, dan cara verifikasi, ketiganya dapat dikombinasikan secara bebas.

Soal yang sama, kadang-kadang dikerjakan dalam kerangka kerja Claude Code, kadang-kadang di OpenClaw, kadang-kadang dengan cara verifikasi yang berbeda.

Efeknya seperti seorang magang yang dipindahkan ke semua tim proyek. Apa yang dipelajari secara paksa adalah strategi umum untuk memecahkan masalah, bukan "bagaimana cara mencari jalan pintas dalam kerangka kerja tertentu".

Ini menjelaskan fenomena kontra-intuitif, performa Qwen3.7-Max dalam kerangka kerja Claude Code, OpenClaw, dan Qwen Code sangat stabil, tidak ada situasi "sangat kuat di kerangka kerja sendiri, tetapi buruk saat berganti".

Peningkatan kedua adalah, eksekusi mandiri jarak jauh.

Dalam pelatihan, tim memperkenalkan kerangka kerja "permainan akumulatif dinamis".

Artinya, model membuat lebih dari seribu keputusan berurutan dalam lingkungan simulasi yang terus berubah, membangun hipotesis sendiri, menyesuaikan strategi berdasarkan umpan balik, dan tidak boleh mengalami "pembusukan konteks" karena berjalan terlalu lama.

Ada data intuitif di sini, YC-Bench mensimulasikan operasi perusahaan startup selama setahun penuh, Qwen3.7-Max menghasilkan pendapatan $2,08 juta, dua kali lipat dari generasi sebelumnya ($1,05 juta).

Yang lebih penting adalah, dia menunjukkan evolusi strategi, dapat menyesuaikan arah secara mandiri saat menghadapi krisis di tengah jalan, mengidentifikasi dan memblokir klien jahat, dan akhirnya menyatu ke dalam siklus eksekusi yang stabil.

Inilah dukungan mendasar dari kasus optimasi kernel 35 jam, dan juga alasan mengapa di Kernel Bench L3, Qwen3.7-Max dapat menghasilkan efek percepatan pada 96% skenario.

Dan pemrograman hanyalah medan pertempuran pertama. Fondasi penalaran jarak jauh ditambah pemanggilan alat ini mengarah pada ambisi yang lebih besar — Landasan Agent Umum.

Final Pemrograman, Bertambah Satu Pengacau

Sejak diluncurkan, Code Arena selalu menguji kemampuan keras: penalaran multi-langkah, pengaturan alat, pengiriman proyek lengkap, semuanya adalah pertarungan nyata tingkat Agent.

Hari ini, Qwen3.7-Max dengan skor 1541 menempati posisi keempat, berada di antara Opus 4.6 Thinking dan Opus 4.6.

Di lintasan yang telah dikuasai Claude selama setengah tahun ini, dia memberikan jawabannya sendiri, model China bukan hanya pengejar, tetapi juga dapat menjadi pendefinisi.

Kompetisi model pemrograman global bukan lagi pertunjukan tunggal Silicon Valley.

Referensi:

https://arena.ai/leaderboard/code/webdev

Artikel ini berasal dari akun WeChat "新智元", penulis: ASI启示录

Pertanyaan Terkait

QModel AI mana yang menempati posisi kedua di dunia dalam pemrograman menurut artikel ini?

AModel AI Qwen3.7-Max dari Alibaba menempati posisi kedua di dunia dalam pemrograman, di bawah model Claude dari Anthropic.

QApa yang membuat Qwen3.7-Max unggul dalam tantangan membuat game balap 3D dibandingkan model lain?

AQwen3.7-Max unggul karena dapat menghasilkan game yang dapat dimainkan dalam satu putaran, menambahkan halaman mulai dan efek suara sesuai permintaan, serta mengatur UI dengan lebih baik dibandingkan Gemini, Claude, dan GPT.

QApa label khusus yang diberikan Alibaba kepada Qwen3.7-Max dan mengapa?

AAlibaba memberi label Qwen3.7-Max sebagai "Model Dasar (Base) Agen" karena dirancang khusus untuk mengeksekusi tugas secara otonom dalam waktu yang lama, seperti yang dibuktikan dengan menjalankan tugas pemrograman selama 35 jam tanpa degradasi konteks.

QMetode pelatihan apa yang disebutkan sebagai kunci peningkatan kemampuan pemrograman Qwen3.7-Max?

ADua metode pelatihan kunci adalah: 1) Perluasan Lingkungan (Environment Expansion), yaitu melatih model dalam berbagai kombinasi tugas, kerangka kerja, dan metode verifikasi. 2) Eksekusi Otonom Jarak Jauh (Long-range Autonomous Execution), melatih model untuk pengambilan keputusan berkelanjutan dalam lingkungan yang dinamis.

QDi platform Code Arena, berapa skor yang dicapai Qwen3.7-Max dan peringkat berapa yang diraihnya?

ADi platform Code Arena, Qwen3.7-Max mencapai skor 1541 dan menempati peringkat keempat secara global, yang juga merupakan posisi kedua di antara model non-Claude.

Bacaan Terkait

Dari Keuangan Paralel Menuju Arus Utama, Era Sekuritas On-Chain Menyambut Jendela Sejarah

Penulis: Climber, CryptoPulse Labs Selama lebih dari satu dekade, industri kripto berkembang sebagai eksperimen keuangan terpisah dari dunia nyata, dengan ekosistemnya sendiri mulai dari Bitcoin, ICO, hingga DeFi, NFT, dan aset turunan. Namun, tetap ada dinding pemisah antara dunia kripto dan sistem keuangan tradisional. Kini, dinding itu mulai runtuh. Regulator seperti CFTC dan SEC AS mulai membuka jalan bagi aset sekuritas untuk masuk ke rantai blok (on-chain). Peristiwa seperti rencana IPO SpaceX menunjukkan bahwa aset-aset global terbaik mungkin segera menemukan cara distribusi baru di dunia digital. Jika sebelumnya industri kripto berfokus pada evolusi internal—seperti peningkatan infrastruktur, perang *public chain*, dan aset digital—maka tahap berikutnya adalah integrasi dengan keuangan dunia nyata. *Exchange-traded fund* (ETF) Bitcoin adalah langkah pertama, tetapi cerita yang lebih besar adalah ketika saham, obligasi, dana, dan hak pendapatan mulai di*tokenisasi* dan diperdagangkan di *blockchain*. Masa depan mungkin akan didominasi oleh *broker* sekuritas kripto asli yang berfungsi sebagai pintu masuk keuangan baru—menggabungkan fungsi bursa, bank, penyimpanan aset, dan penyelesaian transaksi dalam satu jaringan. Perang selanjutnya bukan lagi soal kecepatan *blockchain*, melainkan soal kualitas aset dan likuiditas. Ketika aset dunia nyata seperti saham global dan obligasi mengalir ke rantai blok, batas antara keuangan tradisional dan kripto akan memudar. Industri ini tidak lagi membangun dunia paralel, tetapi menyatu dengan sistem keuangan global yang sudah ada, membuka cerita pertumbuhan paling signifikan dalam dekade mendatang.

marsbit18m yang lalu

Dari Keuangan Paralel Menuju Arus Utama, Era Sekuritas On-Chain Menyambut Jendela Sejarah

marsbit18m yang lalu

Wang Chuan: Bagaimana Tetap Tidak Cemas Setelah Tetangga Lao Wang Mendapatkan 30 Kali Lipat Keuntungan dari Investasi Saham Penyimpanan (6) - Jebakan Barang Dagangan Homogen

Artikel ini, bagian keenam dari seri "Bagaimana Tetap Tenang Ketika Tetangga Lao Wang Mendapatkan 30x Return dari Saham Penyimpanan", membahas perangkap produk komoditas homogen di industri penyimpanan data. Penulis memulai dengan contoh Iomega (dengan produk Zip Drive) pada 1990-an, yang sahamnya meroket 160x dalam 1,5 tahun hanya untuk kemudian jatuh 97% dari puncaknya. Kisah ini menggambarkan bagaimana euforia spekulatif sering berakhir dengan keruntuhan di sektor ini. Inti masalahnya adalah sifat dasar industri penyimpanan: **permintaan yang elastis berhadapan dengan pasokan yang kaku, berat aset, dan berjangka panjang**. Produk seperti DRAM dan flash memory sangat homogen, tanpa premi merek, sehingga harganya sangat fluktuatif berdasarkan pasokan global. Sejarah mencatat banyak kali harga DRAM anjlok lebih dari 80%, dan saham perusahaan penyimpanan bisa jatuh 95% atau bahkan bangkrut. Artikel ini menganalisis kenaikan dramatis saham penyimpanan sekitar September 2025, yang dipicu lonjakan permintaan HBM untuk chip AI. Produsen, belajar dari siklus sebelumnya, menahan ekspansi kapasitas, menyebabkan harga dan margin melonjak (contoh: margin kotor Sandisk dari 22.5% ke 78.3%). Namun, **margin tinggi justru akan menghancurkan dirinya sendiri**. Harga tinggi mengurangi permintaan marjinal dan mendorong investasi besar-besaran dalam kapasitas baru (mulai 2026), yang diperkirakan online pada 2027. Saat pasokan baru membanjiri pasar, harga dan profitabilitas akan kembali normal—bisa menyebabkan situasi paradoks di mana penjualan volume naik tetapi pendapatan dan laba turun. Penulis juga menyoroti beberapa ilusi: 1. **Perjanjian jangka panjang (LTA)** antara produsen dan pembeli dianggap rapuh. Ketika kondisi pasar berubah, pihak yang lebih kuat akan mencari celah untuk menegosiasikan ulang harga, mirip dengan "perjanjian non-agresi" yang mudah dilanggar. 2. **Jebakan valuasi**: Pada puncak siklus, laba perusahaan tinggi tetapi PER sahamnya rendah (misal, satu digit), terlihat seperti investasi bernilai. Namun, ini justru periode risiko terbesar karena laba tersebut bisa menyusut atau hilang begitu harga komoditas jatuh. Kesimpulannya, risiko penurunan harga penyimpanan saat ini sangat asimetris dibandingkan potensi kenaikan lebih lanjut. Berbagai faktor seperti resesi, pemotongan pengeluaran AI, ekspansi kapasitas yang agresif (terutama dari produsen China), atau terobosan teknologi yang mengurangi kebutuhan memori, dapat dengan cepat mengubah keseimbangan pasar. Investor perlu sangat berhati-hati terhadap siklus boom-and-bust yang kejam di industri komoditas homogen ini.

marsbit26m yang lalu

Wang Chuan: Bagaimana Tetap Tidak Cemas Setelah Tetangga Lao Wang Mendapatkan 30 Kali Lipat Keuntungan dari Investasi Saham Penyimpanan (6) - Jebakan Barang Dagangan Homogen

marsbit26m yang lalu

Wang Chuan: Bagaimana Tidak Cemas Ketika Tetangga Si Lao Wang Mendapatkan Untung Tiga Puluh Kali Lipat dari Investasi Saham Penyimpanan (6) - Perangkap Barang Homogen

**Ringkasan: Perangkap Barang Komoditas Homogen di Industri Penyimpanan** Artikel ini membahas sifat siklus yang berbahaya dan risiko tinggi dalam berinvestasi di saham perusahaan penyimpanan data, menggunakan contoh sejarah seperti Iomega. Inti masalahnya terletak pada **sifat komoditas yang homogen**: produk seperti DRAM dan flash memory sangat mirip, tanpa keunggulan merek, sehingga harganya sangat fluktuatif berdasarkan penawaran dan permintaan global. Polanya selalu sama: permintaan yang elastis (dapat menurun jika harga terlalu tinggi) berhadapan dengan pasokan yang kaku dan membutuhkan investasi besar serta waktu lama untuk dikembangkan. Saat permintaan tiba-tiba melonjak (misalnya, karena ledakan AI), pasokan yang terbatas mendorong harga naik drastis, menghasilkan margin keuntungan yang sangat tinggi bagi produsen seperti Micron dan Sandisk. Namun, **margin tinggi inilah yang akhirnya menghancurkan dirinya sendiri**. Perusahaan akan berinvestasi besar-besaran untuk menambah kapasitas, dan ketika pasokan baru membanjiri pasar (biasanya 18+ bulan kemudian), harga akan anjlok tajam. Saham bisa kehilangan 95% nilainya atau bahkan bangkrut, seperti yang terjadi pada Mostek, Qimonda, dan lainnya. Penulis memperingatkan beberapa jebakan kritis: 1. **Jebakan P/E Rendah**: Pada puncak siklus, laba tinggi membuat rasio P/E saham tampak rendah dan menarik bagi investor nilai. Namun, ini justru saat yang paling berbahaya karena keuntungan itu bisa cepat menguap. 2. **Ilusi Perjanjian Jangka Panjang (LTA)**: Perjanjian untuk mengunci harga dengan pembeli besar sering kali rapuh. Ketika harga spot turun di bawah harga LTA, pembeli akan mencari celah atau menekan pemasok, membuat perlindungan itu sia-sia. 3. **Risiko Asimetris**: Banyak faktor yang dapat dengan cepat mengubah keseimbangan: resesi, pengurangan pengeluaran AI, kecepatan ekspansi kapasitas (terutama dari produsen China), atau terobosan teknologi yang mengurangi kebutuhan memori. Risiko penurunan harga jauh lebih besar daripada potensi kenaikan lebih lanjut. Kesimpulannya, industri penyimpanan adalah "pembakar kekayaan" bagi investor yang tidak waspada. Kesuksesan spektakuler seperti kenaikan 160x saham Iomega bersifat sementara dan sering diikuti oleh kehancuran. Kunci untuk tidak cemas adalah memahami sifat siklus yang kejam ini dan menghindari godaan untuk membeli pada saat margin keuntungan dan optimisme mencapai puncaknya.

链捕手45m yang lalu

Wang Chuan: Bagaimana Tidak Cemas Ketika Tetangga Si Lao Wang Mendapatkan Untung Tiga Puluh Kali Lipat dari Investasi Saham Penyimpanan (6) - Perangkap Barang Homogen

链捕手45m yang lalu

AI PC Tiba, Bentrok Lokal dengan Model Besar 120B! NVIDIA Redefinisikan Dasar "PC AI Pribadi" dengan RTX Spark

Dalam acara GTC 2026, NVIDIA memperkenalkan SoC RTX Spark, yang membawa standar baru untuk "PC AI pribadi" dengan komputasi AI 1 petaflop (1000 TOPS), jauh melampaui NPU 45-50 TOPS pada AI PC generasi sebelumnya. Chip ini mengintegrasikan GPU arsitektur Blackwell dengan 6144 inti CUDA dan CPU Arm 20-inti dari MediaTek, menggunakan memori terpadu hingga 128GB. Desain ini memungkinkan CPU dan GPU berbagi kumpulan memori yang sama, menghilangkan hambatan transfer data dan mendukung model besar hingga 120B parameter berjalan secara lokal. Microsoft berkolaborasi dengan NVIDIA untuk meningkatkan mekanisme keamanan asli Windows dan memperkenalkan runtime sandbox open-source OpenShell, memberikan lapisan isolasi penting untuk agen AI lokal. Adobe juga mengumumkan pengembangan ulang mendasar untuk Photoshop dan Premiere guna mengoptimalkan arsitektur memori terpadu RTX Spark, yang diklaim dapat meningkatkan kinerja hingga dua kali lipat. Enam OEM utama termasuk ASUS, Dell, HP, Lenovo, Microsoft Surface, dan MSI akan merilis laptop tipis dan desktop kompak dengan RTX Spark pada musim gugur tahun ini. Meskipun demikian, detail seperti harga, efisiensi daya, dan performa nyata dalam skenario non-AI masih perlu dikonfirmasi setelah produk diluncurkan. Kehadiran RTX Spark menandai pergeseran potensial dalam industri PC menuju platform SoC yang berpusat pada GPU.

marsbit58m yang lalu

AI PC Tiba, Bentrok Lokal dengan Model Besar 120B! NVIDIA Redefinisikan Dasar "PC AI Pribadi" dengan RTX Spark

marsbit58m yang lalu

Trading

Spot
Futures
活动图片