Vừa qua, AI Trung Quốc lọt vào top 2 lập trình toàn cầu, chỉ còn Claude phía trước
Hôm nay, Code Arena công bố bảng xếp hạng mới nhất. Qwen3.7-Max của Alibaba đạt 1541 điểm, lọt vào top 4 toàn cầu, vượt qua các mô hình hàng đầu như GPT-5.5 và Gemini 3.5 Flash. Hiện chỉ có Claude Opus 4.7 và Opus 4.6 xếp trên nó. Điều này giúp Alibaba trở thành công ty Trung Quốc duy nhất trong top đầu, đứng thứ hai thế giới, chỉ sau Anthropic.
Qwen3.7-Max được mệnh danh là "mô hình nền tảng cho Agent", được thiết kế để thực hiện các nhiệm vụ tự chủ dài hạn. Trong một thử nghiệm, nó có thể chạy liên tục 35 giờ, thực hiện 1158 lần gọi công cụ để tối ưu hóa mã, đạt tốc độ tăng trung bình gấp 10 lần.
Khả năng lập trình vượt trội của nó được chứng minh qua các thử nghiệm thực tế. Khi được yêu cầu tạo một trò chơi đua xe 3D, Qwen3.7-Max tạo ra một phiên bản có thể chơi được ngay lần đầu, bao gồm giao diện bắt đầu và hiệu ứng âm thanh - những chi tiết mà các mô hình khác như Gemini, Claude hay ChatGPT bỏ sót hoặc cần nhiều lần sửa lỗi.
Hai yếu tố then chốt giúp Qwen3.7-Max đạt được thành tích này là: 1) Đào tạo mở rộng môi trường, giúp mô hình học các chiến lược tổng quát thay vì chỉ hoạt động tốt trong một framework cụ thể; 2) Khả năng thực thi tự chủ dài hạn, cho phép nó đưa ra hàng nghìn quyết định liên tục mà không bị suy giảm ngữ cảnh hay rơi vào vòng lặp.
Với việc Qwen3.7-Max gia nhập cuộc đua, cuộc cạnh tranh về mô hình lập trình toàn cầu không còn là câu chuyện độc quyền của Thung lũng Silicon.
marsbit05/27 00:19