Trung Quốc xếp nhất, đuổi sát OpenAI, 'Tăng nhân quét đất' bí ẩn vọt lên top 7 toàn cầu
Một mô hình AI bí ẩn của Trung Quốc có tên MopMonk (tạm dịch: "Hòa thượng quét sân") đã đột ngột xuất hiện và xếp hạng 7 trên bảng xếp hạng toàn cầu CyberGym về đánh giá khả năng bảo mật của AI, với tỷ lệ thành công 73,1%, xếp ngay sau OpenAI và đạt điểm số cao nhất từ trước đến nay của một đội Trung Quốc.
CyberGym, được phát triển bởi UC Berkeley, là tiêu chuẩn đánh giá uy tín với 1507 lỗ hổng thực tế, yêu cầu mô hình không chỉ nhận diện mà còn phải tạo được bằng chứng khai thác (PoC) để tái tạo lỗ hổng trong môi trường thực thi khép kín. Điều này biến nó thành "thánh địa" thử thách năng lực hành động thực tế (Agent) của các AI.
MopMonk gây chú ý vì sự ẩn danh hoàn toàn, không có trang web hay thông tin nhóm phát triển. Manh mối chính cho thấy nó sử dụng mô hình nền tảng mã nguồn mở MiniMax M3 từ Thượng Hải - một mô hình mạnh về lập trình, ngữ cảnh dài và đa phương thức.
Bí quyết thành công của MopMonk được cho là nằm ở bộ khung (Harness) Agent đa tác tử được thiết kế riêng cho khai thác lỗ hổng. Nó tập trung vào ba yếu tố chính: 1) Bộ nhớ cấu trúc hóa để lưu trữ thông tin lỗ hổng, ràng buộc và bằng chứng thất bại; 2) Quá trình khai thác dựa trên bộ nhớ này, giúp thu hẹp tìm kiếm và tránh thử sai lặp lại; 3) Nhiều Agent khám phá song song, chia sẻ bộ nhớ chung để tăng hiệu quả.
Thành tích này cho thấy xu hướng cạnh tranh AI đang chuyển từ quy mô tham số sang hiệu quả thực thi của Agent. Giá trị lâu dài có thể nằm ở bộ khung Harness tinh vi - thứ có thể được tái sử dụng và cải tiến qua nhiều thế hệ mô hình nền tảng. Dù danh tính đội phát triển MopMonk vẫn là ẩn số, nhưng họ đã chứng minh một hướng đi hiệu quả: kết hợp mô hình nền tảng mạnh với kỹ thuật điều phối Agent chuyên sâu để giải quyết các nhiệm vụ phức tạp trong thế giới thực.
marsbit25 phút trước