Phía sau bảng điểm AI, ẩn giấu một 'người ra đề' gốc Hoa
Mỗi khi một mô hình AI tiên tiến ra mắt, giới công nghệ lại dõi theo những “bảng điểm” quen thuộc như MMLU-Pro, MMMU hay MMMU-Pro. Đây là các tiêu chuẩn đánh giá quan trọng giúp so sánh năng lực của các mô hình lớn như GPT, Claude hay Gemini. Tuy nhiên, ít người biết rằng đằng sau những bộ đề thi này là một nhà nghiên cứu người Hoa: Chen Wenhu (Trần Văn Hổ), trợ lý giáo sư tại Đại học Waterloo, Canada.
Ông cùng phòng thí nghiệm TIGERLab (còn gọi là Hổ Đầu Bang) đã tạo ra MMLU-Pro vào năm 2024 để giải quyết vấn đề “mất chuẩn” của bộ đánh giá MMLU cũ, khi nhiều mô hình tiên tiến đạt điểm gần tuyệt đối, khó phân biệt được sự khác biệt thực sự. MMLU-Pro với hơn 12.000 câu hỏi, mở rộng lựa chọn và tăng cường các câu đòi hỏi suy luận, đã giúp kéo giãn khoảng cách điểm số và đánh giá ổn định hơn.
Trước đó, nhóm của Chen Wenhu cũng phát triển MMMU - bộ đánh giá đa phương thức (multimodal) yêu cầu mô hình kết hợp hiểu biết hình ảnh, biểu đồ với kiến thức chuyên môn để trả lời câu hỏi. Ngay cả các mô hình mạnh nhất thời điểm đó như GPT-4V cũng chỉ đạt độ chính xác khoảng 56%. Phiên bản MMMU-Pro sau này được thiết kế để đảm bảo mô hình không thể “bỏ qua” thông tin hình ảnh mà chỉ dựa vào văn bản để đoán đáp án.
Nghiên cứu của Chen Wenhu tập trung vào việc hiểu thông tin phức tạp, hỏi đáp tri thức và suy luận. Ông từng làm việc tại Google Research và DeepMind, tham gia vào dự án Gemini, trước khi gia nhập Đại học Waterloo và thành lập TIGERLab. Phòng thí nghiệm không chỉ tạo ra các bộ đánh giá mà còn nghiên cứu phát triển mô hình, chẳng hạn trong lĩnh vực xử lý video. Hiện tại, Chen Wenhu làm việc tại Phòng thí nghiệm Siêu trí tuệ (Super Intelligent Lab) của Meta, tiếp tục tập trung vào dữ liệu huấn luyện và đánh giá đa phương thức. Công việc của ông và nhiều nhà nghiên cứu người Hoa khác đang đóng góp quan trọng vào sự phát triển chung của ngành AI, dù có thể không nằm dưới ánh đèn sân khấu.
marsbit2 ngày trước 03:53