Phía sau bảng điểm AI, ẩn giấu một "người ra đề" người Hoa
Bài viết này giới thiệu Giáo sư Văn Hổ Trần (Chen Wenhu), một nhà khoa học máy tính người Hoa hiện công tác tại Đại học Waterloo, Canada, và là người đứng sau các bộ đánh giá tiêu chuẩn quan trọng trong ngành AI như MMLU-Pro, MMMU và MMMU-Pro.
Khi các mô hình AI tiên tiến như GPT-4, Claude hay Gemini đạt điểm số gần tuyệt đối trên các bài kiểm tra cũ như MMLU, cộng đồng cần một thước đo mới để phân biệt khả năng thực sự. Năm 2024, nhóm của Giáo sư Văn Hổ Trần tại Phòng thí nghiệm TIGER (còn gọi là Hổ Đầu Bang) đã phát triển MMLU-Pro. Bộ dữ liệu mới này với hơn 12.000 câu hỏi đã mở rộng lựa chọn, tăng cường các câu hỏi suy luận và loại bỏ những câu đơn giản, giúp giảm đáng kể điểm số của các mô hình và đánh giá ổn định hơn.
Ông cũng là tác giả chính của MMMU - bộ tiêu chuẩn đánh giá đa phương thức (multimodal) đầu tiên yêu cầu mô hình kết hợp hiểu biết hình ảnh phức tạp (biểu đồ, bản đồ, công thức) với kiến thức chuyên ngành để trả lời câu hỏi. Phiên bản nâng cấp MMMU-Pro sau đó được tạo ra để đảm bảo mô hình thực sự xử lý thông tin thị giác chứ không chỉ dựa vào văn bản.
Bài viết cho thấy công việc của Giáo sư Văn Hổ Trần bắt nguồn từ hướng nghiên cứu lâu dài về hiểu thông tin phức tạp và trả lời câu hỏi dựa trên tri thức. Kinh nghiệm thực tế của ông từ khi tham gia phát triển mô hình Gemini tại Google DeepMind và hiện tại là tại Phòng thí nghiệm Siêu Trí tuệ của Meta, cùng với việc phòng thí nghiệm của ông cũng tự phát triển các mô hình (như UniVideo, Vamba), đã giúp ông thiết kế ra những bài đánh giá sát thực tế, phát hiện đúng điểm mạnh yếu của mô hình.
Tác giả kết luận rằng trong khi sự chú ý của ngành AI thường đổ dồn vào các nhà sáng lập hay lãnh đạo nổi tiếng, thì sự đóng góp của các nhà nghiên cứu như Giáo sư Văn Hổ Trần trong việc xây dựng "ngôn ngữ chung" để đánh giá tiến bộ AI là vô cùng quan trọng.
marsbit1 giờ trước