Mỗi khi một mô hình tiên phong được phát hành, giới AI lại chú ý đến vài bảng điểm quen thuộc.
MMLU-Pro, MMMU, MMMU-Pro... Những cái tên này có thể xa lạ với người dùng thông thường, nhưng với các công ty mô hình và nhà nghiên cứu, chúng gần như đã trở thành 'môn học tiêu chuẩn'. GPT, Claude, Gemini, Llama, Qwen, DeepSeek liên tục nộp bài trên các tiêu chuẩn này.
'Lừa hay ngựa, cứ dắt ra chạy là biết', mô hình thế nào, thường cũng phải dựa vào những điểm số này để chứng minh.
Nhiều biểu đồ so sánh hiệu năng trong các buổi ra mắt mô hình, không thể thiếu chúng; một số bảng xếp hạng trên HuggingFace cũng được xây dựng dựa trên các hệ thống đánh giá này. Thậm chí có thể nói, ngành công nghiệp AI ngày nay khi thảo luận về năng lực mô hình, đang sử dụng một ngôn ngữ chung được định nghĩa bởi những tiêu chuẩn này.
Nhưng điều thú vị là, hầu như mọi người đều tập trung vào điểm số, lại rất ít người biết người ra đề là ai. Và đằng sau MMLU-Pro, MMMU và MMMU-Pro, đều có thể thấy cùng một cái tên – Chen Wenhu (Trần Văn Hổ).
Ông là trợ lý giáo sư tại Khoa Khoa học Máy tính, Đại học Waterloo, Canada, trên Google Scholar, các bài báo của ông đã được trích dẫn hơn 30,000 lần.
Ông cũng là người sáng lập 'Phòng thí nghiệm Hổ (TIGERLab)', tên đầy đủ tiếng Anh của phòng thí nghiệm này là Text and Image GEnerative Research Lab, vì trong tên có chữ 'Hổ', Chen Wenhu đã đặt cho nó một cái tên tiếng Trung rất dễ nhận biết – Hổ đầu bang.
01
Sau khi đề thi cũ mất tác dụng
Chen Wenhu được nhiều người chú ý hơn trước tiên, là vì MMLU-Pro.
MMLU từng là một trong những tiêu chuẩn đánh giá phổ biến nhất để đánh giá năng lực của mô hình ngôn ngữ lớn. Nó giống như một bài kiểm tra tổng hợp, bao phủ nhiều môn học, dùng để đo lường biểu hiện của mô hình trong các nhiệm vụ hiểu biết và suy luận kiến thức.
Trong giai đoạn đầu, bài kiểm tra này rất hữu ích. Khoảng cách giữa các mô hình có thể được phân biệt bằng điểm số, ngành công nghiệp cũng có thể thông qua nó để quan sát xem các mô hình ngôn ngữ lớn có thực sự tiến bộ hay không.
Nhưng vấn đề nhanh chóng xuất hiện.
Khi năng lực mô hình ngày càng được nâng cao, MMLU dần trở nên 'không đủ khó để kiểm tra'. Điểm số của các mô hình tiên phong ngày càng cao, khoảng cách giữa chúng ngày càng nhỏ.
Đến khi OpenAI phát hành o3, vấn đề này càng trở nên rõ ràng. Độ chính xác của o3 trên MMLU đã gần đạt 100%, các mô hình tiên phong khác cũng lần lượt đạt điểm số gần như tuyệt đối.
Nghe thì có vẻ là một tin tốt, nhưng đối với việc đánh giá, điều này lại mang ý nghĩa rắc rối.
Một đề thi nếu ai cũng có thể đạt điểm gần tuyệt đối, sẽ rất khó để tiếp tục phán đoán ai mạnh hơn, mạnh ở điểm nào. Nó vẫn có thể chứng minh mô hình đã có một số năng lực nhất định, nhưng không còn phù hợp để đo lường những tiến bộ mới nữa.
Ngành công nghiệp AI cần một đề thi khó hơn, và cũng khó bị 'qua mặt' hơn.
Năm 2024, Chen Wenhu và nhóm của ông đã cho ra mắt MMLU-Pro.
MMLU-Pro tái thiết kế lại đề thi này, chứ không đơn giản là mở rộng ngân hàng câu hỏi.
Nó bao gồm 12032 câu hỏi, bao phủ 14 lĩnh vực như toán học, vật lý, hóa học, luật pháp, kỹ thuật, tâm lý học, sức khỏe... So với phiên bản MMLU gốc, nó mở rộng lựa chọn từ 4 lên 10, giảm xác suất mô hình đoán mò đúng; đồng thời thêm vào nhiều câu hỏi thiên về suy luận hơn, loại bỏ những câu hỏi tương đối đơn giản, có sự mơ hồ hoặc khả năng phân biệt không đủ trong ngân hàng câu hỏi gốc.
Hiệu quả rất trực tiếp.
Kết quả nghiên cứu cho thấy, độ chính xác của mô hình trên MMLU-Pro so với phiên bản MMLU gốc đã giảm từ 16% đến 33%. Khi cùng một mô hình được kiểm tra với 24 phong cách gợi ý khác nhau, sự dao động điểm số cũng giảm từ khoảng 4% đến 5% của MMLU gốc xuống còn khoảng 2%.
Tức là, đề thi mới này không chỉ khó hơn, mà còn ổn định hơn.
Nó khiến những mô hình vốn có vẻ xuất sắc trên đề thi cũ, một lần nữa bị kéo ra khoảng cách. Việc mô hình thực sự có khả năng suy luận, hay chỉ giỏi đối phó với đề cũ, vì thế cũng dễ dàng được nhận ra hơn.
02
Tiêu chuẩn đánh giá hiệu quả
MMLU-Pro nhanh chóng được ngành công nghiệp đem đi sử dụng.
MMLU-Pro sau đó đã tham gia vào hạng mục tập dữ liệu và đánh giá tiêu chuẩn của NeurIPS2024, cũng được tích hợp vào khung đánh giá mô hình ngôn ngữ lm-evaluation-harness của EleutherAI. Đối với cộng đồng mô hình mã nguồn mở, điều này có nghĩa nó không còn chỉ là một tập dữ liệu trong bài báo nghiên cứu, mà đã bước vào chuỗi công cụ đánh giá thông dụng.
Nhiều bản phát hành mô hình bắt đầu báo cáo điểm số MMLU-Pro. Một số bảng xếp hạng trên HuggingFace cũng đưa nó vào hệ thống đánh giá.
Nếu nói MMLU-Pro giải quyết vấn đề 'đề thi cũ mất tác dụng' trong đánh giá mô hình ngôn ngữ, thì MMMU đã đưa Chen Wenhu và TIGERLab vào trung tâm của việc đánh giá đa phương thức.
Vấn đề của mô hình đa phương thức còn phức tạp hơn.
Mô hình ngôn ngữ trả lời câu hỏi, chủ yếu xử lý văn bản. Mô hình đa phương thức thì phải đồng thời xử lý thông tin ở nhiều dạng khác nhau như hình ảnh, biểu đồ, sơ đồ minh họa, bản đồ, bảng biểu, bản nhạc, cấu trúc hóa học... Nó không chỉ cần hiểu đề bài, mà còn phải thực sự 'đọc' được nội dung trong hình ảnh, và đặt thông tin thị giác, thông tin văn bản cùng kiến thức chuyên ngành vào chung để suy luận.
Tiêu chuẩn đánh giá MMMU bao gồm 11.5 nghìn câu hỏi đa phương thức, xuất phát từ đề thi đại học, bài kiểm tra và giáo trình, bao phủ sáu lĩnh vực lớn: nghệ thuật và thiết kế, kinh doanh, khoa học, sức khỏe và y học, khoa học xã hội và nhân văn, công nghệ và kỹ thuật, được chia nhỏ thành 30 môn học và 183 lĩnh vực con.
Những câu hỏi này không đơn giản chỉ hỏi mô hình 'trong hình có gì', nó yêu cầu mô hình giống như học sinh làm bài chuyên ngành, kết hợp thông tin hình ảnh và kiến thức môn học.
Khi MMMU được phát hành, nhóm nghiên cứu đã thử nghiệm 14 mô hình đa phương thức mã nguồn mở, cùng với các mô hình nguồn đóng tiêu biểu như GPT-4V, GeminiUltra. Ngay cả những mô hình nguồn đóng mạnh nhất lúc đó, GPT-4V và GeminiUltra, cũng chỉ đạt độ chính xác lần lượt là 56% và 59%.
Những con số này cho thấy, mô hình đa phương thức có vẻ tiến bộ rất nhanh, nhưng đối với những vấn đề thực sự cần sự hiểu biết và suy luận chuyên môn, vẫn còn rất nhiều không gian để cải thiện.
Sau đó, nhóm của Chen Wenhu lại cho ra mắt MMMU-Pro, tiếp tục bịt kín các lỗ hổng mà mô hình có thể dùng để bỏ qua thông tin thị giác. Nó lọc bỏ những câu hỏi chỉ dùng mô hình văn bản cũng có thể trả lời được, mở rộng các lựa chọn, và đưa vào cài đặt vision-only, nhúng câu hỏi vào hình ảnh, yêu cầu mô hình đồng thời hoàn thành việc đọc thông tin thị giác và hiểu văn bản.
Nói đơn giản, là không cho phép mô hình 'chỉ đọc văn bản để đoán câu trả lời'.
Loại công việc này nghe có vẻ hơi tỉ mỉ, nhưng chúng lại rất quan trọng. Bởi vì mô hình đa phương thức trong tương lai sẽ bước vào các lĩnh vực như y tế, giáo dục, nghiên cứu, thiết kế, kỹ thuật..., chỉ có khả năng mô tả hình ảnh là không đủ. Nó phải có khả năng phán đoán, suy luận, giải thích, và cũng phải có khả năng tìm ra phần thông tin thực sự hữu ích trong những thông tin thị giác phức tạp.
03
Con người đằng sau 'đề thi'
Việc Chen Wenhu sau này làm MMLU-Pro và MMMU, bắt nguồn từ hướng nghiên cứu mà ông luôn theo đuổi.
Mối quan tâm nghiên cứu của ông vốn dĩ đã liên quan đến việc hiểu thông tin phức tạp, hỏi đáp kiến thức và suy luận.
Ông tốt nghiệp cử nhân tại Đại học Khoa học và Công nghệ Hoa Trung, sau đó đến Đại học RWTH Aachen (Đức) để học thạc sĩ, rồi đến Đại học California, Santa Barbara để lấy bằng tiến sĩ khoa học máy tính. Trong thời gian học tiến sĩ, ông đã bắt đầu nghiên cứu xoay quanh các hướng như hỏi đáp phức tạp, suy luận bảng biểu, định vị bằng chứng kiến thức.
Loại nhiệm vụ này có một điểm chung: câu trả lời thường không nằm trong một văn bản đơn lẻ.
Nó có thể ẩn trong một bảng biểu, cũng có thể cần kết hợp giữa một đoạn văn bản và một bức hình, hoặc có thể yêu cầu mô hình phải truy xuất thông tin trước, sau đó tổng hợp, tính toán và suy luận. Mô hình không thể chỉ biết lặp lại kiến thức có sẵn.
Các dự án mà Chen Wenhu đã tham gia như HybridQA, TabFact, ProgramofThoughts, MAmmoTH, đều liên quan đến hướng nghiên cứu này.
Điều này cũng giải thích vì sao ông lại nhạy cảm với các lỗ hổng trong việc đánh giá mô hình.
Một tiêu chuẩn đánh giá tốt không phải là đơn giản làm cho câu hỏi ngày càng khó, mà phải dự đoán được nơi mô hình dễ 'đoán trúng đề', 'có vẻ như biết' nhất.
Mô hình có thể đã ghi nhớ ngân hàng câu hỏi, cũng có thể dựa vào các lựa chọn để đoán câu trả lời, hoặc dùng văn bản để bỏ qua thông tin thị giác... Việc đánh giá tốt phải bịt kín được những lỗ hổng này.
Sau khi nhận bằng tiến sĩ, Chen Wenhu gia nhập Google Research, sau đó từ năm 2021 đến năm 2025 tham gia vào công việc liên quan đến mô hình đa phương thức Gemini và đánh giá tại Google DeepMind. Giai đoạn này cũng rất quan trọng. Tiếp xúc lâu dài với việc nghiên cứu và phát triển mô hình tiên phong, giúp ông hiểu rõ hơn năng lực mô hình phát triển như thế nào, cũng dễ dàng nhìn thấy những sai lệch và điểm mù có thể tồn tại trong việc đánh giá.
Mùa thu năm 2022, Chen Wenhu gia nhập Khoa Khoa học Máy tính, Đại học Waterloo, giữ chức trợ lý giáo sư. Cùng năm, ông được chọn vào Canada CIFAR AI Chair. Sau đó, ông thành lập 'Phòng thí nghiệm Hổ (tức Hổ đầu bang)', tiếp tục nghiên cứu xoay quanh mô hình nền tảng, năng lực đa phương thức và tiêu chuẩn đánh giá.
Hổ đầu bang không chỉ làm tiêu chuẩn đánh giá, mà còn làm nghiên cứu mô hình và hệ thống.
Trong hướng video, UniVideo cố gắng đặt việc hiểu, tạo và chỉnh sửa video vào cùng một khuôn khổ, để mô hình không chỉ tạo ra một đoạn hình ảnh, mà còn có thể hiểu nội dung, phản hồi hướng dẫn và hoàn thành chỉnh sửa. Vamba nhắm vào việc hiểu video dài, giải quyết vấn đề bộ nhớ, tính toán và hiệu quả huấn luyện do video có độ dài cấp giờ gây ra. MoCha, hợp tác với nhóm AI tạo sinh (Generative AI) của Meta, lại tập trung vào việc tạo nhân vật ảo biết nói, thông qua mô tả bằng giọng nói và văn bản để tạo video nhân vật chất lượng cao.
Một người ra đề chưa bao giờ tự mình làm bài, thì không thể ra đề hay được. Việc tự mình tham gia tạo mô hình, ngược lại cũng khiến họ phù hợp hơn để làm công việc đánh giá.
Bởi vì việc đánh giá thực sự tốt, thường xuất phát từ sự hiểu biết về giới hạn năng lực của mô hình. Chỉ khi biết mô hình được tạo ra như thế nào, biết nó sẽ gặp vấn đề gì trong nhiệm vụ thực tế, mới dễ dàng thiết kế ra những câu hỏi có thể đo được khoảng cách, và cũng có thể phơi bày vấn đề.
Hiện nay, Chen Wenhu đã gia nhập Phòng thí nghiệm Siêu trí tuệ (Super Intelligent Lab) của Meta, công việc tiếp tục tập trung vào dữ liệu và đánh giá tiền huấn luyện đa phương thức, và phục vụ cho các mô hình nền tảng của Meta.
Ngành công nghiệp AI không thiếu những người được nhìn thấy. Trong ngành AI, ánh đèn sân khấu thường rọi vào những nhà khởi nghiệp, nhà nghiên cứu nổi tiếng và người đứng đầu các công ty mô hình lớn. Việc ra mắt sản phẩm mới, tin tức gọi vốn, mô hình mã nguồn mở và điều chỉnh đội ngũ, thường dễ thu hút sự chú ý từ bên ngoài nhất, cũng khiến những cái tên này dễ bước vào tầm mắt công chúng hơn.
Nhưng lĩnh vực AI ngày nay, sự tham gia của nhân tài gốc Hoa đã vượt xa những vị trí nổi bật nhất này.
Bài viết từ tài khoản công chúng WeChat 'Zimu AI', tác giả: Jin Ya Xiao













