Phía sau bảng điểm AI, ẩn giấu một 'người ra đề' gốc Hoa

marsbitPubblicato 2026-06-20Pubblicato ultima volta 2026-06-20

Introduzione

Mỗi khi một mô hình AI tiên tiến ra mắt, giới công nghệ lại dõi theo những “bảng điểm” quen thuộc như MMLU-Pro, MMMU hay MMMU-Pro. Đây là các tiêu chuẩn đánh giá quan trọng giúp so sánh năng lực của các mô hình lớn như GPT, Claude hay Gemini. Tuy nhiên, ít người biết rằng đằng sau những bộ đề thi này là một nhà nghiên cứu người Hoa: Chen Wenhu (Trần Văn Hổ), trợ lý giáo sư tại Đại học Waterloo, Canada. Ông cùng phòng thí nghiệm TIGERLab (còn gọi là Hổ Đầu Bang) đã tạo ra MMLU-Pro vào năm 2024 để giải quyết vấn đề “mất chuẩn” của bộ đánh giá MMLU cũ, khi nhiều mô hình tiên tiến đạt điểm gần tuyệt đối, khó phân biệt được sự khác biệt thực sự. MMLU-Pro với hơn 12.000 câu hỏi, mở rộng lựa chọn và tăng cường các câu đòi hỏi suy luận, đã giúp kéo giãn khoảng cách điểm số và đánh giá ổn định hơn. Trước đó, nhóm của Chen Wenhu cũng phát triển MMMU - bộ đánh giá đa phương thức (multimodal) yêu cầu mô hình kết hợp hiểu biết hình ảnh, biểu đồ với kiến thức chuyên môn để trả lời câu hỏi. Ngay cả các mô hình mạnh nhất thời điểm đó như GPT-4V cũng chỉ đạt độ chính xác khoảng 56%. Phiên bản MMMU-Pro sau này được thiết kế để đảm bảo mô hình không thể “bỏ qua” thông tin hình ảnh mà chỉ dựa vào văn bản để đoán đáp án. Nghiên cứu của Chen Wenhu tập trung vào việc hiểu thông tin phức tạp, hỏi đáp tri thức và suy luận. Ông từng làm việc tại Google Research và DeepMind, tham gia vào dự án Gemini, trước khi gia nhập Đại học Waterloo và thành lập TIGERLab. Phòng thí nghiệm không chỉ tạo ra các bộ...

Mỗi khi một mô hình tiên phong được phát hành, giới AI lại chú ý đến vài bảng điểm quen thuộc.

MMLU-Pro, MMMU, MMMU-Pro... Những cái tên này có thể xa lạ với người dùng thông thường, nhưng với các công ty mô hình và nhà nghiên cứu, chúng gần như đã trở thành 'môn học tiêu chuẩn'. GPT, Claude, Gemini, Llama, Qwen, DeepSeek liên tục nộp bài trên các tiêu chuẩn này.

'Lừa hay ngựa, cứ dắt ra chạy là biết', mô hình thế nào, thường cũng phải dựa vào những điểm số này để chứng minh.

Nhiều biểu đồ so sánh hiệu năng trong các buổi ra mắt mô hình, không thể thiếu chúng; một số bảng xếp hạng trên HuggingFace cũng được xây dựng dựa trên các hệ thống đánh giá này. Thậm chí có thể nói, ngành công nghiệp AI ngày nay khi thảo luận về năng lực mô hình, đang sử dụng một ngôn ngữ chung được định nghĩa bởi những tiêu chuẩn này.

Nhưng điều thú vị là, hầu như mọi người đều tập trung vào điểm số, lại rất ít người biết người ra đề là ai. Và đằng sau MMLU-Pro, MMMU và MMMU-Pro, đều có thể thấy cùng một cái tên – Chen Wenhu (Trần Văn Hổ).

Ông là trợ lý giáo sư tại Khoa Khoa học Máy tính, Đại học Waterloo, Canada, trên Google Scholar, các bài báo của ông đã được trích dẫn hơn 30,000 lần.

Ông cũng là người sáng lập 'Phòng thí nghiệm Hổ (TIGERLab)', tên đầy đủ tiếng Anh của phòng thí nghiệm này là Text and Image GEnerative Research Lab, vì trong tên có chữ 'Hổ', Chen Wenhu đã đặt cho nó một cái tên tiếng Trung rất dễ nhận biết – Hổ đầu bang.

01

Sau khi đề thi cũ mất tác dụng

Chen Wenhu được nhiều người chú ý hơn trước tiên, là vì MMLU-Pro.

MMLU từng là một trong những tiêu chuẩn đánh giá phổ biến nhất để đánh giá năng lực của mô hình ngôn ngữ lớn. Nó giống như một bài kiểm tra tổng hợp, bao phủ nhiều môn học, dùng để đo lường biểu hiện của mô hình trong các nhiệm vụ hiểu biết và suy luận kiến thức.

Trong giai đoạn đầu, bài kiểm tra này rất hữu ích. Khoảng cách giữa các mô hình có thể được phân biệt bằng điểm số, ngành công nghiệp cũng có thể thông qua nó để quan sát xem các mô hình ngôn ngữ lớn có thực sự tiến bộ hay không.

Nhưng vấn đề nhanh chóng xuất hiện.

Khi năng lực mô hình ngày càng được nâng cao, MMLU dần trở nên 'không đủ khó để kiểm tra'. Điểm số của các mô hình tiên phong ngày càng cao, khoảng cách giữa chúng ngày càng nhỏ.

Đến khi OpenAI phát hành o3, vấn đề này càng trở nên rõ ràng. Độ chính xác của o3 trên MMLU đã gần đạt 100%, các mô hình tiên phong khác cũng lần lượt đạt điểm số gần như tuyệt đối.

Nghe thì có vẻ là một tin tốt, nhưng đối với việc đánh giá, điều này lại mang ý nghĩa rắc rối.

Một đề thi nếu ai cũng có thể đạt điểm gần tuyệt đối, sẽ rất khó để tiếp tục phán đoán ai mạnh hơn, mạnh ở điểm nào. Nó vẫn có thể chứng minh mô hình đã có một số năng lực nhất định, nhưng không còn phù hợp để đo lường những tiến bộ mới nữa.

Ngành công nghiệp AI cần một đề thi khó hơn, và cũng khó bị 'qua mặt' hơn.

Năm 2024, Chen Wenhu và nhóm của ông đã cho ra mắt MMLU-Pro.

MMLU-Pro tái thiết kế lại đề thi này, chứ không đơn giản là mở rộng ngân hàng câu hỏi.

Nó bao gồm 12032 câu hỏi, bao phủ 14 lĩnh vực như toán học, vật lý, hóa học, luật pháp, kỹ thuật, tâm lý học, sức khỏe... So với phiên bản MMLU gốc, nó mở rộng lựa chọn từ 4 lên 10, giảm xác suất mô hình đoán mò đúng; đồng thời thêm vào nhiều câu hỏi thiên về suy luận hơn, loại bỏ những câu hỏi tương đối đơn giản, có sự mơ hồ hoặc khả năng phân biệt không đủ trong ngân hàng câu hỏi gốc.

Hiệu quả rất trực tiếp.

Kết quả nghiên cứu cho thấy, độ chính xác của mô hình trên MMLU-Pro so với phiên bản MMLU gốc đã giảm từ 16% đến 33%. Khi cùng một mô hình được kiểm tra với 24 phong cách gợi ý khác nhau, sự dao động điểm số cũng giảm từ khoảng 4% đến 5% của MMLU gốc xuống còn khoảng 2%.

Tức là, đề thi mới này không chỉ khó hơn, mà còn ổn định hơn.

Nó khiến những mô hình vốn có vẻ xuất sắc trên đề thi cũ, một lần nữa bị kéo ra khoảng cách. Việc mô hình thực sự có khả năng suy luận, hay chỉ giỏi đối phó với đề cũ, vì thế cũng dễ dàng được nhận ra hơn.

02

Tiêu chuẩn đánh giá hiệu quả

MMLU-Pro nhanh chóng được ngành công nghiệp đem đi sử dụng.

MMLU-Pro sau đó đã tham gia vào hạng mục tập dữ liệu và đánh giá tiêu chuẩn của NeurIPS2024, cũng được tích hợp vào khung đánh giá mô hình ngôn ngữ lm-evaluation-harness của EleutherAI. Đối với cộng đồng mô hình mã nguồn mở, điều này có nghĩa nó không còn chỉ là một tập dữ liệu trong bài báo nghiên cứu, mà đã bước vào chuỗi công cụ đánh giá thông dụng.

Nhiều bản phát hành mô hình bắt đầu báo cáo điểm số MMLU-Pro. Một số bảng xếp hạng trên HuggingFace cũng đưa nó vào hệ thống đánh giá.

Nếu nói MMLU-Pro giải quyết vấn đề 'đề thi cũ mất tác dụng' trong đánh giá mô hình ngôn ngữ, thì MMMU đã đưa Chen Wenhu và TIGERLab vào trung tâm của việc đánh giá đa phương thức.

Vấn đề của mô hình đa phương thức còn phức tạp hơn.

Mô hình ngôn ngữ trả lời câu hỏi, chủ yếu xử lý văn bản. Mô hình đa phương thức thì phải đồng thời xử lý thông tin ở nhiều dạng khác nhau như hình ảnh, biểu đồ, sơ đồ minh họa, bản đồ, bảng biểu, bản nhạc, cấu trúc hóa học... Nó không chỉ cần hiểu đề bài, mà còn phải thực sự 'đọc' được nội dung trong hình ảnh, và đặt thông tin thị giác, thông tin văn bản cùng kiến thức chuyên ngành vào chung để suy luận.

Tiêu chuẩn đánh giá MMMU bao gồm 11.5 nghìn câu hỏi đa phương thức, xuất phát từ đề thi đại học, bài kiểm tra và giáo trình, bao phủ sáu lĩnh vực lớn: nghệ thuật và thiết kế, kinh doanh, khoa học, sức khỏe và y học, khoa học xã hội và nhân văn, công nghệ và kỹ thuật, được chia nhỏ thành 30 môn học và 183 lĩnh vực con.

Những câu hỏi này không đơn giản chỉ hỏi mô hình 'trong hình có gì', nó yêu cầu mô hình giống như học sinh làm bài chuyên ngành, kết hợp thông tin hình ảnh và kiến thức môn học.

Khi MMMU được phát hành, nhóm nghiên cứu đã thử nghiệm 14 mô hình đa phương thức mã nguồn mở, cùng với các mô hình nguồn đóng tiêu biểu như GPT-4V, GeminiUltra. Ngay cả những mô hình nguồn đóng mạnh nhất lúc đó, GPT-4V và GeminiUltra, cũng chỉ đạt độ chính xác lần lượt là 56% và 59%.

Những con số này cho thấy, mô hình đa phương thức có vẻ tiến bộ rất nhanh, nhưng đối với những vấn đề thực sự cần sự hiểu biết và suy luận chuyên môn, vẫn còn rất nhiều không gian để cải thiện.

Sau đó, nhóm của Chen Wenhu lại cho ra mắt MMMU-Pro, tiếp tục bịt kín các lỗ hổng mà mô hình có thể dùng để bỏ qua thông tin thị giác. Nó lọc bỏ những câu hỏi chỉ dùng mô hình văn bản cũng có thể trả lời được, mở rộng các lựa chọn, và đưa vào cài đặt vision-only, nhúng câu hỏi vào hình ảnh, yêu cầu mô hình đồng thời hoàn thành việc đọc thông tin thị giác và hiểu văn bản.

Nói đơn giản, là không cho phép mô hình 'chỉ đọc văn bản để đoán câu trả lời'.

Loại công việc này nghe có vẻ hơi tỉ mỉ, nhưng chúng lại rất quan trọng. Bởi vì mô hình đa phương thức trong tương lai sẽ bước vào các lĩnh vực như y tế, giáo dục, nghiên cứu, thiết kế, kỹ thuật..., chỉ có khả năng mô tả hình ảnh là không đủ. Nó phải có khả năng phán đoán, suy luận, giải thích, và cũng phải có khả năng tìm ra phần thông tin thực sự hữu ích trong những thông tin thị giác phức tạp.

03

Con người đằng sau 'đề thi'

Việc Chen Wenhu sau này làm MMLU-Pro và MMMU, bắt nguồn từ hướng nghiên cứu mà ông luôn theo đuổi.

Mối quan tâm nghiên cứu của ông vốn dĩ đã liên quan đến việc hiểu thông tin phức tạp, hỏi đáp kiến thức và suy luận.

Ông tốt nghiệp cử nhân tại Đại học Khoa học và Công nghệ Hoa Trung, sau đó đến Đại học RWTH Aachen (Đức) để học thạc sĩ, rồi đến Đại học California, Santa Barbara để lấy bằng tiến sĩ khoa học máy tính. Trong thời gian học tiến sĩ, ông đã bắt đầu nghiên cứu xoay quanh các hướng như hỏi đáp phức tạp, suy luận bảng biểu, định vị bằng chứng kiến thức.

Loại nhiệm vụ này có một điểm chung: câu trả lời thường không nằm trong một văn bản đơn lẻ.

Nó có thể ẩn trong một bảng biểu, cũng có thể cần kết hợp giữa một đoạn văn bản và một bức hình, hoặc có thể yêu cầu mô hình phải truy xuất thông tin trước, sau đó tổng hợp, tính toán và suy luận. Mô hình không thể chỉ biết lặp lại kiến thức có sẵn.

Các dự án mà Chen Wenhu đã tham gia như HybridQA, TabFact, ProgramofThoughts, MAmmoTH, đều liên quan đến hướng nghiên cứu này.

Điều này cũng giải thích vì sao ông lại nhạy cảm với các lỗ hổng trong việc đánh giá mô hình.

Một tiêu chuẩn đánh giá tốt không phải là đơn giản làm cho câu hỏi ngày càng khó, mà phải dự đoán được nơi mô hình dễ 'đoán trúng đề', 'có vẻ như biết' nhất.

Mô hình có thể đã ghi nhớ ngân hàng câu hỏi, cũng có thể dựa vào các lựa chọn để đoán câu trả lời, hoặc dùng văn bản để bỏ qua thông tin thị giác... Việc đánh giá tốt phải bịt kín được những lỗ hổng này.

Sau khi nhận bằng tiến sĩ, Chen Wenhu gia nhập Google Research, sau đó từ năm 2021 đến năm 2025 tham gia vào công việc liên quan đến mô hình đa phương thức Gemini và đánh giá tại Google DeepMind. Giai đoạn này cũng rất quan trọng. Tiếp xúc lâu dài với việc nghiên cứu và phát triển mô hình tiên phong, giúp ông hiểu rõ hơn năng lực mô hình phát triển như thế nào, cũng dễ dàng nhìn thấy những sai lệch và điểm mù có thể tồn tại trong việc đánh giá.

Mùa thu năm 2022, Chen Wenhu gia nhập Khoa Khoa học Máy tính, Đại học Waterloo, giữ chức trợ lý giáo sư. Cùng năm, ông được chọn vào Canada CIFAR AI Chair. Sau đó, ông thành lập 'Phòng thí nghiệm Hổ (tức Hổ đầu bang)', tiếp tục nghiên cứu xoay quanh mô hình nền tảng, năng lực đa phương thức và tiêu chuẩn đánh giá.

Hổ đầu bang không chỉ làm tiêu chuẩn đánh giá, mà còn làm nghiên cứu mô hình và hệ thống.

Trong hướng video, UniVideo cố gắng đặt việc hiểu, tạo và chỉnh sửa video vào cùng một khuôn khổ, để mô hình không chỉ tạo ra một đoạn hình ảnh, mà còn có thể hiểu nội dung, phản hồi hướng dẫn và hoàn thành chỉnh sửa. Vamba nhắm vào việc hiểu video dài, giải quyết vấn đề bộ nhớ, tính toán và hiệu quả huấn luyện do video có độ dài cấp giờ gây ra. MoCha, hợp tác với nhóm AI tạo sinh (Generative AI) của Meta, lại tập trung vào việc tạo nhân vật ảo biết nói, thông qua mô tả bằng giọng nói và văn bản để tạo video nhân vật chất lượng cao.

Một người ra đề chưa bao giờ tự mình làm bài, thì không thể ra đề hay được. Việc tự mình tham gia tạo mô hình, ngược lại cũng khiến họ phù hợp hơn để làm công việc đánh giá.

Bởi vì việc đánh giá thực sự tốt, thường xuất phát từ sự hiểu biết về giới hạn năng lực của mô hình. Chỉ khi biết mô hình được tạo ra như thế nào, biết nó sẽ gặp vấn đề gì trong nhiệm vụ thực tế, mới dễ dàng thiết kế ra những câu hỏi có thể đo được khoảng cách, và cũng có thể phơi bày vấn đề.

Hiện nay, Chen Wenhu đã gia nhập Phòng thí nghiệm Siêu trí tuệ (Super Intelligent Lab) của Meta, công việc tiếp tục tập trung vào dữ liệu và đánh giá tiền huấn luyện đa phương thức, và phục vụ cho các mô hình nền tảng của Meta.

Ngành công nghiệp AI không thiếu những người được nhìn thấy. Trong ngành AI, ánh đèn sân khấu thường rọi vào những nhà khởi nghiệp, nhà nghiên cứu nổi tiếng và người đứng đầu các công ty mô hình lớn. Việc ra mắt sản phẩm mới, tin tức gọi vốn, mô hình mã nguồn mở và điều chỉnh đội ngũ, thường dễ thu hút sự chú ý từ bên ngoài nhất, cũng khiến những cái tên này dễ bước vào tầm mắt công chúng hơn.

Nhưng lĩnh vực AI ngày nay, sự tham gia của nhân tài gốc Hoa đã vượt xa những vị trí nổi bật nhất này.

Bài viết từ tài khoản công chúng WeChat 'Zimu AI', tác giả: Jin Ya Xiao

Crypto di tendenza

Domande pertinenti

QAi là người được cho là 'người ra đề' đằng sau các bảng điểm AI phổ biến như MMLU-Pro, MMMU và MMMU-Pro?

AĐó là Giáo sư Trần Văn Hổ (Chen Wenhu), trợ lý giáo sư tại Khoa Khoa học Máy tính, Đại học Waterloo, Canada, và là người sáng lập Phòng thí nghiệm TIGER (hay còn gọi là Hổ Đầu Bang).

QTại sao MMLU-Pro được tạo ra để thay thế cho MMLU?

AMMLU-Pro được tạo ra vì các mô hình AI tiên tiến (như o3 của OpenAI) đã đạt điểm gần như tuyệt đối trên bộ đánh giá MMLU cũ, khiến nó không còn khả năng phân biệt sự khác biệt về năng lực giữa các mô hình. MMLU-Pro khó hơn, ổn định hơn, với nhiều lựa chọn hơn và các câu hỏi tập trung vào suy luận, giúp đánh giá chính xác hơn.

QMMMU đánh giá khả năng nào của mô hình AI?

AMMMU (Massive Multi-discipline Multi-modal Understanding) là bộ tiêu chuẩn đánh giá khả năng đa phương thức (multimodal) của mô hình AI. Nó kiểm tra khả năng hiểu và suy luận kết hợp thông tin từ cả văn bản và các dạng hình ảnh phức tạp như biểu đồ, sơ đồ, bảng, bản nhạc, cấu trúc hóa học trong bối cảnh của nhiều lĩnh vực học thuật khác nhau.

QPhòng thí nghiệm của Giáo sư Trần Văn Hổ (TIGER Lab) còn nghiên cứu những lĩnh vực nào khác ngoài việc tạo ra các bài đánh giá?

ANgoài việc tạo ra các bộ đánh giá, TIGER Lab (Hổ Đầu Bang) còn nghiên cứu phát triển các mô hình và hệ thống AI, đặc biệt trong lĩnh vực video, chẳng hạn như: UniVideo (hiểu, tạo và chỉnh sửa video), Vamba (hiểu video dài) và MoCha (tạo video nhân vật ảo nói chuyện).

QKinh nghiệm làm việc nào đã giúp Giáo sư Trần Văn Hổ thiết kế ra những bài đánh giá hiệu quả?

AKinh nghiệm nghiên cứu về hỏi đáp phức tạp và suy luận đa nguồn thông tin từ thời tiến sĩ, cùng với kinh nghiệm thực tế khi làm việc tại Google Research và Google DeepMind (tham gia vào dự án mô hình đa phương thức Gemini và công việc đánh giá), đã giúp ông hiểu rõ cách mô hình phát triển và các lỗ hổng trong đánh giá. Hiện tại, ông tiếp tục công việc này tại Phòng thí nghiệm Siêu Trí tuệ của Meta.

Letture associate

Trading

Spot

Articoli Popolari

Come comprare EDGE

Benvenuto in HTX.com! Abbiamo reso l'acquisto di edgeX (EDGE) semplice e conveniente. Segui la nostra guida passo passo per intraprendere il tuo viaggio nel mondo delle criptovalute.Step 1: Crea il tuo Account HTXUsa la tua email o numero di telefono per registrarti il tuo account gratuito su HTX. Vivi un'esperienza facile e sblocca tutte le funzionalità,Crea il mio accountStep 2: Vai in Acquista crypto e seleziona il tuo metodo di pagamentoCarta di credito/debito: utilizza la tua Visa o Mastercard per acquistare immediatamente edgeXEDGE.Bilancio: Usa i fondi dal bilancio del tuo account HTX per fare trading senza problemi.Terze parti: abbiamo aggiunto metodi di pagamento molto utilizzati come Google Pay e Apple Pay per maggiore comodità.P2P: Fai trading direttamente con altri utenti HTX.Over-the-Counter (OTC): Offriamo servizi su misura e tassi di cambio competitivi per i trader.Step 3: Conserva edgeX (EDGE)Dopo aver acquistato edgeX (EDGE), conserva nel tuo account HTX. In alternativa, puoi inviare tramite trasferimento blockchain o scambiare per altre criptovalute.Step 4: Scambia edgeX (EDGE)Scambia facilmente edgeX (EDGE) nel mercato spot di HTX. Accedi al tuo account, seleziona la tua coppia di trading, esegui le tue operazioni e monitora in tempo reale. Offriamo un'esperienza user-friendly sia per chi ha appena iniziato che per i trader più esperti.

777 Totale visualizzazioniPubblicato il 2026.03.31Aggiornato il 2026.06.02

Come comprare EDGE

Discussioni

Benvenuto nella Community HTX. Qui puoi rimanere informato sugli ultimi sviluppi della piattaforma e accedere ad approfondimenti esperti sul mercato. Le opinioni degli utenti sul prezzo di EDGE EDGE sono presentate come di seguito.

活动图片