Автор | Алфавит ИИ
Каждый раз, когда выпускается передовая модель, сообщество ИИ пристально следит за несколькими знакомыми табелями успеваемости.
MMLU-Pro, MMMU, MMMU-Pro... Эти названия могут быть незнакомы обычным пользователям, но для компаний-разработчиков моделей и исследователей они уже стали почти "стандартными предметами". GPT, Claude, Gemini, Llama, Qwen, DeepSeek постоянно сдают "экзамены" по этим бенчмаркам.
"Коня узнают по зубам" — часто именно эти баллы служат доказательством того, насколько хороша модель.
Многие графики сравнения производительности на презентациях моделей не обходятся без них; некоторые рейтинги на HuggingFace также построены на этих системах оценки. Можно даже сказать, что сегодня отрасль ИИ, обсуждая возможности моделей, использует уже общий язык, определённый этими бенчмарками.
Но что интересно, почти все следят за баллами, однако мало кто знает, кто составляет задания. А за MMLU-Pro, MMMU и MMMU-Pro стоит одно и то же имя — Вэньху Чэнь (Chen Wenhu).
Он — доцент факультета компьютерных наук Университета Ватерлоо в Канаде, его статьи в Google Scholar цитировались более 30 000 раз.
Он также основатель "TIGERLab", полное английское название которой — Text and Image GEnerative Research Lab. Поскольку в названии есть иероглиф «虎» (тигр), Чэнь Вэньху дал ей очень запоминающееся китайское название — «Банда Тигровой Головы».
После того, как старый экзамен перестал работать
Первоначально больше людей обратили внимание на Чэнь Вэньху из-за MMLU-Pro.
MMLU когда-то была одним из наиболее часто используемых бенчмарков для оценки способностей больших языковых моделей. Она похожа на комплексный экзамен, охватывающий различные дисциплины, и используется для измерения способности модели к пониманию знаний и рассуждениям.
На ранних этапах этот экзамен был очень полезен. Разница между моделями была заметна по баллам, и отрасль также могла с его помощью наблюдать, действительно ли большие языковые модели прогрессируют.
Но проблема вскоре возникла.
По мере постоянного роста способностей моделей MMLU постепенно стала "недостаточно сложной". Баллы передовых моделей становились всё выше, а разрыв между ними — всё меньше.
После выпуска OpenAI o3 эта проблема стала ещё более очевидной. Точность o3 на MMLU уже приближалась к 100%, и другие передовые модели также один за другим стали показывать результаты, близкие к максимальным.
Звучит как хорошая новость, но для оценки это, наоборот, означает проблемы.
Если на экзамене все могут получить баллы, близкие к максимальным, становится трудно определить, кто сильнее и в чём именно. Он всё ещё может доказывать, что модель обладает определёнными способностями, но уже не подходит для измерения нового прогресса.
Отрасли ИИ нужен был более сложный и менее "обманываемый" экзамен.
В 2024 году Чэнь Вэньху и его команда представили MMLU-Pro.
MMLU-Pro не просто расширила базу вопросов, а полностью переработала этот экзамен.
Он содержит 12032 вопроса, охватывающих 14 областей: математику, физику, химию, право, инженерию, психологию, здравоохранение и другие. По сравнению с оригинальной MMLU, количество вариантов ответа увеличено с 4 до 10, чтобы снизить вероятность угадывания; одновременно добавлено больше вопросов, требующих рассуждений, а относительно простые, двусмысленные или недостаточно дифференцирующие вопросы из исходной базы данных удалены.
Эффект был прямым.
Результаты исследования показали, что точность моделей на MMLU-Pro по сравнению с оригинальной MMLU снизилась на 16–33%. Когда одну и ту же модель тестировали с 24 различными стилями промптов, разброс результатов также уменьшился с 4–5% у оригинальной MMLU до примерно 2%.
То есть этот новый экзамен не только сложнее, но и стабильнее.
Он снова позволил увидеть разрыв между моделями, которые на старом экзамене выглядели одинаково выдающимися. Стало легче определить, действительно ли модель умеет рассуждать или просто лучше справляется со старыми заданиями.
Полезные бенчмарки
MMLU-Pro быстро была взята на вооружение отраслью.
Впоследствии MMLU-Pro вошла в трек наборов данных и бенчмарков NeurIPS2024 и также была интегрирована в фреймворк оценки языковых моделей lm-evaluation-harness от EleutherAI. Для сообщества open-source моделей это означало, что она перестала быть просто набором данных в статье и вошла в стандартный инструментарий для оценки.
Многие модели при выпуске начали сообщать баллы по MMLU-Pro. Некоторые рейтинги на HuggingFace также включили её в свою систему оценки.
Если MMLU-Pro решала проблему "неэффективности старого экзамена" в оценке языковых моделей, то MMMU вывела Чэнь Вэньху и TIGERLab в центр оценки мультимодальности.
Проблема мультимодальных моделей ещё сложнее.
Языковые модели обрабатывают в основном текст. Мультимодальные же модели должны одновременно обрабатывать информацию в разных форматах: изображения, диаграммы, схемы, карты, таблицы, нотные записи, химические структуры и т.д. Им нужно не только понять условие задачи, но и действительно распознать содержание на изображении, а затем совместить визуальную информацию, текстовую информацию и предметные знания для рассуждения.
Бенчмарк MMMU содержит 11,5 тысяч мультимодальных вопросов, взятых из университетских экзаменов, тестов и учебников, охватывая шесть широких областей: искусство и дизайн, бизнес, естественные науки, здоровье и медицина, гуманитарные и социальные науки, технологии и инженерия, с дальнейшим разделением на 30 дисциплин и 183 подраздела.
Эти вопросы не просто спрашивают модель "что на картинке". Они требуют от модели, как от студента на профессиональном экзамене, сочетать информацию с изображения и предметные знания.
При выпуске MMMU исследовательская группа протестировала 14 открытых мультимодальных моделей, а также представительные проприетарные модели, такие как GPT-4V и GeminiUltra. Даже самые сильные на тот момент проприетарные модели, GPT-4V и GeminiUltra, достигли точности всего 56% и 59% соответственно.
Эти цифры показывают, что, хотя мультимодальные модели, казалось бы, быстро прогрессируют, в задачах, действительно требующих профессионального понимания и рассуждений, у них по-прежнему остаётся огромное пространство для роста.
Позже команда Чэнь Вэньху выпустила MMMU-Pro, чтобы ещё больше перекрыть модели возможность обойти визуальную информацию. Она отфильтровывает вопросы, на которые можно ответить, используя только текстовую модель, расширяет варианты ответов и вводит режим "vision-only", где вопрос встроен в само изображение, требуя от модели одновременно выполнять визуальное считывание и текстовое понимание.
Проще говоря, не дать модели "угадать ответ, прочитав только текст".
Подобная работа может показаться несколько рутинной, но она критически важна. Потому что в будущем мультимодальные модели будут внедряться в такие области, как здравоохранение, образование, научные исследования, дизайн, инженерия, и просто описывать картинки будет недостаточно. Они должны уметь оценивать, рассуждать, объяснять, а также находить действительно полезную информацию в сложных визуальных данных.
Человек за "экзаменами"
Работа Чэнь Вэньху над MMLU-Pro и MMMU проистекает из его давних исследовательских интересов.
Его исследовательские интересы всегда были связаны с пониманием сложной информации, вопросами на знания и рассуждениями.
Он окончил бакалавриат Хуачжунского университета науки и технологий, затем получил степень магистра в Рейнско-Вестфальском техническом университете Ахена в Германии, а после — докторскую степень по компьютерным наукам в Калифорнийском университете в Санта-Барбаре. Во время докторантуры он уже начал исследования в области сложных вопросно-ответных систем, рассуждений на основе таблиц, поиска доказательств из знаний и т.д.
У таких задач есть общая черта: ответ часто не содержится в одном единственном тексте.
Он может скрываться в таблице, может требовать совмещения текста и изображения, а может требовать от модели сначала извлечь информацию, затем интегрировать, вычислить и сделать вывод. Модель не должна уметь только пересказывать известные знания.
Проекты, в которых участвовал Чэнь Вэньху, такие как HybridQA, TabFact, ProgramofThoughts, MAmmoTH, связаны именно с этой линией.
Это также объясняет, почему он так чувствителен к уязвимостям в оценке моделей.
Хороший бенчмарк — это не просто увеличение сложности вопросов, а предвидение того, где модель легче всего может "угадать ответ" или "казаться знающей".
Модель могла запомнить базу вопросов, может угадать ответ по вариантам, может использовать текст в обход визуальной информации... Хорошая оценка должна закрыть эти лазейки.
После защиты докторской диссертации Чэнь Вэньху поступил в Google Research, а затем с 2021 по 2025 год участвовал в работе Google DeepMind над мультимодальной моделью Gemini и её оценкой. Этот опыт также очень важен. Длительное погружение в разработку передовых моделей позволило ему лучше понять, как растут способности моделей, и легче увидеть возможные смещения и слепые зоны в оценке.
Осенью 2022 года Чэнь Вэньху присоединился к факультету компьютерных наук Университета Ватерлоо в качестве доцента. В том же году он был включён в программу Canada CIFAR AI Chair. Позже он основал "TIGERLab" (то есть «Банду Тигровой Головы»), продолжив исследования в области базовых моделей, мультимодальных способностей и бенчмарков.
Банда Тигровой Головы занимается не только бенчмарками, но и исследованиями моделей и систем.
В области видео UniVideo пытается объединить понимание, генерацию и редактирование видео в одной архитектуре, чтобы модель не только генерировала кадры, но и понимала содержание, реагировала на инструкции и выполняла изменения. Vamba нацелена на понимание длинных видео, решая проблемы с памятью, вычислениями и эффективностью обучения, возникающие при работе с видео длительностью около часа. Совместный с командой генеративного ИИ Meta проект MoCha сосредоточен на генерации говорящих виртуальных персонажей, создавая высококачественные видеоролики с людьми на основе голоса и текстового описания.
Составитель заданий, который никогда сам не решает задач, не может составить хорошие задания. Самостоятельная работа над моделями, в свою очередь, делает их более подходящими для оценки.
Потому что действительно хорошая оценка часто возникает из понимания границ возможностей модели. Только зная, как создаются модели, с какими проблемами они сталкиваются в реальных задачах, легче разработать задания, которые могут выявить различия и подчеркнуть проблемы.
В настоящее время Чэнь Вэньху перешёл в Super Intelligence Lab компании Meta, где его работа продолжает быть сосредоточена на данных и оценке для мультимодального предобучения, обслуживая базовые модели Meta.
В отрасли ИИ нет недостатка в заметных фигурах. В мире ИИ внимание обычно приковано к предпринимателям, звёздным исследователям и руководителям компаний, разрабатывающих большие модели. Выпуск новых продуктов, новости о финансировании, open-source модели и кадровые перестановки чаще всего привлекают внимание извне, и эти имена легче всего попадают в поле зрения общественности.
Но сегодня участие китайских талантов в области ИИ уже далеко выходит за рамки этих самых заметных позиций.















