За кулисами оценок ИИ стоит китайский «составитель заданий»

marsbitОпубликовано 2026-06-19Обновлено 2026-06-19

Введение

За заголовками AI-бенчмарков, таких как MMLU-Pro, MMMU и MMMU-Pro, стоит имя китайского исследователя Вэньху Чэня, доцента Университета Ватерлоо и основателя TIGER Lab. Его работа фокусируется на создании точных и сложных тестов для оценки способностей языковых и мультимодальных моделей. Когда старый стандарт MMLU перестал эффективно различать передовые модели, Чэнь и его команда разработали MMLU-Pro. Этот новый бенчмарк, содержащий более 12 000 вопросов, сделал задачи сложнее и стабильнее, что позволило снова выявить разницу между моделями, которые на старом тесте показывали почти идеальные результаты. В области мультимодального ИИ команда Чэня создала бенчмарк MMMU, который проверяет способность моделей понимать и рассуждать на основе комбинации текста, изображений, схем и других визуальных данных из профессиональных областей. Даже самые мощные модели изначально показывали на нём низкую точность, что выявило значительный пробел в их реальных способностях. Последующее обновление, MMMU-Pro, ещё больше усложнило задачу, предотвращая попытки моделей игнорировать визуальную информацию. Исследовательский интерес Чэня к сложным вопросам, требующим рассуждений и синтеза информации из разных источников, сформировался ещё во время его работы в Калифорнийском университете и позже в Google DeepMind над проектом Gemini. Этот практический опыт в разработке моделей помогает ему создавать более эффективные и «защищённые от обмана» тесты. Помимо оценки, его лаборатория также занимается и...

Автор | Алфавит ИИ

Каждый раз, когда выпускается передовая модель, сообщество ИИ пристально следит за несколькими знакомыми табелями успеваемости.

MMLU-Pro, MMMU, MMMU-Pro... Эти названия могут быть незнакомы обычным пользователям, но для компаний-разработчиков моделей и исследователей они уже стали почти "стандартными предметами". GPT, Claude, Gemini, Llama, Qwen, DeepSeek постоянно сдают "экзамены" по этим бенчмаркам.

"Коня узнают по зубам" — часто именно эти баллы служат доказательством того, насколько хороша модель.

Многие графики сравнения производительности на презентациях моделей не обходятся без них; некоторые рейтинги на HuggingFace также построены на этих системах оценки. Можно даже сказать, что сегодня отрасль ИИ, обсуждая возможности моделей, использует уже общий язык, определённый этими бенчмарками.

Но что интересно, почти все следят за баллами, однако мало кто знает, кто составляет задания. А за MMLU-Pro, MMMU и MMMU-Pro стоит одно и то же имя — Вэньху Чэнь (Chen Wenhu).

Он — доцент факультета компьютерных наук Университета Ватерлоо в Канаде, его статьи в Google Scholar цитировались более 30 000 раз.

Он также основатель "TIGERLab", полное английское название которой — Text and Image GEnerative Research Lab. Поскольку в названии есть иероглиф «虎» (тигр), Чэнь Вэньху дал ей очень запоминающееся китайское название — «Банда Тигровой Головы».

После того, как старый экзамен перестал работать

Первоначально больше людей обратили внимание на Чэнь Вэньху из-за MMLU-Pro.

MMLU когда-то была одним из наиболее часто используемых бенчмарков для оценки способностей больших языковых моделей. Она похожа на комплексный экзамен, охватывающий различные дисциплины, и используется для измерения способности модели к пониманию знаний и рассуждениям.

На ранних этапах этот экзамен был очень полезен. Разница между моделями была заметна по баллам, и отрасль также могла с его помощью наблюдать, действительно ли большие языковые модели прогрессируют.

Но проблема вскоре возникла.

По мере постоянного роста способностей моделей MMLU постепенно стала "недостаточно сложной". Баллы передовых моделей становились всё выше, а разрыв между ними — всё меньше.

После выпуска OpenAI o3 эта проблема стала ещё более очевидной. Точность o3 на MMLU уже приближалась к 100%, и другие передовые модели также один за другим стали показывать результаты, близкие к максимальным.

Звучит как хорошая новость, но для оценки это, наоборот, означает проблемы.

Если на экзамене все могут получить баллы, близкие к максимальным, становится трудно определить, кто сильнее и в чём именно. Он всё ещё может доказывать, что модель обладает определёнными способностями, но уже не подходит для измерения нового прогресса.

Отрасли ИИ нужен был более сложный и менее "обманываемый" экзамен.

В 2024 году Чэнь Вэньху и его команда представили MMLU-Pro.

MMLU-Pro не просто расширила базу вопросов, а полностью переработала этот экзамен.

Он содержит 12032 вопроса, охватывающих 14 областей: математику, физику, химию, право, инженерию, психологию, здравоохранение и другие. По сравнению с оригинальной MMLU, количество вариантов ответа увеличено с 4 до 10, чтобы снизить вероятность угадывания; одновременно добавлено больше вопросов, требующих рассуждений, а относительно простые, двусмысленные или недостаточно дифференцирующие вопросы из исходной базы данных удалены.

Эффект был прямым.

Результаты исследования показали, что точность моделей на MMLU-Pro по сравнению с оригинальной MMLU снизилась на 16–33%. Когда одну и ту же модель тестировали с 24 различными стилями промптов, разброс результатов также уменьшился с 4–5% у оригинальной MMLU до примерно 2%.

То есть этот новый экзамен не только сложнее, но и стабильнее.

Он снова позволил увидеть разрыв между моделями, которые на старом экзамене выглядели одинаково выдающимися. Стало легче определить, действительно ли модель умеет рассуждать или просто лучше справляется со старыми заданиями.

Полезные бенчмарки

MMLU-Pro быстро была взята на вооружение отраслью.

Впоследствии MMLU-Pro вошла в трек наборов данных и бенчмарков NeurIPS2024 и также была интегрирована в фреймворк оценки языковых моделей lm-evaluation-harness от EleutherAI. Для сообщества open-source моделей это означало, что она перестала быть просто набором данных в статье и вошла в стандартный инструментарий для оценки.

Многие модели при выпуске начали сообщать баллы по MMLU-Pro. Некоторые рейтинги на HuggingFace также включили её в свою систему оценки.

Если MMLU-Pro решала проблему "неэффективности старого экзамена" в оценке языковых моделей, то MMMU вывела Чэнь Вэньху и TIGERLab в центр оценки мультимодальности.

Проблема мультимодальных моделей ещё сложнее.

Языковые модели обрабатывают в основном текст. Мультимодальные же модели должны одновременно обрабатывать информацию в разных форматах: изображения, диаграммы, схемы, карты, таблицы, нотные записи, химические структуры и т.д. Им нужно не только понять условие задачи, но и действительно распознать содержание на изображении, а затем совместить визуальную информацию, текстовую информацию и предметные знания для рассуждения.

Бенчмарк MMMU содержит 11,5 тысяч мультимодальных вопросов, взятых из университетских экзаменов, тестов и учебников, охватывая шесть широких областей: искусство и дизайн, бизнес, естественные науки, здоровье и медицина, гуманитарные и социальные науки, технологии и инженерия, с дальнейшим разделением на 30 дисциплин и 183 подраздела.

Эти вопросы не просто спрашивают модель "что на картинке". Они требуют от модели, как от студента на профессиональном экзамене, сочетать информацию с изображения и предметные знания.

При выпуске MMMU исследовательская группа протестировала 14 открытых мультимодальных моделей, а также представительные проприетарные модели, такие как GPT-4V и GeminiUltra. Даже самые сильные на тот момент проприетарные модели, GPT-4V и GeminiUltra, достигли точности всего 56% и 59% соответственно.

Эти цифры показывают, что, хотя мультимодальные модели, казалось бы, быстро прогрессируют, в задачах, действительно требующих профессионального понимания и рассуждений, у них по-прежнему остаётся огромное пространство для роста.

Позже команда Чэнь Вэньху выпустила MMMU-Pro, чтобы ещё больше перекрыть модели возможность обойти визуальную информацию. Она отфильтровывает вопросы, на которые можно ответить, используя только текстовую модель, расширяет варианты ответов и вводит режим "vision-only", где вопрос встроен в само изображение, требуя от модели одновременно выполнять визуальное считывание и текстовое понимание.

Проще говоря, не дать модели "угадать ответ, прочитав только текст".

Подобная работа может показаться несколько рутинной, но она критически важна. Потому что в будущем мультимодальные модели будут внедряться в такие области, как здравоохранение, образование, научные исследования, дизайн, инженерия, и просто описывать картинки будет недостаточно. Они должны уметь оценивать, рассуждать, объяснять, а также находить действительно полезную информацию в сложных визуальных данных.

Человек за "экзаменами"

Работа Чэнь Вэньху над MMLU-Pro и MMMU проистекает из его давних исследовательских интересов.

Его исследовательские интересы всегда были связаны с пониманием сложной информации, вопросами на знания и рассуждениями.

Он окончил бакалавриат Хуачжунского университета науки и технологий, затем получил степень магистра в Рейнско-Вестфальском техническом университете Ахена в Германии, а после — докторскую степень по компьютерным наукам в Калифорнийском университете в Санта-Барбаре. Во время докторантуры он уже начал исследования в области сложных вопросно-ответных систем, рассуждений на основе таблиц, поиска доказательств из знаний и т.д.

У таких задач есть общая черта: ответ часто не содержится в одном единственном тексте.

Он может скрываться в таблице, может требовать совмещения текста и изображения, а может требовать от модели сначала извлечь информацию, затем интегрировать, вычислить и сделать вывод. Модель не должна уметь только пересказывать известные знания.

Проекты, в которых участвовал Чэнь Вэньху, такие как HybridQA, TabFact, ProgramofThoughts, MAmmoTH, связаны именно с этой линией.

Это также объясняет, почему он так чувствителен к уязвимостям в оценке моделей.

Хороший бенчмарк — это не просто увеличение сложности вопросов, а предвидение того, где модель легче всего может "угадать ответ" или "казаться знающей".

Модель могла запомнить базу вопросов, может угадать ответ по вариантам, может использовать текст в обход визуальной информации... Хорошая оценка должна закрыть эти лазейки.

После защиты докторской диссертации Чэнь Вэньху поступил в Google Research, а затем с 2021 по 2025 год участвовал в работе Google DeepMind над мультимодальной моделью Gemini и её оценкой. Этот опыт также очень важен. Длительное погружение в разработку передовых моделей позволило ему лучше понять, как растут способности моделей, и легче увидеть возможные смещения и слепые зоны в оценке.

Осенью 2022 года Чэнь Вэньху присоединился к факультету компьютерных наук Университета Ватерлоо в качестве доцента. В том же году он был включён в программу Canada CIFAR AI Chair. Позже он основал "TIGERLab" (то есть «Банду Тигровой Головы»), продолжив исследования в области базовых моделей, мультимодальных способностей и бенчмарков.

Банда Тигровой Головы занимается не только бенчмарками, но и исследованиями моделей и систем.

В области видео UniVideo пытается объединить понимание, генерацию и редактирование видео в одной архитектуре, чтобы модель не только генерировала кадры, но и понимала содержание, реагировала на инструкции и выполняла изменения. Vamba нацелена на понимание длинных видео, решая проблемы с памятью, вычислениями и эффективностью обучения, возникающие при работе с видео длительностью около часа. Совместный с командой генеративного ИИ Meta проект MoCha сосредоточен на генерации говорящих виртуальных персонажей, создавая высококачественные видеоролики с людьми на основе голоса и текстового описания.

Составитель заданий, который никогда сам не решает задач, не может составить хорошие задания. Самостоятельная работа над моделями, в свою очередь, делает их более подходящими для оценки.

Потому что действительно хорошая оценка часто возникает из понимания границ возможностей модели. Только зная, как создаются модели, с какими проблемами они сталкиваются в реальных задачах, легче разработать задания, которые могут выявить различия и подчеркнуть проблемы.

В настоящее время Чэнь Вэньху перешёл в Super Intelligence Lab компании Meta, где его работа продолжает быть сосредоточена на данных и оценке для мультимодального предобучения, обслуживая базовые модели Meta.

В отрасли ИИ нет недостатка в заметных фигурах. В мире ИИ внимание обычно приковано к предпринимателям, звёздным исследователям и руководителям компаний, разрабатывающих большие модели. Выпуск новых продуктов, новости о финансировании, open-source модели и кадровые перестановки чаще всего привлекают внимание извне, и эти имена легче всего попадают в поле зрения общественности.

Но сегодня участие китайских талантов в области ИИ уже далеко выходит за рамки этих самых заметных позиций.

Трендовые криптовалюты

Связанные с этим вопросы

QКто является создателем популярных бенчмарков для оценки ИИ, таких как MMLU-Pro и MMMU?

AСоздателем этих бенчмарков является китайский исследователь Вэньху Чэнь (Чэнь Вэньху), доцент факультета компьютерных наук Университета Ватерлоо в Канаде, основатель лаборатории TIGERLab (также известной как «Банда Тигра»).

QКакую основную проблему решает бенчмарк MMLU-Pro по сравнению с оригинальным MMLU?

AMMLU-Pro решает проблему «неэффективности старого теста»: когда современные передовые модели (например, o3 от OpenAI) стали достигать почти 100% точности на оригинальном MMLU, что сделало его непригодным для различения их реальных способностей. MMLU-Pro усложнил вопросы, увеличил количество вариантов ответов, добавил больше задач на рассуждение и устранил простые или неоднозначные вопросы, что позволило заново разделить модели по уровню.

QКак бенчмарк MMMU проверяет возможности мультимодальных моделей?

AMMMU проверяет способности мультимодальных моделей понимать и рассуждать на основе комбинации текстовой информации и разнообразных визуальных данных (изображения, диаграммы, схемы, карты, таблицы, нотные записи, химические структуры и т.д.). Задачи взяты из университетских экзаменов и учебных материалов по различным научным и профессиональным дисциплинам, требуя от модели интеграции знаний, визуального восприятия и логических рассуждений для ответа.

QКакой научный и профессиональный опыт Чэнь Вэньху способствовал его работе над созданием бенчмарков?

AОпыт Чэнь Вэньху включает исследования в области сложного понимания информации, вопросно-ответных систем и рассуждений (например, HybridQA, TabFact) ещё во время докторантуры. Позже он работал в Google Research и Google DeepMind над моделью Gemini и её оценкой, что дало ему глубокое понимание разработки передовых моделей и потенциальных уязвимостей в их оценке. Этот опыт позволяет ему проектировать бенчмарки, которые лучше выявляют истинные способности и слабые места моделей.

QПомимо разработки бенчмарков, чем ещё занимается лаборатория TIGERLab под руководством Чэнь Вэньху?

AПомимо бенчмарков, лаборатория TIGERLab (или «Банда Тигра») под руководством Чэнь Вэньху также активно занимается исследованиями и разработкой моделей и систем, особенно в области видео. Примеры проектов включают UniVideo (единая структура для понимания, генерации и редактирования видео), Vamba (понимание длинных видео) и MoCha (совместно с Meta) — генерация говорящих виртуальных персонажей. Этот практический опыт разработки моделей помогает команде создавать более качественные и релевантные оценочные бенчмарки.

Похожее

Без отдела продаж и с оборотом в 20 миллионов долларов: как AI-сотрудник Viktor привлек 30 000 компаний?

Традиционное корпоративное ПО требует обширных продаж и долгого внедрения. ИИ-сотрудник Viktor, разработанный командой с опытом в DeepMind, бросает вызов этому подходу. Он позиционируется как «коллега третьего уровня» (Tier 3 AI Coworker), способный на сквозное выполнение задач, а не просто на помощь. Пользователи могут упоминать его в Slack или Microsoft Teams, давая задания на естественном языке, например, «подготовь отчёт по продажам». Viktor самостоятельно подключается к CRM, генерирует графики и отправляет результат. Без отдела продаж и длительных проектов внедрения, через модель роста, управляемую продуктом (PLG), Viktor достиг $20 млн годового дохода, обслужив 30 000 компаний на платформе Slack. Ключом стал минимальный порог входа: бесплатный кредит в $100 и оплата за фактически выполненные задачи, а не за лицензии на сотрудников. Теперь продукт доступен в Microsoft Teams, открывая доступ к 320 млн пользователей. Viktor устраняет барьер сложных промптов, выполняя работу от начала до конца, и может работать автономно, например, проводя сверку счетов ночью или создавая презентации из данных разных систем. Он запоминает коррекции и контекст, становясь «слоем процессов» компании. Однако переход в корпоративную среду Teams сталкивается с проблемами соответствия и безопасности. Полная автоматизация вызывает опасения из-за «чёрного ящика» решений и рисков ошибок с доступом к критическим системам. Баланс между эффективностью и контролем остаётся главным вызовом для внедрения ИИ-сотрудников в бизнес-процессы. Viktor демонстрирует привлекательность модели с нулевым порогом входа, но для масштабирования в крупных организациях необходимы доверие и надёжные рамки управления.

marsbit10 мин. назад

Без отдела продаж и с оборотом в 20 миллионов долларов: как AI-сотрудник Viktor привлек 30 000 компаний?

marsbit10 мин. назад

Интервью с сооснователем CoreWeave: Спрос на ИИ, кажется, «обостряется» с каждым днём

Интервью с руководителями CoreWeave показало, что спрос на ИИ-инфраструктуру продолжает стремительно расти. Согласно Brannin McBee и Nick Robbins, запросы на вычислительные мощности не только не снижаются, но и «обостряются каждый день новыми способами». Особенно заметен всплеск в сегментах агентного ИИ и инференса, что увеличивает важность не только GPU, но и CPU, а также систем хранения данных. CoreWeave, обладающая уникальным положением на рынке и обслуживающая ведущие компании вроде OpenAI, Anthropic, Meta и NVIDIA, видит структурные изменения в нагрузках. Основное узкое место смещается с доступности GPU на более комплексные инфраструктурные проблемы: наличие подготовленных дата-центров («powered shells»), логистика, квалифицированные кадры и общая способность к исполнению проектов. Компания строит свой бизнес, ориентируясь на четкие требования клиентов, и уже адаптировала архитектуру своих дата-центров под растущие потребности в CPU и памяти. Что касается конкуренции, CoreWeave выделяется репутацией, подтвержденной независимыми рейтингами, и способностью быстро разворачивать высокопроизводительные системы. В ближайшие годы ожидается массовое развертывание новых платформ, таких как Vera Rubin, при этом модель ценообразования CoreWeave защищает ее маржу от волатильности стоимости компонентов, таких как HBM.

marsbit28 мин. назад

Интервью с сооснователем CoreWeave: Спрос на ИИ, кажется, «обостряется» с каждым днём

marsbit28 мин. назад

Вырисовывается план обратного выкупа Manus: китайские инвесторы предлагают 20 миллиардов долларов для возврата акций, путь к IPO в Гонконге становится яснее

По сообщению The Information, китайские инвесторы Manus, включая Tencent, Sequoia China и ZhenFund, планируют выкупить долю компании у Meta примерно за 2 миллиарда долларов США по первоначальной цене продажи в декабре 2024 года. После того как в апреле китайские регулирующие органы запретили сделку по приобретению Meta, инвесторы разрабатывают схему реструктуризации, включая создание совместного предприятия в Китае для соответствия требованиям и подготовки к потенциальному IPO в Гонконге. По данным источников, выручка Manus выросла в 4-5 раз за полгода, достигнув годового уровня в 4-5 миллиардов долларов, что укрепило уверенность инвесторов в выкупе. Хотя Benchmark не участвует в сделке, китайский капитал в итоге получит более концентрированную долю. Детали сделки, включая структуру совместного предприятия и график финансирования, все еще обсуждаются. Этот случай может стать прецедентом для китайских стартапов в области ИИ при решении вопросов соответствия трансграничным слияниям и поглощениям.

marsbit37 мин. назад

Вырисовывается план обратного выкупа Manus: китайские инвесторы предлагают 20 миллиардов долларов для возврата акций, путь к IPO в Гонконге становится яснее

marsbit37 мин. назад

STRC «отвязался» на 11%: способен ли перпетуум мобиле Strategy продолжать вращаться?

Приоритетные акции STRC компании Strategy продолжают отставать от целевого номинала в 100 долларов, достигнув 15 июня минимальной цены в 83,26 доллара, что представляет собой скидку более 11%. Этот «отход от якоря» ставит под сомнение основную конструкцию продукта и вызывает вопросы об устойчивости всей капитальной модели компании. STRC, перманентные привилегированные акции, созданные как инструмент с фиксированным доходом, являются ключевым двигателем в цикле наращивания капитала Strategy. Их стабильная цена около 100 долларов позволяет компании бесконечно привлекать средства через механизм ATM, не размывая права акционеров обычных акций (MSTR) и не увеличивая долговую нагрузку, и направлять эти средства на покупку биткойнов. Однако, несмотря на увеличение дивидендной доходности до 11,5% и переход на полумесячные выплаты, цена STRC продолжает падать. Поверхностной причиной может быть цепная реакция закрытия позиций с использованием кредитного плеча. Но более глубокая проблема заключается в доверии рынка к ликвидности Strategy. Тревогу вызывает анализ JPMorgan, согласно которому денежных средств компании хватит лишь на 6,3 месяца выплаты дивидендов по привилегированным акциям. Хотя Strategy утверждает, что её биткойн-резервов хватит на 32 года выплат, первая в истории продажа компанией 32 биткойнов в начале июня посеяла сомнения в абсолютной приверженности стратегии «никогда не продавать». Постоянный дисконт STRC ослабляет способность Strategy привлекать финансирование. Если эта ситуация сохранится, а денежные резервы будут истощаться, могут усилиться опасения, что компании придётся продавать биткойны для выполнения обязательств по дивидендам. Это, в свою очередь, может превратить Strategy — одного из крупнейших покупателей на рынке биткойнов — в продавца, что создаст значительное давление на цену криптовалюты.

链捕手45 мин. назад

STRC «отвязался» на 11%: способен ли перпетуум мобиле Strategy продолжать вращаться?

链捕手45 мин. назад

Альткоины испытывают самое сильное давление со стороны продаж за 2020 год, показывают данные CryptoQuant

По данным аналитической платформы CryptoQuant, альткойны переживают самый сильный период продаж на спотовом рынке с 2020 года. Кумулятивная разница между объемами покупок и продаж составила около $209 млрд за продолжительный период, что указывает на чрезвычайно слабый спрос. Основными причинами давления являются слабый интерес розничных инвесторов, переток капитала в более безопасные активы, такие как биткоин (во многом благодаря институциональным ETF) и эфириум, а также в стейблкоины и продукты с доходностью. Многие альткойны оказались в ловушке: они слишком рискованны для консервативного капитала, но недостаточно волатильны для спекулянтов. Хотя экстремальное давление продаж может иногда служить контрарианским сигналом, указывающим на исчерпание нисходящего движения, данные пока не подтверждают немедленного разворота. Для начала устойчивого восстановления альткойнам необходим переход от чистых продаж к стабильному накоплению активов на спотовом рынке, а также улучшение ситуации в различных секторах. Пока же ситуация остается скорее индикатором глубокой непопулярности альткойнов, чем гарантией скорого начала "альткойн-сезона".

bitcoinist1 ч. назад

Альткоины испытывают самое сильное давление со стороны продаж за 2020 год, показывают данные CryptoQuant

bitcoinist1 ч. назад

Торговля

Спот
Фьючерсы

Популярные статьи

Неделя обучения по популярным токенам (2): 2026 может стать годом приложений реального времени, сектор AI продолжает оставаться в тренде

2025 год — год институциональных инвесторов, в будущем он будет доминировать в приложениях реального времени.

1.9k просмотров всегоОпубликовано 2025.12.16Обновлено 2025.12.16

Неделя обучения по популярным токенам (2): 2026 может стать годом приложений реального времени, сектор AI продолжает оставаться в тренде

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на AI (AI) представлены ниже.

活动图片