За кулисами оценок ИИ стоит китайский «составитель заданий»

marsbitОпубликовано 2026-06-19Обновлено 2026-06-19

Введение

За заголовками AI-бенчмарков, таких как MMLU-Pro, MMMU и MMMU-Pro, стоит имя китайского исследователя Вэньху Чэня, доцента Университета Ватерлоо и основателя TIGER Lab. Его работа фокусируется на создании точных и сложных тестов для оценки способностей языковых и мультимодальных моделей. Когда старый стандарт MMLU перестал эффективно различать передовые модели, Чэнь и его команда разработали MMLU-Pro. Этот новый бенчмарк, содержащий более 12 000 вопросов, сделал задачи сложнее и стабильнее, что позволило снова выявить разницу между моделями, которые на старом тесте показывали почти идеальные результаты. В области мультимодального ИИ команда Чэня создала бенчмарк MMMU, который проверяет способность моделей понимать и рассуждать на основе комбинации текста, изображений, схем и других визуальных данных из профессиональных областей. Даже самые мощные модели изначально показывали на нём низкую точность, что выявило значительный пробел в их реальных способностях. Последующее обновление, MMMU-Pro, ещё больше усложнило задачу, предотвращая попытки моделей игнорировать визуальную информацию. Исследовательский интерес Чэня к сложным вопросам, требующим рассуждений и синтеза информации из разных источников, сформировался ещё во время его работы в Калифорнийском университете и позже в Google DeepMind над проектом Gemini. Этот практический опыт в разработке моделей помогает ему создавать более эффективные и «защищённые от обмана» тесты. Помимо оценки, его лаборатория также занимается и...

Автор | Алфавит ИИ

Каждый раз, когда выпускается передовая модель, сообщество ИИ пристально следит за несколькими знакомыми табелями успеваемости.

MMLU-Pro, MMMU, MMMU-Pro... Эти названия могут быть незнакомы обычным пользователям, но для компаний-разработчиков моделей и исследователей они уже стали почти "стандартными предметами". GPT, Claude, Gemini, Llama, Qwen, DeepSeek постоянно сдают "экзамены" по этим бенчмаркам.

"Коня узнают по зубам" — часто именно эти баллы служат доказательством того, насколько хороша модель.

Многие графики сравнения производительности на презентациях моделей не обходятся без них; некоторые рейтинги на HuggingFace также построены на этих системах оценки. Можно даже сказать, что сегодня отрасль ИИ, обсуждая возможности моделей, использует уже общий язык, определённый этими бенчмарками.

Но что интересно, почти все следят за баллами, однако мало кто знает, кто составляет задания. А за MMLU-Pro, MMMU и MMMU-Pro стоит одно и то же имя — Вэньху Чэнь (Chen Wenhu).

Он — доцент факультета компьютерных наук Университета Ватерлоо в Канаде, его статьи в Google Scholar цитировались более 30 000 раз.

Он также основатель "TIGERLab", полное английское название которой — Text and Image GEnerative Research Lab. Поскольку в названии есть иероглиф «虎» (тигр), Чэнь Вэньху дал ей очень запоминающееся китайское название — «Банда Тигровой Головы».

После того, как старый экзамен перестал работать

Первоначально больше людей обратили внимание на Чэнь Вэньху из-за MMLU-Pro.

MMLU когда-то была одним из наиболее часто используемых бенчмарков для оценки способностей больших языковых моделей. Она похожа на комплексный экзамен, охватывающий различные дисциплины, и используется для измерения способности модели к пониманию знаний и рассуждениям.

На ранних этапах этот экзамен был очень полезен. Разница между моделями была заметна по баллам, и отрасль также могла с его помощью наблюдать, действительно ли большие языковые модели прогрессируют.

Но проблема вскоре возникла.

По мере постоянного роста способностей моделей MMLU постепенно стала "недостаточно сложной". Баллы передовых моделей становились всё выше, а разрыв между ними — всё меньше.

После выпуска OpenAI o3 эта проблема стала ещё более очевидной. Точность o3 на MMLU уже приближалась к 100%, и другие передовые модели также один за другим стали показывать результаты, близкие к максимальным.

Звучит как хорошая новость, но для оценки это, наоборот, означает проблемы.

Если на экзамене все могут получить баллы, близкие к максимальным, становится трудно определить, кто сильнее и в чём именно. Он всё ещё может доказывать, что модель обладает определёнными способностями, но уже не подходит для измерения нового прогресса.

Отрасли ИИ нужен был более сложный и менее "обманываемый" экзамен.

В 2024 году Чэнь Вэньху и его команда представили MMLU-Pro.

MMLU-Pro не просто расширила базу вопросов, а полностью переработала этот экзамен.

Он содержит 12032 вопроса, охватывающих 14 областей: математику, физику, химию, право, инженерию, психологию, здравоохранение и другие. По сравнению с оригинальной MMLU, количество вариантов ответа увеличено с 4 до 10, чтобы снизить вероятность угадывания; одновременно добавлено больше вопросов, требующих рассуждений, а относительно простые, двусмысленные или недостаточно дифференцирующие вопросы из исходной базы данных удалены.

Эффект был прямым.

Результаты исследования показали, что точность моделей на MMLU-Pro по сравнению с оригинальной MMLU снизилась на 16–33%. Когда одну и ту же модель тестировали с 24 различными стилями промптов, разброс результатов также уменьшился с 4–5% у оригинальной MMLU до примерно 2%.

То есть этот новый экзамен не только сложнее, но и стабильнее.

Он снова позволил увидеть разрыв между моделями, которые на старом экзамене выглядели одинаково выдающимися. Стало легче определить, действительно ли модель умеет рассуждать или просто лучше справляется со старыми заданиями.

Полезные бенчмарки

MMLU-Pro быстро была взята на вооружение отраслью.

Впоследствии MMLU-Pro вошла в трек наборов данных и бенчмарков NeurIPS2024 и также была интегрирована в фреймворк оценки языковых моделей lm-evaluation-harness от EleutherAI. Для сообщества open-source моделей это означало, что она перестала быть просто набором данных в статье и вошла в стандартный инструментарий для оценки.

Многие модели при выпуске начали сообщать баллы по MMLU-Pro. Некоторые рейтинги на HuggingFace также включили её в свою систему оценки.

Если MMLU-Pro решала проблему "неэффективности старого экзамена" в оценке языковых моделей, то MMMU вывела Чэнь Вэньху и TIGERLab в центр оценки мультимодальности.

Проблема мультимодальных моделей ещё сложнее.

Языковые модели обрабатывают в основном текст. Мультимодальные же модели должны одновременно обрабатывать информацию в разных форматах: изображения, диаграммы, схемы, карты, таблицы, нотные записи, химические структуры и т.д. Им нужно не только понять условие задачи, но и действительно распознать содержание на изображении, а затем совместить визуальную информацию, текстовую информацию и предметные знания для рассуждения.

Бенчмарк MMMU содержит 11,5 тысяч мультимодальных вопросов, взятых из университетских экзаменов, тестов и учебников, охватывая шесть широких областей: искусство и дизайн, бизнес, естественные науки, здоровье и медицина, гуманитарные и социальные науки, технологии и инженерия, с дальнейшим разделением на 30 дисциплин и 183 подраздела.

Эти вопросы не просто спрашивают модель "что на картинке". Они требуют от модели, как от студента на профессиональном экзамене, сочетать информацию с изображения и предметные знания.

При выпуске MMMU исследовательская группа протестировала 14 открытых мультимодальных моделей, а также представительные проприетарные модели, такие как GPT-4V и GeminiUltra. Даже самые сильные на тот момент проприетарные модели, GPT-4V и GeminiUltra, достигли точности всего 56% и 59% соответственно.

Эти цифры показывают, что, хотя мультимодальные модели, казалось бы, быстро прогрессируют, в задачах, действительно требующих профессионального понимания и рассуждений, у них по-прежнему остаётся огромное пространство для роста.

Позже команда Чэнь Вэньху выпустила MMMU-Pro, чтобы ещё больше перекрыть модели возможность обойти визуальную информацию. Она отфильтровывает вопросы, на которые можно ответить, используя только текстовую модель, расширяет варианты ответов и вводит режим "vision-only", где вопрос встроен в само изображение, требуя от модели одновременно выполнять визуальное считывание и текстовое понимание.

Проще говоря, не дать модели "угадать ответ, прочитав только текст".

Подобная работа может показаться несколько рутинной, но она критически важна. Потому что в будущем мультимодальные модели будут внедряться в такие области, как здравоохранение, образование, научные исследования, дизайн, инженерия, и просто описывать картинки будет недостаточно. Они должны уметь оценивать, рассуждать, объяснять, а также находить действительно полезную информацию в сложных визуальных данных.

Человек за "экзаменами"

Работа Чэнь Вэньху над MMLU-Pro и MMMU проистекает из его давних исследовательских интересов.

Его исследовательские интересы всегда были связаны с пониманием сложной информации, вопросами на знания и рассуждениями.

Он окончил бакалавриат Хуачжунского университета науки и технологий, затем получил степень магистра в Рейнско-Вестфальском техническом университете Ахена в Германии, а после — докторскую степень по компьютерным наукам в Калифорнийском университете в Санта-Барбаре. Во время докторантуры он уже начал исследования в области сложных вопросно-ответных систем, рассуждений на основе таблиц, поиска доказательств из знаний и т.д.

У таких задач есть общая черта: ответ часто не содержится в одном единственном тексте.

Он может скрываться в таблице, может требовать совмещения текста и изображения, а может требовать от модели сначала извлечь информацию, затем интегрировать, вычислить и сделать вывод. Модель не должна уметь только пересказывать известные знания.

Проекты, в которых участвовал Чэнь Вэньху, такие как HybridQA, TabFact, ProgramofThoughts, MAmmoTH, связаны именно с этой линией.

Это также объясняет, почему он так чувствителен к уязвимостям в оценке моделей.

Хороший бенчмарк — это не просто увеличение сложности вопросов, а предвидение того, где модель легче всего может "угадать ответ" или "казаться знающей".

Модель могла запомнить базу вопросов, может угадать ответ по вариантам, может использовать текст в обход визуальной информации... Хорошая оценка должна закрыть эти лазейки.

После защиты докторской диссертации Чэнь Вэньху поступил в Google Research, а затем с 2021 по 2025 год участвовал в работе Google DeepMind над мультимодальной моделью Gemini и её оценкой. Этот опыт также очень важен. Длительное погружение в разработку передовых моделей позволило ему лучше понять, как растут способности моделей, и легче увидеть возможные смещения и слепые зоны в оценке.

Осенью 2022 года Чэнь Вэньху присоединился к факультету компьютерных наук Университета Ватерлоо в качестве доцента. В том же году он был включён в программу Canada CIFAR AI Chair. Позже он основал "TIGERLab" (то есть «Банду Тигровой Головы»), продолжив исследования в области базовых моделей, мультимодальных способностей и бенчмарков.

Банда Тигровой Головы занимается не только бенчмарками, но и исследованиями моделей и систем.

В области видео UniVideo пытается объединить понимание, генерацию и редактирование видео в одной архитектуре, чтобы модель не только генерировала кадры, но и понимала содержание, реагировала на инструкции и выполняла изменения. Vamba нацелена на понимание длинных видео, решая проблемы с памятью, вычислениями и эффективностью обучения, возникающие при работе с видео длительностью около часа. Совместный с командой генеративного ИИ Meta проект MoCha сосредоточен на генерации говорящих виртуальных персонажей, создавая высококачественные видеоролики с людьми на основе голоса и текстового описания.

Составитель заданий, который никогда сам не решает задач, не может составить хорошие задания. Самостоятельная работа над моделями, в свою очередь, делает их более подходящими для оценки.

Потому что действительно хорошая оценка часто возникает из понимания границ возможностей модели. Только зная, как создаются модели, с какими проблемами они сталкиваются в реальных задачах, легче разработать задания, которые могут выявить различия и подчеркнуть проблемы.

В настоящее время Чэнь Вэньху перешёл в Super Intelligence Lab компании Meta, где его работа продолжает быть сосредоточена на данных и оценке для мультимодального предобучения, обслуживая базовые модели Meta.

В отрасли ИИ нет недостатка в заметных фигурах. В мире ИИ внимание обычно приковано к предпринимателям, звёздным исследователям и руководителям компаний, разрабатывающих большие модели. Выпуск новых продуктов, новости о финансировании, open-source модели и кадровые перестановки чаще всего привлекают внимание извне, и эти имена легче всего попадают в поле зрения общественности.

Но сегодня участие китайских талантов в области ИИ уже далеко выходит за рамки этих самых заметных позиций.

Трендовые криптовалюты

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

ZRX（0X）ZRX

PancakeSwapCAKE

Связанные с этим вопросы

QКто является создателем популярных бенчмарков для оценки ИИ, таких как MMLU-Pro и MMMU?

AСоздателем этих бенчмарков является китайский исследователь Вэньху Чэнь (Чэнь Вэньху), доцент факультета компьютерных наук Университета Ватерлоо в Канаде, основатель лаборатории TIGERLab (также известной как «Банда Тигра»).

QКакую основную проблему решает бенчмарк MMLU-Pro по сравнению с оригинальным MMLU?

AMMLU-Pro решает проблему «неэффективности старого теста»: когда современные передовые модели (например, o3 от OpenAI) стали достигать почти 100% точности на оригинальном MMLU, что сделало его непригодным для различения их реальных способностей. MMLU-Pro усложнил вопросы, увеличил количество вариантов ответов, добавил больше задач на рассуждение и устранил простые или неоднозначные вопросы, что позволило заново разделить модели по уровню.

QКак бенчмарк MMMU проверяет возможности мультимодальных моделей?

AMMMU проверяет способности мультимодальных моделей понимать и рассуждать на основе комбинации текстовой информации и разнообразных визуальных данных (изображения, диаграммы, схемы, карты, таблицы, нотные записи, химические структуры и т.д.). Задачи взяты из университетских экзаменов и учебных материалов по различным научным и профессиональным дисциплинам, требуя от модели интеграции знаний, визуального восприятия и логических рассуждений для ответа.

QКакой научный и профессиональный опыт Чэнь Вэньху способствовал его работе над созданием бенчмарков?

AОпыт Чэнь Вэньху включает исследования в области сложного понимания информации, вопросно-ответных систем и рассуждений (например, HybridQA, TabFact) ещё во время докторантуры. Позже он работал в Google Research и Google DeepMind над моделью Gemini и её оценкой, что дало ему глубокое понимание разработки передовых моделей и потенциальных уязвимостей в их оценке. Этот опыт позволяет ему проектировать бенчмарки, которые лучше выявляют истинные способности и слабые места моделей.

QПомимо разработки бенчмарков, чем ещё занимается лаборатория TIGERLab под руководством Чэнь Вэньху?

AПомимо бенчмарков, лаборатория TIGERLab (или «Банда Тигра») под руководством Чэнь Вэньху также активно занимается исследованиями и разработкой моделей и систем, особенно в области видео. Примеры проектов включают UniVideo (единая структура для понимания, генерации и редактирования видео), Vamba (понимание длинных видео) и MoCha (совместно с Meta) — генерация говорящих виртуальных персонажей. Этот практический опыт разработки моделей помогает команде создавать более качественные и релевантные оценочные бенчмарки.

Похожее

Высокий суд Австралии одержал крупную победу для ASIC в деле о криптодоходности Block Earner

Высший суд Австралии единогласно поддержал позицию Комиссии по ценным бумагам и инвестициям (ASIC) в деле против компании Block Earner. Суд постановил, что её продукт "Earner" с фиксированной доходностью, предлагавшийся в 2022 году, является финансовым продуктом и деривативом по существующему законодательству. Это означает, что для его предложения требовалась лицензия на предоставление финансовых услуг (AFSL). Дело возвращено в Федеральный суд для определения штрафных санкций. Данное решение создаёт важный прецедент, проясняя применение традиционного финансового регулирования к криптовалютным продуктам, предлагающим структурированную доходность. Оно подтверждает, что экономическая сущность продукта важнее его названия. Регуляторы теперь имеют чёткие правовые основания рассматривать подобные продукты как инвестиционные инструменты, требующие лицензирования. Хотя оспариваемый продукт более не предлагается, это решение затрагивает многие существующие и планируемые криптопродукты в Австралии и отражает глобальный тренд на подчинение крипто-доходных продуктов установленным регуляторным режимам. Для индустрии это означает необходимость переоценки соответствия продуктов законодательству, а для потребителей — напоминание о рисках, связанных с нелицензированными доходными продуктами.

bitcoinist28 мин. назад

Высокий суд Австралии одержал крупную победу для ASIC в деле о криптодоходности Block Earner

bitcoinist28 мин. назад

Blockchain.com расширяет доступ к токенизированным акциям через Ondo Finance

Блокчейн-кошелек Blockchain.com расширяет доступ к токенизированным акциям и ETF США через интеграцию с Ondo Finance. Партнерство позволяет соответствующим критериям пользователям, особенно за пределами США, получать доступ к традиционным финансовым активам напрямую через привычный криптокошелек, минуя традиционные брокерские платформы. Ondo Finance, известный игрок на рынке токенизированных реальных активов (RWA), обеспечивает технологическую и регуляторную основу для этих активов. Эта интеграция является частью общей тенденции, когда криптоплатформы стремятся сделать токенизированные традиционные активы такими же простыми в использовании, как и обычные криптотокены. Однако широкому внедрению все еще могут препятствовать вопросы регулирования, хранения активов и их выкупа.

bitcoinist2 ч. назад

Blockchain.com расширяет доступ к токенизированным акциям через Ondo Finance

bitcoinist2 ч. назад

CPU возвращается за игровой стол: начинается «игра на повышение» стоимостью 170 миллиардов долларов

6 июня 2026 года на выставке Computex NVIDIA анонсировала свой первый процессор Vera CPU, что знаменует серьезный вход компании на рынок серверных процессоров. Это событие подчеркивает растущую ключевую роль CPU в эпоху ИИ-агентов, когда задачи, связанные с выводом (инференсом) и управлением, требуют все большей вычислительной мощности и эффективности процессоров. Рынок серверных процессоров переживает бум. Прогнозы, такие как отчет UBS, предполагают, что его объем может вырасти с примерно 300 млрд долларов в 2025 году до 1700 млрд долларов к 2030 году. Основной драйвер роста — ИИ-агенты, которые выполняют сложные многошаговые задачи, требующие интенсивной работы CPU для управления потоками данных, вызова инструментов и обработки контекста. В таких сценариях нагрузка на CPU может достигать 70-90%, а соотношение CPU к GPU в системах стремится к 1:1, в отличие от 1:8 в эпоху обучения моделей. Это привело к изменению спроса и даже к росту цен на серверные CPU впервые за более чем десятилетие. AMD и Intel столкнулись с дефицитом мощностей. Спрос разделился на высокопроизводительные CPU для работы внутри стоек с GPU и более умеренные, но массовые CPU для развертывания независимых узлов агентов. Новая конкурентная динамика привлекла новых игроков, таких как NVIDIA с ее ARM-архитектурой, и открыла возможности для китайских производителей CPU, таких как Hygon (HaiGuang). Их рост поддерживается как общим рыночным бумом, так и политикой импортозамещения (программа «синьчуан»), требующей замены иностранного оборудования в государственном секторе к 2027 году. Таким образом, в центре следующего этапа развития ИИ находится не только GPU, но и эффективное взаимодействие CPU и GPU, что переопределяет ландшафт полупроводниковой индустрии.

marsbit2 ч. назад

CPU возвращается за игровой стол: начинается «игра на повышение» стоимостью 170 миллиардов долларов

marsbit2 ч. назад

Технологический поток Разведуправления: Директор по ИИ AMD публично раскритиковал Claude Code, заявив, что он «стал глупее и ленивее», Трамп заявил о полном прекращении огня в Ормузском проливе, но в проливе осталось около 80 морских мин

Эксклюзив Wired: SK Telecom, стратегический партнер Anthropic, находится под проверкой экспортного контроля США из-за возможного трансфера технологий модели Mythos. GLM-5.2 от китайской Z.AI: модель, по заявлениям, близкая по производительности к Claude Opus, полностью обходится без чипов Nvidia. В сфере чипов: MIT создает собственную ОС для изучения работы процессоров; ASML опровергает заявления США о поставках передовых EUV-установок в Китай; Amazon планирует продавать свои AI-чипы Trainium/Inferentia сторонним компаниям. Безопасность: обнаружено 10 тыс. репозиториев на GitHub, распространяющих вредоносное ПО; Apple исправила критическую уязвимость прослушки в Beats Studio Buds. На рынке: акции полупроводниковых компаний резко выросли (Intel +10.6%, Micron +8.7%); SpaceX упала на 3.56%. Геополитика и экономика: Несмотря на заявление Трампа о перемирии, в главном фарватере Ормузского пролива остается около 80 необезвреженных мин, что удерживает 80 супертанкеров с 80 млн баррелей нефти. Иран отменил дипломатическую поездку в Швейцарию. Основной контекст: Временная "разрядка" в геополитике контрастирует с глубокой и долгосрочной реструктуризацией глобальных технологических и полупроводниковых цепочек, где независимость от доминирующих игроков становится ключевым трендом.

marsbit2 ч. назад

Технологический поток Разведуправления: Директор по ИИ AMD публично раскритиковал Claude Code, заявив, что он «стал глупее и ленивее», Трамп заявил о полном прекращении огня в Ормузском проливе, но в проливе осталось около 80 морских мин

marsbit2 ч. назад

Южная Корея предпринимает шаги по регулированию трансграничных криптовалютных переводов в рамках новой системы

Южная Корея планирует включить финтех-компании в новую систему лицензирования трансграничных переводов виртуальных активов, которая должна быть введена в декабре. Согласно поправкам в Закон о валютных операциях, компаниям, осуществляющим такие переводы, необходимо будет зарегистрироваться в Министерстве экономики и финансов и отчитываться через национальную систему валютной отчётности. Это сделано для того, чтобы вывести криптовалютные переводы из-под неформального надзора и снизить риски отмывания денег. Изначально ожидалось, что доступ к системе получат в основном криптобиржи, такие как Upbit и Bithumb. Однако регуляторы, включая Банк Кореи, рассматривают возможность расширения круга участников, включив в него нетрадиционные криптоплатформы и финтех-фирмы, если они смогут эффективно осуществлять переводы. Министерство экономики и финансов и Банк Кореи совместно с отраслевыми участниками разрабатывают финальные правила реализации рамок регулирования до их запуска в декабре. Это происходит на фоне усиления надзора за цифровыми активами в стране, включая разработку правил для токенизированных ценных бумаг.

TheNewsCrypto4 ч. назад

Южная Корея предпринимает шаги по регулированию трансграничных криптовалютных переводов в рамках новой системы

TheNewsCrypto4 ч. назад

Торговля

Спот

Фьючерсы

Обсуждения

Добро пожаловать в Сообщество HTX. Здесь вы сможете быть в курсе последних новостей о развитии платформы и получить доступ к профессиональной аналитической информации о рынке. Мнения пользователей о цене на AI (AI) представлены ниже.

За кулисами оценок ИИ стоит китайский «составитель заданий»

Введение

После того, как старый экзамен перестал работать

Полезные бенчмарки

Человек за "экзаменами"

Трендовые криптовалюты

Связанные с этим вопросы

Похожее

Высокий суд Австралии одержал крупную победу для ASIC в деле о криптодоходности Block Earner

Blockchain.com расширяет доступ к токенизированным акциям через Ondo Finance

CPU возвращается за игровой стол: начинается «игра на повышение» стоимостью 170 миллиардов долларов

Южная Корея предпринимает шаги по регулированию трансграничных криптовалютных переводов в рамках новой системы

Торговля

Популярные статьи

AI Companions: Новое определение взаимодействия человека с ИИ

HTX Learn: пройдите обучение по "AI Companions" и разделите 10 000 USDT!

Неделя обучения по популярным токенам (2): 2026 может стать годом приложений реального времени, сектор AI продолжает оставаться в тренде

Обсуждения

Топ вопросы

Популярные категории

Популярные теги