Tras las notas de la IA, se esconde un "creador de exámenes" chino

marsbit发布于2026-06-20更新于2026-06-20

文章摘要

Cada vez que se lanza un modelo de IA de vanguardia, la comunidad fija su atención en ciertas "hojas de resultados" familiares: MMLU-Pro, MMMU, MMMU-Pro. Estos puntos de referencia se han convertido en exámenes estándar para evaluar y comparar modelos como GPT, Claude, Gemini, Llama, Qwen y DeepSeek. Detrás de estas influyentes evaluaciones está el investigador chino Wenhu Chen, profesor asistente en la Universidad de Waterloo y fundador del TIGERLab (apodado "虎头帮"). Su trabajo surge de una necesidad crítica: a medida que los modelos avanzaban, las pruebas antiguas como MMLU se saturaban con puntuaciones casi perfectas, dejando de ser útiles para discernir diferencias reales. En 2024, Chen y su equipo presentaron MMLU-Pro, una renovación exhaustiva del original. Con 12,032 preguntas de 14 disciplinas, aumenta las opciones de respuesta de 4 a 10 para reducir las conjeturas e incorpora problemas más complejos que requieren razonamiento. El resultado fue una caída del 16% al 33% en la precisión de los modelos y una evaluación más estable y discriminatoria, rápidamente adoptada por la industria. Su contribución se extiende al ámbito multimodal con MMMU, un conjunto de 11,500 preguntas que combinan imágenes (gráficos, mapas, fórmulas) con conocimientos académicos para probar una comprensión integrada. Incluso los mejores modelos como GPT-4V inicialmente solo alcanzaron un 56% de precisión, revelando un largo camino por recorrer. Su sucesor, MMMU-Pro, cierra aún más las brechas,...

Cada vez que se lanza un modelo de vanguardia, el mundo de la IA fija su mirada en unas cuantas hojas de calificaciones familiares.

MMLU-Pro, MMMU, MMMU-Pro... Estos nombres pueden resultar extraños para los usuarios comunes, pero para las empresas de modelos y los investigadores, se han convertido casi en "asignaturas estándar". GPT, Claude, Gemini, Llama, Qwen, DeepSeek... todos entregan constantemente sus resultados en estos benchmarks.

"El talento se demuestra en la práctica". El desempeño de los modelos a menudo depende de estas puntuaciones para demostrarlo.

Muchas de las gráficas de comparación de rendimiento en las presentaciones de modelos no pueden prescindir de ellas; algunas clasificaciones en HuggingFace también se basan en estos sistemas de evaluación. Incluso podría decirse que hoy en día, cuando la industria de la IA discute sobre las capacidades de los modelos, ya utiliza un lenguaje común definido por estos benchmarks.

Pero lo interesante es que casi todos se centran en las puntuaciones, pero pocos saben quién crea los exámenes. Y detrás de MMLU-Pro, MMMU y MMMU-Pro, se puede ver el mismo nombre: Chen Wenhu.

Es profesor asistente en el Departamento de Ciencias de la Computación de la Universidad de Waterloo en Canadá. En Google Scholar, sus artículos han sido citados más de 30,000 veces.

También es el fundador del "TIGERLab" (Laboratorio de Investigación en Generación de Texto e Imagen). Debido a que su nombre en inglés contiene "TIGER", Chen Wenhu le dio un nombre en chino muy distintivo: "Hutou Bang" (La Pandilla del Tigre).

01

Después del fallo del viejo examen

Chen Wenhu llamó la atención de más personas inicialmente debido a MMLU-Pro.

MMLU solía ser uno de los benchmarks de evaluación más utilizados para medir las capacidades de los modelos de lenguaje grandes. Es como un examen integral que cubre múltiples disciplinas, utilizado para medir el rendimiento de los modelos en tareas de comprensión del conocimiento y razonamiento.

En un principio, este examen era muy útil. Las diferencias entre modelos podían reflejarse en las puntuaciones, y la industria también podía observar a través de él si los modelos de lenguaje grandes realmente estaban progresando.

Pero pronto surgió el problema.

A medida que las capacidades de los modelos mejoraban continuamente, MMLU gradualmente se volvió "insuficiente". Las puntuaciones de los modelos de vanguardia eran cada vez más altas, y las diferencias entre ellos cada vez más pequeñas.

Este problema se volvió aún más evidente después de que OpenAI lanzara o3. La precisión de o3 en MMLU ya se acercaba al 100%, y otros modelos de vanguardia también obtuvieron puntuaciones cercanas a la perfección.

Esto puede sonar como una buena noticia, pero para la evaluación, significa problemas.

Si todos pueden obtener puntuaciones cercanas a la perfección en un examen, es difícil seguir determinando quién es mejor y en qué aspectos. Aún puede demostrar que los modelos poseen ciertas capacidades, pero ya no es adecuado para medir nuevos progresos.

La industria de la IA necesitaba un examen más difícil y menos susceptible de ser "aprobado con trucos".

En 2024, Chen Wenhu y su equipo lanzaron MMLU-Pro.

MMLU-Pro reformó este examen en lugar de simplemente ampliar el banco de preguntas.

Contiene 12,032 preguntas que cubren 14 campos, incluyendo matemáticas, física, química, derecho, ingeniería, psicología, salud, etc. En comparación con la versión original de MMLU, amplió las opciones de respuesta de 4 a 10, reduciendo la probabilidad de que el modelo adivine correctamente; al mismo tiempo, incorporó más preguntas centradas en el razonamiento y eliminó aquellas relativamente simples, ambiguas o con poca capacidad discriminatoria del banco original.

El efecto fue directo.

Los resultados del artículo mostraron que la precisión de los modelos en MMLU-Pro disminuyó entre un 16% y un 33% en comparación con la MMLU original. Cuando se probó el mismo modelo con 24 estilos diferentes de prompts, la fluctuación en los resultados también disminuyó de aproximadamente un 4-5% en la MMLU original a alrededor de un 2%.

Es decir, este nuevo examen no solo es más difícil, sino también más estable.

Permitió que los modelos que parecían sobresalientes en el examen antiguo volvieran a mostrar diferencias significativas. También se hizo más fácil discernir si un modelo realmente sabe razonar o simplemente es mejor para enfrentarse a preguntas antiguas.

02

Benchmarks útiles

MMLU-Pro pronto fue adoptado por la industria.

Posteriormente, MMLU-Pro ingresó a la pista de conjuntos de datos y benchmarks de NeurIPS 2024 y también fue integrado en el framework de evaluación de modelos de lenguaje lm-evaluation-harness de EleutherAI. Para la comunidad de modelos de código abierto, esto significó que ya no era solo un conjunto de datos en un artículo, sino que se había integrado en la cadena de herramientas de evaluación comúnmente utilizada.

Muchos modelos comenzaron a reportar puntuaciones de MMLU-Pro en sus lanzamientos. Algunas clasificaciones en HuggingFace también lo incorporaron a sus sistemas de evaluación.

Si MMLU-Pro resolvía el problema del "fallo del viejo examen" en la evaluación de modelos de lenguaje, entonces MMMU situó a Chen Wenhu y TIGERLab en el centro de la evaluación multimodal.

El problema de los modelos multimodales es más complejo.

Los modelos de lenguaje responden preguntas principalmente procesando texto. Los modelos multimodales, en cambio, deben procesar simultáneamente información en diferentes formatos como imágenes, gráficos, diagramas, mapas, tablas, partituras, estructuras químicas, etc. No solo deben entender el enunciado, sino también comprender realmente el contenido de las imágenes y combinar la información visual, la información textual y el conocimiento disciplinario para razonar.

El benchmark MMMU incluye 11,500 preguntas multimodales, provenientes de exámenes universitarios, pruebas y libros de texto, cubriendo seis grandes áreas: arte y diseño, negocios, ciencias, salud y medicina, humanidades y ciencias sociales, tecnología e ingeniería, que se subdividen en 30 disciplinas y 183 subcampos.

Estas preguntas no se limitan a preguntar al modelo "qué hay en la imagen"; exigen que el modelo combine la información de la imagen con el conocimiento disciplinario, como lo haría un estudiante al resolver un problema profesional.

Cuando se lanzó MMMU, el equipo de investigación evaluó 14 modelos multimodales de código abierto, así como modelos propietarios representativos como GPT-4V y Gemini Ultra. Incluso los modelos propietarios más potentes en ese momento, GPT-4V y Gemini Ultra, solo alcanzaron precisiones del 56% y 59% respectivamente.

Estas cifras indican que, aunque los modelos multimodales parecen avanzar rápidamente, aún tienen un amplio margen de mejora en problemas que realmente requieren comprensión profesional y razonamiento.

Posteriormente, el equipo de Chen Wenhu lanzó MMMU-Pro, bloqueando aún más los caminos que permitían a los modelos eludir la información visual. Filtra preguntas que podrían responderse solo con modelos de texto, amplía las opciones de respuesta e introduce una configuración "vision-only", incrustando la pregunta en la imagen misma, exigiendo al modelo completar simultáneamente la lectura visual y la comprensión textual.

En pocas palabras, evita que el modelo "adivine la respuesta solo leyendo el texto".

Este tipo de trabajo puede sonar un tanto minucioso, pero es crucial. Porque los modelos multimodales en el futuro se integrarán en escenarios como la medicina, la educación, la investigación científica, el diseño, la ingeniería, etc., y solo ser capaces de describir imágenes no es suficiente. Deben poder juzgar, razonar, explicar y también encontrar la parte verdaderamente útil dentro de información visual compleja.

03

La persona detrás del "examen"

El trabajo posterior de Chen Wenhu en MMLU-Pro y MMMU proviene de su línea de investigación de siempre.

Sus intereses de investigación siempre han estado relacionados con la comprensión de información compleja, preguntas y respuestas basadas en conocimiento y razonamiento.

Se graduó de la licenciatura en la Universidad de Ciencia y Tecnología de Huazhong, luego obtuvo una maestría en la Universidad RWTH de Aquisgrán en Alemania y un doctorado en Ciencias de la Computación en la Universidad de California, Santa Bárbara. Durante su doctorado, ya comenzó a investigar en direcciones como preguntas y respuestas complejas, razonamiento sobre tablas y localización de evidencias en el conocimiento.

Este tipo de tareas tiene un punto en común: la respuesta a menudo no se encuentra en un solo texto.

Puede estar oculta en una tabla, puede requerir combinar un párrafo de texto con una imagen, o puede requerir que el modelo primero recupere información y luego la integre, calcule y razone. El modelo no puede limitarse a repetir conocimientos existentes.

Proyectos en los que Chen Wenhu ha participado, como HybridQA, TabFact, Program of Thoughts, MAmmoTH, están relacionados con esta línea.

Esto también explica por qué es sensible a las brechas en la evaluación de modelos.

Un buen benchmark no consiste simplemente en hacer las preguntas cada vez más difíciles, sino en prever dónde es más probable que el modelo "adivine correctamente" o "parezca que sabe".

El modelo puede haber memorizado el banco de preguntas, puede adivinar respuestas basándose en las opciones, o puede usar texto para eludir la información visual... Una buena evaluación debe cubrir estas brechas.

Después de su doctorado, Chen Wenhu ingresó a Google Research y posteriormente, de 2021 a 2025, participó en el desarrollo del modelo multimodal Gemini y en trabajos de evaluación en Google DeepMind. Esta experiencia también fue importante. El contacto prolongado con el desarrollo de modelos de vanguardia le permitió comprender mejor cómo crecen las capacidades de los modelos y detectar más fácilmente los posibles sesgos y puntos ciegos en la evaluación.

En el otoño de 2022, Chen Wenhu se unió a la Facultad de Ciencias de la Computación de la Universidad de Waterloo como profesor asistente. Ese mismo año, fue seleccionado como Canada CIFAR AI Chair. Posteriormente, fundó el "TIGERLab" (también conocido como Hutou Bang), continuando su investigación en torno a modelos fundamentales, capacidades multimodales y benchmarks.

Hutou Bang no se limita a crear benchmarks; también realiza investigación en modelos y sistemas.

En el ámbito del video, UniVideo intenta integrar la comprensión, generación y edición de video en un mismo framework, permitiendo que el modelo no solo genere una secuencia, sino que también comprenda el contenido, responda a instrucciones y complete modificaciones. Vamba se centra en la comprensión de videos largos, abordando problemas de memoria, cálculo y eficiencia en el entrenamiento de videos de hasta una hora. MoCha, desarrollado en colaboración con el equipo de IA generativa de Meta, se centra en la generación de personajes virtuales parlantes, creando videos de personajes de alta calidad a partir de descripciones de voz y texto.

Un creador de exámenes que nunca resuelve problemas no puede crear buenos exámenes. Desarrollar modelos ellos mismos, a su vez, los hace más adecuados para la evaluación.

Porque una evaluación verdaderamente buena a menudo surge de comprender los límites de las capacidades de los modelos. Solo sabiendo cómo se construyen los modelos, conociendo los problemas que encuentran en tareas reales, es más fácil diseñar preguntas que puedan medir diferencias y exponer problemas.

Hoy en día, Chen Wenhu se ha unido al Super Intelligent Lab de Meta, donde su trabajo continúa centrándose en datos de preentrenamiento multimodal y evaluación, sirviendo a los modelos fundamentales de Meta.

La industria de la IA no carece de personas visibles. En la industria de la IA, los focos suelen centrarse en emprendedores, investigadores destacados y los responsables de las grandes empresas de modelos. Los lanzamientos de nuevos productos, noticias sobre financiación, modelos de código abierto y reajustes de equipo suelen atraer más la atención del público y hacen que estos nombres sean más conocidos.

Pero hoy en día, la participación del talento chino en el campo de la IA va mucho más allá de estas posiciones más visibles.

Este artículo proviene de la cuenta pública de WeChat "字母AI", autor: Xiaojinya

热门币种推荐

相关问答

Q¿Quién está detrás de la creación de los puntos de referencia MMLU-Pro, MMMU y MMMU-Pro que evalúan modelos de IA?

ADetrás de estos puntos de referencia está el investigador Chen Wenhu, profesor asistente en el Departamento de Ciencias de la Computación de la Universidad de Waterloo en Canadá.

Q¿Qué problema resolvió MMLU-Pro en comparación con el anterior MMLU?

AMMLU-Pro resolvió el problema de que, a medida que mejoraban los modelos, sus puntuaciones en MMLU se acercaban demasiado a la perfección, dificultando distinguir cuál era más capaz. Para esto, MMLU-Pro hizo preguntas más difíciles, aumentó las opciones de respuesta y priorizó preguntas que requieren razonamiento.

Q¿En qué se enfoca la evaluación MMMU para modelos de IA?

AMMMU (Multimodal Massive Understanding Benchmark) es una evaluación que mide la capacidad de los modelos multimodales para resolver problemas complejos que combinan información de texto e imágenes, como diagramas, mapas o fórmulas, en diversas disciplinas académicas.

Q¿Por qué es importante que los creadores de estos puntos de referencia, como Chen Wenhu, también desarrollen modelos de IA?

AEs importante porque un evaluador que también desarrolla modelos comprende mejor sus límites y cómo funcionan internamente. Esto le permite diseñar pruebas más precisas, que eviten que los modelos "aprueben por suerte" y detecten mejor sus verdaderas capacidades y debilidades.

Q¿En qué instituciones ha trabajado Chen Wenhu en su carrera investigadora sobre IA?

AChen Wenhu obtuvo su doctorado en la Universidad de California, Santa Bárbara, trabajó en Google Research y Google DeepMind, y actualmente es profesor en la Universidad de Waterloo y forma parte del super laboratorio de inteligencia de Meta.

你可能也喜欢

Arthur Hayes 重新将 Cardano 与 XRP 的实用性辩论置于聚光灯下

TL;DR - Arthur Hayes质疑Cardano和XRP是否具备足够的实际效用,以支撑其社区的信心。 - 这一批评虽具挑衅性,但触及了核心问题:加密网络越来越需要可衡量的使用量,而不仅仅是持有者的忠诚度。 - 两个生态都有反驳的理由:Ripple在支付领域的推进,Cardano的治理和质押基础设施。 摘要: BitMEX联合创始人Arthur Hayes近期将Cardano和XRP重新推入“效用辩论”的焦点。他质疑这两种资产是否过度依赖社区财富效应和忠诚度,而缺乏足够的实际交易需求证据。Hayes的风格直率,但其提出的问题值得深思:在2026年,主流山寨币的价值应有多少来自网络实际使用,有多少仍可仅靠信念支撑? Cardano和XRP拥有高度忠诚的社区,但批评者认为这种忠诚可能掩盖了使用量的不足。XRP的效用路径主要集中在支付、流动性和机构结算,Ripple多年来也致力于跨境金融产品,但批评者指出其代币的实际交易需求仍不够清晰和可衡量。Cardano则强调其质押机制、研究驱动的发展、去中心化治理以及Voltaire治理时代,支持者视其为严谨,批评者则认为其进展缓慢。 当前加密市场已变得更加严格,投资者越来越关注活跃用户、费用产生、开发者活动、稳定币流动性、DeFi深度或支付量等可衡量的使用指标。Hayes的批评提醒我们,忠诚度虽能提供流动性和持久力,但长期来看,网络需要将忠诚转化为可见的、可重复的效用。对于XRP,可能需要更明确的支付需求证据;对于Cardano,则需要更多应用使用、治理参与和链上经济活动。 无论是否同意Hayes的观点,他提出的问题迫使社区思考如何弥合叙事与实证之间的差距。Cardano和XRP的支持者可以反驳其语气,但仍需面对根本挑战:展示数据、证明使用量,并以超越现有用户的方式证明其价值。

bitcoinist1小时前

Arthur Hayes 重新将 Cardano 与 XRP 的实用性辩论置于聚光灯下

bitcoinist1小时前

尽管活跃地址跌至45天低点,卡尔达诺巨鲸仍在持续积累ADA

尽管卡尔达诺(Cardano)网络的每日活跃地址数降至45天低点,但持有超过10万ADA的大户(鲸鱼)钱包数量增长了1.2%。这表明在零售用户活动低迷时期,机构或大户投资者正在持续积累ADA。 这一数据分歧是核心故事:鲸鱼可能在采取更长线的视角,而日常网络使用暂时冷却。这对市场结构而言可能是一个建设性信号,但并不等同于短期价格立即上涨的动力。 关键需要注意的是,这种积累现象不应被解读为价格即将反转的保证,而应视为一个长期趋势信号。加密货币市场擅长将单一数据点迅速放大为市场叙事,但更审慎的看法是:这是一个值得关注的信号,而非确定性预言。 对于交易者而言,此类故事的影响会扩散至相关交易领域,例如影响山寨币情绪、机构仓位布局,以及对资产供需支撑的判断。在流动性较薄的市场中,这些二阶效应可能与原始新闻本身同样重要。 下一步应关注此模式是否会得到后续资金流、链上指标、持仓量等数据的持续确认,以判断这是否会成为一个更持续的市场主题,抑或只是短期的仓位调整。当前市场正处于资金可能流出、轮动至更安全的加密资产或暂存稳定币寻求机会的复杂阶段,此信息为解读市场情绪增添了又一参考片段。

bitcoinist1小时前

尽管活跃地址跌至45天低点,卡尔达诺巨鲸仍在持续积累ADA

bitcoinist1小时前

交易

现货

热门文章

如何购买EDGE

欢迎来到HTX.com!我们已经让购买edgeX(EDGE)变得简单而便捷。跟随我们的逐步指南,放心开始您的加密货币之旅。第一步:创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步:前往买币页面,选择您的支付方式信用卡/借记卡购买:使用您的Visa或Mastercard即时购买edgeX(EDGE)。余额购买:使用您HTX账户余额中的资金进行无缝交易。第三方购买:探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买:在HTX平台上直接与其他用户交易。HTX场外交易台(OTC)购买:为大量交易者提供个性化服务和竞争性汇率。第三步:存储您的edgeX(EDGE)购买完您的edgeX(EDGE)后,将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步:交易edgeX(EDGE)在HTX的现货市场轻松交易edgeX(EDGE)。访问您的账户,选择您的交易对,执行您的交易,并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

966人学过发布于 2026.03.31更新于 2026.06.02

如何购买EDGE

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对EDGE(EDGE)币价的意见。

活动图片