Texto | Alphabet AI
Cada vez que se lanza un modelo de vanguardia, la comunidad de IA se fija en algunas hojas de calificaciones familiares.
MMLU-Pro, MMMU, MMMU-Pro... Estos nombres pueden ser desconocidos para los usuarios comunes, pero para las empresas de modelos y los investigadores, se han convertido casi en "asignaturas estándar". GPT, Claude, Gemini, Llama, Qwen, DeepSeek y otros entregan constantemente sus pruebas en estos benchmarks.
"Ver si es un caballo o una mula depende de sacarlo a pasear": qué tan bueno es un modelo a menudo depende de estos puntajes para demostrarlo.
Muchas gráficas de comparación de rendimiento en presentaciones de modelos dependen de ellos; algunos rankings en HuggingFace también se basan en estos sistemas de evaluación. Incluso se podría decir que, hoy en día, cuando la industria de la IA discute las capacidades de los modelos, utiliza un lenguaje común definido por estos benchmarks.
Pero es interesante que casi todos se centran en los puntajes, y muy pocos saben quién crea los exámenes. Y detrás de MMLU-Pro, MMMU y MMMU-Pro, se puede ver el mismo nombre: Wenhu Chen.
Es profesor asistente en el Departamento de Ciencias de la Computación de la Universidad de Waterloo en Canadá. En Google Scholar, sus artículos han sido citados más de 30,000 veces.
También es el fundador del "TIGERLab" (Laboratorio de Investigación en Generación de Texto e Imagen), cuyo nombre completo en inglés es Text and Image GEnerative Research Lab. Debido a que el nombre contiene el carácter "虎" (tigre), Wenhu Chen le dio un nombre chino muy distintivo: 虎头帮 (Banda de la Cabeza de Tigre).
Después de que los exámenes antiguos fallaron
Wenhu Chen fue notado por más personas inicialmente debido a MMLU-Pro.
MMLU solía ser uno de los benchmarks de evaluación más utilizados para las capacidades de los modelos de lenguaje grande. Es como un examen integral que cubre múltiples disciplinas, utilizado para medir el desempeño de los modelos en tareas de comprensión del conocimiento y razonamiento.
Al principio, este examen era muy útil. La brecha entre los modelos se podía distinguir por los puntajes, y la industria también podía observar si los modelos de lenguaje grande realmente estaban progresando.
Pero el problema pronto apareció.
A medida que la capacidad de los modelos siguió mejorando, MMLU gradualmente se volvió "insuficiente". Los puntajes de los modelos de vanguardia se hicieron cada vez más altos, y las diferencias entre ellos se hicieron más pequeñas.
Cuando OpenAI lanzó o3, este problema se volvió aún más evidente. La precisión de o3 en MMLU ya se acercaba al 100%, y otros modelos de vanguardia también comenzaron a obtener puntajes cercanos al máximo.
Esto puede sonar como una buena noticia, pero para la evaluación, significa un problema.
Si todos pueden obtener un puntaje casi perfecto en un examen, es difícil continuar juzgando quién es más fuerte y en qué área. Aún puede demostrar que el modelo posee ciertas capacidades, pero ya no es adecuado para medir nuevos progresos.
La industria de la IA necesitaba un examen más difícil y menos fácil de "pasar sin esfuerzo".
En 2024, Wenhu Chen y su equipo lanzaron MMLU-Pro.
MMLU-Pro rediseñó este examen, en lugar de simplemente ampliar el banco de preguntas.
Contiene 12,032 preguntas, cubriendo 14 áreas como matemáticas, física, química, derecho, ingeniería, psicología, salud, etc. En comparación con la versión original de MMLU, amplió las opciones de 4 a 10, reduciendo la probabilidad de que el modelo adivine la respuesta correcta; al mismo tiempo, agregó más preguntas centradas en el razonamiento y eliminó preguntas relativamente simples, ambiguas o con poca capacidad de discriminación del banco original.
El efecto fue directo.
Los resultados del artículo mostraron que la precisión de los modelos en MMLU-Pro disminuyó entre un 16% y un 33% en comparación con la MMLU original. Cuando se probó el mismo modelo con 24 estilos diferentes de instrucciones, la fluctuación en los resultados también disminuyó de aproximadamente un 4-5% en MMLU original a aproximadamente un 2%.
Es decir, este nuevo examen no solo es más difícil, sino también más estable.
Permitió que aquellos modelos que parecían sobresalientes en el examen antiguo volvieran a mostrar diferencias. También se hizo más fácil ver si un modelo realmente sabe razonar o simplemente es mejor para enfrentar preguntas antiguas.
Bases de evaluación útiles
MMLU-Pro pronto fue adoptado por la industria.
MMLU-Pro luego ingresó a la pista de conjuntos de datos y benchmarks de NeurIPS 2024, y también fue integrado en el framework de evaluación de modelos de lenguaje lm-evaluation-harness de EleutherAI. Para la comunidad de modelos de código abierto, esto significa que ya no es solo un conjunto de datos en un artículo, sino que se ha incorporado a la cadena de herramientas de evaluación comúnmente utilizada.
Muchos modelos comenzaron a reportar puntajes de MMLU-Pro en sus lanzamientos. Algunos rankings en HuggingFace también lo incorporaron a su sistema de evaluación.
Si MMLU-Pro resuelve el problema del "fracaso de los exámenes antiguos" en la evaluación de modelos de lenguaje, entonces MMMU colocó a Wenhu Chen y TIGERLab en el centro de la evaluación multimodal.
El problema de los modelos multimodales es más complejo.
Los modelos de lenguaje responden preguntas principalmente procesando texto. Los modelos multimodales, en cambio, deben procesar simultáneamente información en diferentes formatos: imágenes, gráficos, diagramas, mapas, tablas, partituras, estructuras químicas, etc. No solo deben comprender el enunciado de la pregunta, sino que realmente deben entender el contenido de la imagen y razonar combinando información visual, información textual y conocimiento disciplinario.
El benchmark MMMU contiene 11,500 preguntas multimodales, provenientes de exámenes universitarios, pruebas y libros de texto, cubriendo seis áreas principales: Arte y Diseño, Negocios, Ciencias, Salud y Medicina, Humanidades y Ciencias Sociales, Tecnología e Ingeniería, subdivididas a su vez en 30 disciplinas y 183 subcampos.
Estas preguntas no simplemente preguntan al modelo "qué hay en la imagen"; requieren que el modelo, como un estudiante resolviendo un problema profesional, combine información de la imagen con conocimiento disciplinario.
Cuando se lanzó MMMU, el equipo de investigación probó 14 modelos multimodales de código abierto, así como modelos cerrados representativos como GPT-4V y Gemini Ultra. Incluso los modelos cerrados más potentes en ese momento, GPT-4V y Gemini Ultra, solo alcanzaron una precisión del 56% y 59%, respectivamente.
Este conjunto de cifras muestra que, aunque los modelos multimodales parecen progresar rápidamente, en problemas que realmente requieren comprensión profesional y razonamiento, todavía hay mucho espacio para mejorar.
Posteriormente, el equipo de Wenhu Chen lanzó MMMU-Pro, cerrando aún más los espacios por donde los modelos podían eludir la información visual. Filtra preguntas que podrían responderse solo con un modelo de texto, amplía las opciones y presenta una configuración "vision-only", donde la pregunta se incrusta en la imagen, requiriendo que el modelo complete simultáneamente la lectura visual y la comprensión del texto.
En resumen, evita que el modelo "adivine la respuesta solo mirando el texto".
Este tipo de trabajo puede sonar un poco tedioso, pero es crucial. Debido a que los modelos multimodales en el futuro ingresarán a escenarios como la medicina, la educación, la investigación científica, el diseño, la ingeniería, etc., solo poder describir imágenes no es suficiente. Deben poder juzgar, razonar, explicar y también encontrar las partes verdaderamente útiles en información visual compleja.
La persona detrás de los "exámenes"
El trabajo posterior de Wenhu Chen en MMLU-Pro y MMMU proviene de su línea de investigación de siempre.
Sus intereses de investigación siempre han estado relacionados con la comprensión de información compleja, preguntas y respuestas basadas en conocimiento y razonamiento.
Obtuvo su licenciatura en la Universidad de Ciencia y Tecnología de Huazhong, luego completó su maestría en la Universidad RWTH de Aquisgrán en Alemania, y posteriormente obtuvo su doctorado en Ciencias de la Computación en la Universidad de California, Santa Bárbara. Durante su doctorado, ya había comenzado a investigar en áreas como preguntas y respuestas complejas, razonamiento sobre tablas, localización de evidencias de conocimiento, entre otras.
Este tipo de tareas tienen un punto en común: la respuesta a menudo no se encuentra en un solo texto.
Puede estar oculta en una tabla, puede requerir combinar un párrafo de texto con una imagen, o puede requerir que el modelo recupere información primero, luego la integre, calcule y razone. El modelo no puede solo repetir conocimiento existente.
Proyectos en los que Wenhu Chen participó, como HybridQA, TabFact, ProgramofThoughts, MAmmoTH, están relacionados con esta línea de trabajo.
Esto también explica por qué es sensible a las brechas en la evaluación de modelos.
Una buena base de evaluación no consiste simplemente en hacer las preguntas cada vez más difíciles, sino en prever dónde es más probable que el modelo "adivine correctamente" o "parezca saber".
El modelo puede haber memorizado el banco de preguntas, puede adivinar la respuesta según las opciones, o puede usar texto para eludir la información visual... Una buena evaluación debe tapar estas brechas.
Después de su doctorado, Wenhu Chen ingresó a Google Research, y luego, de 2021 a 2025, participó en el trabajo del modelo multimodal Gemini y su evaluación en Google DeepMind. Esta experiencia también fue importante. El contacto prolongado con el desarrollo de modelos de vanguardia le permitió comprender mejor cómo crecen las capacidades de los modelos y también ver más fácilmente los posibles sesgos y puntos ciegos en la evaluación.
En el otoño de 2022, Wenhu Chen se unió a la Facultad de Ciencias de la Computación de la Universidad de Waterloo como profesor asistente. Ese mismo año, fue seleccionado como Canada CIFAR AI Chair. Posteriormente, fundó el "TIGERLab" (también conocido como 虎头帮), continuando la investigación centrada en modelos base, capacidades multimodales y benchmarks de evaluación.
虎头帮 no solo se dedica a crear benchmarks de evaluación, sino también a la investigación de modelos y sistemas.
En el campo del video, UniVideo intenta integrar la comprensión, generación y edición de video en un mismo framework, permitiendo que el modelo no solo genere un segmento de imágenes, sino que también comprenda el contenido, responda a instrucciones y realice modificaciones. Vamba se centra en la comprensión de videos largos, resolviendo los problemas de memoria, cálculo y eficiencia de entrenamiento que presentan videos de una hora de duración. MoCha, desarrollado en colaboración con el equipo de IA generativa de Meta, se enfoca en la generación de personajes virtuales que hablan, produciendo videos de alta calidad de personajes a partir de descripciones de voz y texto.
Un creador de exámenes que nunca resuelve problemas no puede crear buenos exámenes. Trabajar directamente en el desarrollo de modelos también los hace más adecuados para la evaluación.
Porque una evaluación realmente buena a menudo proviene de comprender los límites de las capacidades del modelo. Solo sabiendo cómo se construye un modelo y conociendo los problemas que puede enfrentar en tareas reales, es más fácil diseñar preguntas que puedan medir las diferencias y también exponer problemas.
Actualmente, Wenhu Chen se ha unido al Laboratorio de Superinteligencia de Meta, donde su trabajo continúa centrado en datos de preentrenamiento multimodal y evaluación, sirviendo a los modelos base de Meta.
La industria de la IA no carece de personas visibles. En la industria de la IA, los focos suelen dirigirse hacia emprendedores, investigadores destacados y los responsables de las grandes empresas de modelos. Los lanzamientos de nuevos productos, noticias de financiación, modelos de código abierto y ajustes de equipo suelen atraer más la atención del público y hacer que estos nombres sean más conocidos.
Pero hoy en día, la participación del talento chino en el campo de la IA va mucho más allá de estas posiciones más visibles.













