Tras las notas de la IA, se esconde un "creador de exámenes" chino
Cada vez que se lanza un modelo de IA de vanguardia, la comunidad fija su atención en ciertas "hojas de resultados" familiares: MMLU-Pro, MMMU, MMMU-Pro. Estos puntos de referencia se han convertido en exámenes estándar para evaluar y comparar modelos como GPT, Claude, Gemini, Llama, Qwen y DeepSeek.
Detrás de estas influyentes evaluaciones está el investigador chino Wenhu Chen, profesor asistente en la Universidad de Waterloo y fundador del TIGERLab (apodado "虎头帮"). Su trabajo surge de una necesidad crítica: a medida que los modelos avanzaban, las pruebas antiguas como MMLU se saturaban con puntuaciones casi perfectas, dejando de ser útiles para discernir diferencias reales.
En 2024, Chen y su equipo presentaron MMLU-Pro, una renovación exhaustiva del original. Con 12,032 preguntas de 14 disciplinas, aumenta las opciones de respuesta de 4 a 10 para reducir las conjeturas e incorpora problemas más complejos que requieren razonamiento. El resultado fue una caída del 16% al 33% en la precisión de los modelos y una evaluación más estable y discriminatoria, rápidamente adoptada por la industria.
Su contribución se extiende al ámbito multimodal con MMMU, un conjunto de 11,500 preguntas que combinan imágenes (gráficos, mapas, fórmulas) con conocimientos académicos para probar una comprensión integrada. Incluso los mejores modelos como GPT-4V inicialmente solo alcanzaron un 56% de precisión, revelando un largo camino por recorrer. Su sucesor, MMMU-Pro, cierra aún más las brechas, obligando a los modelos a utilizar la información visual y no solo el texto.
La experiencia de Chen, que incluye investigación doctoral en preguntas complejas y una etapa en Google DeepMind trabajando en Gemini, le permite anticipar cómo los modelos pueden "aparentar" competencia. Su laboratorio no solo diseña evaluaciones, sino que también desarrolla modelos (como UniVideo para video o MoCha para avatares), asegurando que sus "exámenes" reflejen desafíos reales y los límites actuales de la tecnología. Actualmente, Chen continúa este trabajo en el laboratorio de superinteligencia de Meta, enfocado en datos y evaluación multimodal. Su historia destaca el papel fundamental, aunque a menudo menos visible, de los investigadores que construyen las herramientas para medir el verdadero progreso de la IA.
marsbitHace 35 min(s)