Detrás de las hojas de calificaciones de la IA, hay un "creador de exámenes" chino
El artículo habla sobre las "hojas de calificaciones" (benchmarks) que se utilizan para evaluar el rendimiento de los modelos de IA avanzados, como GPT, Claude y Gemini, y destaca la figura de Wenhu Chen, un investigador chino que está detrás de varios de estos puntos de referencia fundamentales, como MMLU-Pro, MMMU y MMMU-Pro.
Chen, profesor asistente en la Universidad de Waterloo y fundador del TigerLab (también conocido como "la banda de la cabeza de tigre"), abordó la necesidad de nuevas pruebas cuando los modelos más potentes, como el o3 de OpenAI, comenzaron a alcanzar puntuaciones casi perfectas en evaluaciones anteriores como MMLU, lo que las volvía menos útiles para discriminar capacidades.
MMLU-Pro, presentado en 2024, es una versión más difícil y robusta que la original, con más opciones de respuesta y preguntas que requieren mayor razonamiento, logrando así diferenciar mejor el rendimiento de los modelos.
Por otro lado, MMMU es un benchmark multimodal que evalúa la capacidad de los modelos para comprender y razonar combinando información de texto e imágenes complejas (como diagramas, gráficos, mapas) en múltiples disciplinas académicas. Incluso los mejores modelos al inicio mostraban un bajo rendimiento en esta prueba. MMMU-Pro fue un desarrollo posterior para garantizar que los modelos no evadieran el procesamiento visual.
La investigación de Chen se ha centrado históricamente en la comprensión de información compleja y el razonamiento, lo que lo preparó bien para diseñar evaluaciones efectivas. Su experiencia incluye un doctorado en la UC Santa Bárbara, trabajar en Google Research y DeepMind en el proyecto Gemini, y ahora forma parte del laboratorio de superinteligencia de Meta. Su laboratorio también desarrolla investigación en modelos, como en comprensión y generación de video.
El artículo concluye subrayando que, aunque la atención pública suele centrarse en las figuras más visibles de la IA, hay muchos profesionales talentosos, como Chen, cuya contribución en áreas fundamentales como la evaluación es crucial para el progreso del campo.
marsbitHace 12 min(s)