Tras las notas de la IA, se esconde un "creador de exámenes" chino

marsbitPublicado a 2026-06-20Actualizado a 2026-06-20

Resumen

Cada vez que se lanza un modelo de IA de vanguardia, la comunidad fija su atención en ciertas "hojas de resultados" familiares: MMLU-Pro, MMMU, MMMU-Pro. Estos puntos de referencia se han convertido en exámenes estándar para evaluar y comparar modelos como GPT, Claude, Gemini, Llama, Qwen y DeepSeek. Detrás de estas influyentes evaluaciones está el investigador chino Wenhu Chen, profesor asistente en la Universidad de Waterloo y fundador del TIGERLab (apodado "虎头帮"). Su trabajo surge de una necesidad crítica: a medida que los modelos avanzaban, las pruebas antiguas como MMLU se saturaban con puntuaciones casi perfectas, dejando de ser útiles para discernir diferencias reales. En 2024, Chen y su equipo presentaron MMLU-Pro, una renovación exhaustiva del original. Con 12,032 preguntas de 14 disciplinas, aumenta las opciones de respuesta de 4 a 10 para reducir las conjeturas e incorpora problemas más complejos que requieren razonamiento. El resultado fue una caída del 16% al 33% en la precisión de los modelos y una evaluación más estable y discriminatoria, rápidamente adoptada por la industria. Su contribución se extiende al ámbito multimodal con MMMU, un conjunto de 11,500 preguntas que combinan imágenes (gráficos, mapas, fórmulas) con conocimientos académicos para probar una comprensión integrada. Incluso los mejores modelos como GPT-4V inicialmente solo alcanzaron un 56% de precisión, revelando un largo camino por recorrer. Su sucesor, MMMU-Pro, cierra aún más las brechas,...

Cada vez que se lanza un modelo de vanguardia, el mundo de la IA fija su mirada en unas cuantas hojas de calificaciones familiares.

MMLU-Pro, MMMU, MMMU-Pro... Estos nombres pueden resultar extraños para los usuarios comunes, pero para las empresas de modelos y los investigadores, se han convertido casi en "asignaturas estándar". GPT, Claude, Gemini, Llama, Qwen, DeepSeek... todos entregan constantemente sus resultados en estos benchmarks.

"El talento se demuestra en la práctica". El desempeño de los modelos a menudo depende de estas puntuaciones para demostrarlo.

Muchas de las gráficas de comparación de rendimiento en las presentaciones de modelos no pueden prescindir de ellas; algunas clasificaciones en HuggingFace también se basan en estos sistemas de evaluación. Incluso podría decirse que hoy en día, cuando la industria de la IA discute sobre las capacidades de los modelos, ya utiliza un lenguaje común definido por estos benchmarks.

Pero lo interesante es que casi todos se centran en las puntuaciones, pero pocos saben quién crea los exámenes. Y detrás de MMLU-Pro, MMMU y MMMU-Pro, se puede ver el mismo nombre: Chen Wenhu.

Es profesor asistente en el Departamento de Ciencias de la Computación de la Universidad de Waterloo en Canadá. En Google Scholar, sus artículos han sido citados más de 30,000 veces.

También es el fundador del "TIGERLab" (Laboratorio de Investigación en Generación de Texto e Imagen). Debido a que su nombre en inglés contiene "TIGER", Chen Wenhu le dio un nombre en chino muy distintivo: "Hutou Bang" (La Pandilla del Tigre).

01

Después del fallo del viejo examen

Chen Wenhu llamó la atención de más personas inicialmente debido a MMLU-Pro.

MMLU solía ser uno de los benchmarks de evaluación más utilizados para medir las capacidades de los modelos de lenguaje grandes. Es como un examen integral que cubre múltiples disciplinas, utilizado para medir el rendimiento de los modelos en tareas de comprensión del conocimiento y razonamiento.

En un principio, este examen era muy útil. Las diferencias entre modelos podían reflejarse en las puntuaciones, y la industria también podía observar a través de él si los modelos de lenguaje grandes realmente estaban progresando.

Pero pronto surgió el problema.

A medida que las capacidades de los modelos mejoraban continuamente, MMLU gradualmente se volvió "insuficiente". Las puntuaciones de los modelos de vanguardia eran cada vez más altas, y las diferencias entre ellos cada vez más pequeñas.

Este problema se volvió aún más evidente después de que OpenAI lanzara o3. La precisión de o3 en MMLU ya se acercaba al 100%, y otros modelos de vanguardia también obtuvieron puntuaciones cercanas a la perfección.

Esto puede sonar como una buena noticia, pero para la evaluación, significa problemas.

Si todos pueden obtener puntuaciones cercanas a la perfección en un examen, es difícil seguir determinando quién es mejor y en qué aspectos. Aún puede demostrar que los modelos poseen ciertas capacidades, pero ya no es adecuado para medir nuevos progresos.

La industria de la IA necesitaba un examen más difícil y menos susceptible de ser "aprobado con trucos".

En 2024, Chen Wenhu y su equipo lanzaron MMLU-Pro.

MMLU-Pro reformó este examen en lugar de simplemente ampliar el banco de preguntas.

Contiene 12,032 preguntas que cubren 14 campos, incluyendo matemáticas, física, química, derecho, ingeniería, psicología, salud, etc. En comparación con la versión original de MMLU, amplió las opciones de respuesta de 4 a 10, reduciendo la probabilidad de que el modelo adivine correctamente; al mismo tiempo, incorporó más preguntas centradas en el razonamiento y eliminó aquellas relativamente simples, ambiguas o con poca capacidad discriminatoria del banco original.

El efecto fue directo.

Los resultados del artículo mostraron que la precisión de los modelos en MMLU-Pro disminuyó entre un 16% y un 33% en comparación con la MMLU original. Cuando se probó el mismo modelo con 24 estilos diferentes de prompts, la fluctuación en los resultados también disminuyó de aproximadamente un 4-5% en la MMLU original a alrededor de un 2%.

Es decir, este nuevo examen no solo es más difícil, sino también más estable.

Permitió que los modelos que parecían sobresalientes en el examen antiguo volvieran a mostrar diferencias significativas. También se hizo más fácil discernir si un modelo realmente sabe razonar o simplemente es mejor para enfrentarse a preguntas antiguas.

02

Benchmarks útiles

MMLU-Pro pronto fue adoptado por la industria.

Posteriormente, MMLU-Pro ingresó a la pista de conjuntos de datos y benchmarks de NeurIPS 2024 y también fue integrado en el framework de evaluación de modelos de lenguaje lm-evaluation-harness de EleutherAI. Para la comunidad de modelos de código abierto, esto significó que ya no era solo un conjunto de datos en un artículo, sino que se había integrado en la cadena de herramientas de evaluación comúnmente utilizada.

Muchos modelos comenzaron a reportar puntuaciones de MMLU-Pro en sus lanzamientos. Algunas clasificaciones en HuggingFace también lo incorporaron a sus sistemas de evaluación.

Si MMLU-Pro resolvía el problema del "fallo del viejo examen" en la evaluación de modelos de lenguaje, entonces MMMU situó a Chen Wenhu y TIGERLab en el centro de la evaluación multimodal.

El problema de los modelos multimodales es más complejo.

Los modelos de lenguaje responden preguntas principalmente procesando texto. Los modelos multimodales, en cambio, deben procesar simultáneamente información en diferentes formatos como imágenes, gráficos, diagramas, mapas, tablas, partituras, estructuras químicas, etc. No solo deben entender el enunciado, sino también comprender realmente el contenido de las imágenes y combinar la información visual, la información textual y el conocimiento disciplinario para razonar.

El benchmark MMMU incluye 11,500 preguntas multimodales, provenientes de exámenes universitarios, pruebas y libros de texto, cubriendo seis grandes áreas: arte y diseño, negocios, ciencias, salud y medicina, humanidades y ciencias sociales, tecnología e ingeniería, que se subdividen en 30 disciplinas y 183 subcampos.

Estas preguntas no se limitan a preguntar al modelo "qué hay en la imagen"; exigen que el modelo combine la información de la imagen con el conocimiento disciplinario, como lo haría un estudiante al resolver un problema profesional.

Cuando se lanzó MMMU, el equipo de investigación evaluó 14 modelos multimodales de código abierto, así como modelos propietarios representativos como GPT-4V y Gemini Ultra. Incluso los modelos propietarios más potentes en ese momento, GPT-4V y Gemini Ultra, solo alcanzaron precisiones del 56% y 59% respectivamente.

Estas cifras indican que, aunque los modelos multimodales parecen avanzar rápidamente, aún tienen un amplio margen de mejora en problemas que realmente requieren comprensión profesional y razonamiento.

Posteriormente, el equipo de Chen Wenhu lanzó MMMU-Pro, bloqueando aún más los caminos que permitían a los modelos eludir la información visual. Filtra preguntas que podrían responderse solo con modelos de texto, amplía las opciones de respuesta e introduce una configuración "vision-only", incrustando la pregunta en la imagen misma, exigiendo al modelo completar simultáneamente la lectura visual y la comprensión textual.

En pocas palabras, evita que el modelo "adivine la respuesta solo leyendo el texto".

Este tipo de trabajo puede sonar un tanto minucioso, pero es crucial. Porque los modelos multimodales en el futuro se integrarán en escenarios como la medicina, la educación, la investigación científica, el diseño, la ingeniería, etc., y solo ser capaces de describir imágenes no es suficiente. Deben poder juzgar, razonar, explicar y también encontrar la parte verdaderamente útil dentro de información visual compleja.

03

La persona detrás del "examen"

El trabajo posterior de Chen Wenhu en MMLU-Pro y MMMU proviene de su línea de investigación de siempre.

Sus intereses de investigación siempre han estado relacionados con la comprensión de información compleja, preguntas y respuestas basadas en conocimiento y razonamiento.

Se graduó de la licenciatura en la Universidad de Ciencia y Tecnología de Huazhong, luego obtuvo una maestría en la Universidad RWTH de Aquisgrán en Alemania y un doctorado en Ciencias de la Computación en la Universidad de California, Santa Bárbara. Durante su doctorado, ya comenzó a investigar en direcciones como preguntas y respuestas complejas, razonamiento sobre tablas y localización de evidencias en el conocimiento.

Este tipo de tareas tiene un punto en común: la respuesta a menudo no se encuentra en un solo texto.

Puede estar oculta en una tabla, puede requerir combinar un párrafo de texto con una imagen, o puede requerir que el modelo primero recupere información y luego la integre, calcule y razone. El modelo no puede limitarse a repetir conocimientos existentes.

Proyectos en los que Chen Wenhu ha participado, como HybridQA, TabFact, Program of Thoughts, MAmmoTH, están relacionados con esta línea.

Esto también explica por qué es sensible a las brechas en la evaluación de modelos.

Un buen benchmark no consiste simplemente en hacer las preguntas cada vez más difíciles, sino en prever dónde es más probable que el modelo "adivine correctamente" o "parezca que sabe".

El modelo puede haber memorizado el banco de preguntas, puede adivinar respuestas basándose en las opciones, o puede usar texto para eludir la información visual... Una buena evaluación debe cubrir estas brechas.

Después de su doctorado, Chen Wenhu ingresó a Google Research y posteriormente, de 2021 a 2025, participó en el desarrollo del modelo multimodal Gemini y en trabajos de evaluación en Google DeepMind. Esta experiencia también fue importante. El contacto prolongado con el desarrollo de modelos de vanguardia le permitió comprender mejor cómo crecen las capacidades de los modelos y detectar más fácilmente los posibles sesgos y puntos ciegos en la evaluación.

En el otoño de 2022, Chen Wenhu se unió a la Facultad de Ciencias de la Computación de la Universidad de Waterloo como profesor asistente. Ese mismo año, fue seleccionado como Canada CIFAR AI Chair. Posteriormente, fundó el "TIGERLab" (también conocido como Hutou Bang), continuando su investigación en torno a modelos fundamentales, capacidades multimodales y benchmarks.

Hutou Bang no se limita a crear benchmarks; también realiza investigación en modelos y sistemas.

En el ámbito del video, UniVideo intenta integrar la comprensión, generación y edición de video en un mismo framework, permitiendo que el modelo no solo genere una secuencia, sino que también comprenda el contenido, responda a instrucciones y complete modificaciones. Vamba se centra en la comprensión de videos largos, abordando problemas de memoria, cálculo y eficiencia en el entrenamiento de videos de hasta una hora. MoCha, desarrollado en colaboración con el equipo de IA generativa de Meta, se centra en la generación de personajes virtuales parlantes, creando videos de personajes de alta calidad a partir de descripciones de voz y texto.

Un creador de exámenes que nunca resuelve problemas no puede crear buenos exámenes. Desarrollar modelos ellos mismos, a su vez, los hace más adecuados para la evaluación.

Porque una evaluación verdaderamente buena a menudo surge de comprender los límites de las capacidades de los modelos. Solo sabiendo cómo se construyen los modelos, conociendo los problemas que encuentran en tareas reales, es más fácil diseñar preguntas que puedan medir diferencias y exponer problemas.

Hoy en día, Chen Wenhu se ha unido al Super Intelligent Lab de Meta, donde su trabajo continúa centrándose en datos de preentrenamiento multimodal y evaluación, sirviendo a los modelos fundamentales de Meta.

La industria de la IA no carece de personas visibles. En la industria de la IA, los focos suelen centrarse en emprendedores, investigadores destacados y los responsables de las grandes empresas de modelos. Los lanzamientos de nuevos productos, noticias sobre financiación, modelos de código abierto y reajustes de equipo suelen atraer más la atención del público y hacen que estos nombres sean más conocidos.

Pero hoy en día, la participación del talento chino en el campo de la IA va mucho más allá de estas posiciones más visibles.

Este artículo proviene de la cuenta pública de WeChat "字母AI", autor: Xiaojinya

Criptos en tendencia

Preguntas relacionadas

Q¿Quién está detrás de la creación de los puntos de referencia MMLU-Pro, MMMU y MMMU-Pro que evalúan modelos de IA?

ADetrás de estos puntos de referencia está el investigador Chen Wenhu, profesor asistente en el Departamento de Ciencias de la Computación de la Universidad de Waterloo en Canadá.

Q¿Qué problema resolvió MMLU-Pro en comparación con el anterior MMLU?

AMMLU-Pro resolvió el problema de que, a medida que mejoraban los modelos, sus puntuaciones en MMLU se acercaban demasiado a la perfección, dificultando distinguir cuál era más capaz. Para esto, MMLU-Pro hizo preguntas más difíciles, aumentó las opciones de respuesta y priorizó preguntas que requieren razonamiento.

Q¿En qué se enfoca la evaluación MMMU para modelos de IA?

AMMMU (Multimodal Massive Understanding Benchmark) es una evaluación que mide la capacidad de los modelos multimodales para resolver problemas complejos que combinan información de texto e imágenes, como diagramas, mapas o fórmulas, en diversas disciplinas académicas.

Q¿Por qué es importante que los creadores de estos puntos de referencia, como Chen Wenhu, también desarrollen modelos de IA?

AEs importante porque un evaluador que también desarrolla modelos comprende mejor sus límites y cómo funcionan internamente. Esto le permite diseñar pruebas más precisas, que eviten que los modelos "aprueben por suerte" y detecten mejor sus verdaderas capacidades y debilidades.

Q¿En qué instituciones ha trabajado Chen Wenhu en su carrera investigadora sobre IA?

AChen Wenhu obtuvo su doctorado en la Universidad de California, Santa Bárbara, trabajó en Google Research y Google DeepMind, y actualmente es profesor en la Universidad de Waterloo y forma parte del super laboratorio de inteligencia de Meta.

Lecturas Relacionadas

Los Oso Mantienen el Control Mientras que el ETH Rechaza la Resistencia de la Línea de Tendencia

El último rebote de Ethereum no ha convencido a todos los analistas de que la tendencia bajista haya terminado. En una idea publicada en TradingView el 20 de junio, TheSignalyst argumenta que ETH se mantiene en territorio bajista. Esto se debe a que continúa cotizando por debajo de una línea de tendencia roja descendente y ha formado una secuencia de máximos y mínimos más bajos. El gráfico del analista muestra que el precio de ETH fue rechazado en una zona de confluencia que incluye dicha línea de tendencia y una zona de resistencia horizontal. Este tipo de resistencia combinada suele atraer a vendedores de forma más agresiva. El fracaso en superar ambos niveles se interpreta como una confirmación de que los vendedores mantienen el control. El área de soporte clave se sitúa entre 1.350 y 1.500 dólares. Una ruptura decisiva por debajo de este rango debilitaría significativamente la estructura general de ETH. Por ahora, el precio está comprimido entre este soporte y la línea de tendencia bajista. El desempeño de Ethereum es crucial para el mercado altcoin en general. Cuando ETH lucha frente al dólar, el apetito por el riesgo en DeFi y activos de menor capitalización suele debilitarse también. Por lo tanto, este análisis sirve como advertencia: los alcistas necesitan una ruptura clara por encima de la resistencia antes de poder hablar de un cambio de tendencia sostenido.

bitcoinistHace 1 hora(s)

Los Oso Mantienen el Control Mientras que el ETH Rechaza la Resistencia de la Línea de Tendencia

bitcoinistHace 1 hora(s)

TechFlow Oficina de Inteligencia: Las probabilidades de que Anthropic realice una OPI superan el 80%, Irán vuelve a cerrar el estrecho de Ormuz y desestabiliza los precios del petróleo

Resumen del informe TechFlow: Los mercados anticipan que Anthropic anunciará su OPV antes de noviembre de 2026, planteando dudas sobre si una valoración billonaria puede coexistir con su promesa central de seguridad en IA. Otras tendencias clave: * **Marketing digital:** Marcas adoptan influencers virtuales generados por IA para promocionar productos. * **Energía y Geopolítica:** Irán anuncia el cierre del estrecho de Ormuz, causando volatilidad en el precio del petróleo, aunque datos de seguimiento muestran cierto tráfico marítimo persistente. Paralelamente, Irán reanuda la carga de crudo en la isla de Kharg. * **Finanzas/Tecnología:** Goldman Sachs advierte que los gastos de capital en IA (5,3 billones de dólares) podrían acercarse al límite de crédito. En Europa, se produce la primera incumplimiento en acciones de CLO desde la crisis financiera. * **Empresas tecnológicas:** Cloudflare introduce cuentas temporales para agentes de IA; el tráfico IPv6 de Google supera el 50%; Hyundai adquiere el control total de Boston Dynamics. * **Mercados:** Inversores minoristas invierten fuertemente en la OPV de SpaceX. Elon Musk especula sobre futuras inversiones astronómicas en antimateria para viajes interestelares. **Conclusión subyacente:** Tres señales (tensión en Ormuz, incumplimiento en CLO y advertencias sobre gasto en IA) apuntan a una creciente restricción de la liquidez global y al aumento de los costes marginales. Mientras tanto, el capital sigue buscando narrativas de crecimiento a gran escala (como la OPV de Anthropic, SpaceX y los proyectos de Musk), indicando una bifurcación entre un "viejo mundo" con creciente presión financiera y un "nuevo mundo" que construye narrativas aún más ambiciosas.

marsbitHace 2 hora(s)

TechFlow Oficina de Inteligencia: Las probabilidades de que Anthropic realice una OPI superan el 80%, Irán vuelve a cerrar el estrecho de Ormuz y desestabiliza los precios del petróleo

marsbitHace 2 hora(s)

El cazador cazado: el bot MEV más rentable fue hackeado

**El cazador cazado: El bot de MEV más rentable es hackeado** El conocido bot de MEV en Ethereum, Jaredfromsubway.eth, sufrió un ataque dirigido el sábado, perdiendo más de 7,5 millones de dólares. Según investigaciones, no fue un phishing tradicional ni una explotación de contrato inteligente, sino un sofisticado "ataque de honeypot contra-MEV" diseñado específicamente para explotar la lógica de comportamiento de estos bots. El atacante desplegó durante semanas 66 contratos de tokens falsos y pools de liquidez, disfrazados como activos principales como WETH, USDC o USDT, para crear rutas de arbitraje falsas. El bot, al detectar la aparente oportunidad, ejecutó una transacción que concedió permisos a un contrato controlado por el atacante. Estos permisos no fueron revocados, permitiendo finalmente que el atacante drenara los fondos del bot en una sola transacción. Jaredfromsubway.eth es uno de los bots de MEV más activos e infames de Ethereum, especializado en ataques de "sándwich" para capturar ganancias de los deslizamientos de precio en las transacciones de usuarios. Se estima que ha acumulado decenas de millones en ganancias y estaba relacionado con alrededor del 70% de estos ataques en un período reciente. Este incidente subraya la creciente sofisticación de las amenazas en cripto, demostrando que incluso los actores más agresivos y automatizados ("depredadores") ahora son vulnerables a ataques multidimensionales que explotan sus propias reglas y automatizaciones. Tras el hackeo, una cuenta no oficial en X se hizo pasar por el bot ofreciendo una recompensa falsa, lo que ha generado advertencias de seguridad adicionales.

marsbitHace 4 hora(s)

El cazador cazado: el bot MEV más rentable fue hackeado

marsbitHace 4 hora(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar EDGE

¡Bienvenido a HTX.com! Hemos hecho que comprar edgeX (EDGE) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar edgeX (EDGE) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu edgeX (EDGE)Después de comprar tu edgeX (EDGE), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear edgeX (EDGE)Tradear fácilmente con edgeX (EDGE) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

769 Vistas totalesPublicado en 2026.03.31Actualizado en 2026.06.02

Cómo comprar EDGE

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de EDGE (EDGE).

活动图片