¡Qué locura! Un misterioso IA chino 'Monge Barredor' sin sitio web oficial, con una tasa de éxito del 73.1%, irrumpe en el top siete mundial de CyberGym, pisándole los talones a OpenAI. Todo internet se vuelca en la noticia, ¿quién será este maestro?
Estos días, en una clasificación donde gigantes globales de IA luchan encarnizadamente, apareció de repente un nombre que nadie había escuchado antes.
Se llama MopMonk (Monge Barredor).
Sin conferencias de prensa pomposas, sin largos artículos en blogs oficiales, sin arengas en redes sociales.
Surgió de la nada, entrando directamente al top diez mundial de CyberGym.
Con una tasa de éxito del 73.1%, siguiendo de cerca a OpenAI por un estrecho margen, batió el récord histórico del equipo chino en esta clasificación.

Lo más surrealista de todo esto es que, hasta hoy, nadie conoce su verdadera identidad.
¿Cuán importante es esta clasificación de CyberGym?
¿Qué tan impresionante es el logro de MopMonk? Basta con ver el ring en el que se encuentra.
CyberGym, creado por el equipo de UC Berkeley, su artículo central fue aceptado en la prestigiosa conferencia ICLR 2026.

Enlace: https://arxiv.org/pdf/2506.02548
Como uno de los benchmarks públicos más autorizados en la evaluación de capacidades de ciberseguridad de IA, este lugar es conocido como el "campo de batalla sangriento" de los modelos grandes —
Incluso pesos pesados del calibre de GPT-5.5-Cyber y Claude Mythos han librado batallas cuerpo a cuerpo en esta clasificación.
Todo el benchmark se centra en la "acción real":
1507 instancias de vulnerabilidades, 188 grandes proyectos de código abierto, todos los problemas extraídos de vulnerabilidades históricas reales acumuladas por Google OSS-Fuzz.

Desde la perspectiva de las dimensiones de evaluación, esto representa un salto cuántico.
Su escala es 7.5 veces mayor que el benchmark público más grande anterior (NYU CTF, con unos 200 problemas), dejando muy atrás a "predecesores" como CVE-Bench por un orden de magnitud.
Pero lo peor es la dificultad: CyberGym no tiene preguntas de opción múltiple.
Exige que la IA realice un razonamiento profundo en proyectos reales que pueden tener miles de archivos y millones de líneas de código.
Precisamente por ser lo suficientemente grande, real y difícil, CyberGym tiene "poder de discriminación" —
Puede cortar, corte a corte, las diferencias reales de capacidad entre diferentes modelos y marcos de trabajo de Agentes.
No es de extrañar que en el círculo de la seguridad, lo hayan coronado directamente como las "Olimpiadas del campo de la seguridad de IA".
Es por ello que casi todos los grandes jugadores globales están presentes: Microsoft, OpenAI, Anthropic, Google, Meta, Zhipu......

La clasificación de CyberGym en sí misma está siendo testigo de un giro clave en la competencia de IA:
De comparar quién tiene más parámetros, a comparar qué Agente puede realmente terminar el trabajo.
Un extraño código oriental, aparece repentinamente entre gigantes de IA de Silicon Valley
¿Quién hubiera imaginado que precisamente en este ring donde más importa el "poderío real", surgiría un caballo negro "inexistente"?
Disipando la niebla, la información conocida que tenemos hasta ahora es solo de tres tipos:
Código misterioso: MopMonk (Monge Barredor)
Modelo base: MiniMax M3
Récord en la clasificación: Entra en el top siete mundial de CyberGym, número uno de China
Por lógica, un equipo con tales resultados ya debería haber inundado el mundo con informes técnicos y conferencias de prensa.
Pero en esta clasificación llena de maestros, MopMonk es precisamente el "bicho raro" más absoluto: solo arroja un informe técnico, del equipo, la empresa, la ubicación, no se encuentra nada.
Esta colisión de "especificaciones de primera, información al desnudo" en sí misma está llena de una teatralidad al estilo de las artes marciales orientales.
Quienes conozcan a Jin Yong, entienden el peso de las tres palabras "Monge Barredor" en "El libro de las montañas y los mares" (traducción aproximada de "天龙八部") —
El viejo monje que barría durante décadas en el Pabellón de los Sutras del Templo Shaolin, del que nadie recordaba su nombre, pero que con un solo movimiento sometió a dos grandes maestros, Xiao Yuanshan y Murong Bo.
El personaje más discreto, esconde el kung fu más profundo.

¡Atreverse a desafiar bajo el nombre de "Monge Barredor", este equipo claramente tiene una confianza fríamente brutal en su propia fuerza!
La pista más crucial se esconde en su base técnica: el modelo base elegido por MopMonk es MiniMax M3.
Como un modelo base de código abierto proveniente de Shanghái, M3 es un luchador hexagonal, reuniendo directamente tres armas fundamentales: capacidades de programación de vanguardia, un contexto ultra-largo de 1 millón de tokens y multimodalidad nativa.
Por un lado, un "símbolo cultural" de marcado carácter oriental; por el otro, una base tecnética con una clara etiqueta de producción nacional.
Al colocar estas dos pistas sobre la mesa, el círculo ya se ha reducido mucho. Todos los indicios apuntan frenéticamente a la misma conclusión:
Lo más probable es que sea un equipo chino.
La clave de la victoria está en el Harness
Dejando de lado el misterio de la identidad, como personas que seguimos de cerca la tecnología de IA, lo que más queremos aclarar es una pregunta:
¿Por qué ganó MopMonk?
Para responder, primero debemos volver al núcleo más difícil de CyberGym: lo que evalúa no es "saber o no saber", sino "poder o no poder hacer".
Para los grandes modelos actuales, ya no es tan difícil determinar si un fragmento de código tiene una vulnerabilidad.
Pero CyberGym evalúa el siguiente paso, y el más crítico: generar una entrada que pueda desencadenar la vulnerabilidad, es decir, un PoC (Proof of Concept).
Debe desencadenarse en la "versión vulnerable", fallar en la "versión parcheada", y pasar la verificación de ejecución en el entorno del benchmark.
Este obstáculo es mucho más complicado de lo que parece.
Las condiciones para desencadenar una vulnerabilidad suelen estar dispersas entre rutas de código, lógica de análisis, entorno de compilación, Harness de pruebas y formatos de entrada, y hay que ensamblarlas poco a poco.
Lo peor es que, incluso si el PoC hace caer el programa localmente, puede no contar. Siempre que no cumpla con el juicio diferencial de "desencadenar en versión vulnerable, no desencadenar en versión parcheada", todo el esfuerzo habrá sido en vano.

Este paso arrastra la tarea de la "comprensión" al terreno de la "ejecución". Y de un tipo de ejecución muy especial —
Toda la prueba se realiza en un entorno cerrado y sin conexión a internet.
Sin búsquedas externas para pedir ayuda, sin ningún "recurso externo", todo en lo que la IA puede confiar es su comprensión del repositorio de código que tiene frente a sí, y la memoria que ha ido acumulando paso a paso.
Para "reproducir" una vulnerabilidad bajo estas condiciones, se requiere un conjunto completo de capacidades interconectadas:
Planificación de llamadas a herramientas: cuándo leer un archivo, cuándo ejecutar una prueba, cuándo volver a modificar el plan;
Razonamiento en múltiples rondas: por qué no se desencadenó la última vez, dónde estuvo el problema exactamente, cómo ajustarse para la próxima;
Gestión de memoria: almacenar de manera estructurada el código leído, las entradas probadas, los errores cometidos, en lugar de volver a leer desde cero en cada ronda;
Verificación iterativa: acercarse una y otra vez a ese punto crítico, hasta que la vulnerabilidad sea realmente reproducida.
En otras palabras, el núcleo de la competición en CyberGym es la "capacidad de acción" del Agente, la "inteligencia" del modelo es solo el billete de entrada.
Y el enlace clave para convertir la "inteligencia" en "capacidad de acción" es la palabra más subestimada hoy en todo el campo de los Agentes: Harness.
Harness es la "capa de coordinación" entre el modelo y las herramientas externas, el entorno de ejecución.
Es responsable de la orquestación de herramientas, la gestión del estado del contexto, la recolección y re-alimentación de la retroalimentación de la ejecución.

En términos simples, el modelo es el cerebro, responsable de pensar "dónde podría estar la vulnerabilidad, cómo excavar en el próximo paso".
El Harness son las extremidades más el sistema nervioso, responsable de convertir las ideas del cerebro en una serie de acciones reales —
Abrir qué archivo, ejecutar qué comando, cómo ajustarse después de obtener un error, cómo cambiar en la siguiente ronda si la anterior falló.
En tareas como CyberGym, que pueden requerir decenas o cientos de rondas, y ensayos y errores repetidos en millones de líneas de código, la calidad del Harness determina directamente si la inteligencia del modelo puede convertirse en poder de combate.
Un modelo inteligente + un Harness mediocre, el resultado suele ser "puede pensarlo, pero no puede hacerlo";
Un modelo con capacidades sólidas + un Harness fuerte diseñado a medida para la minería de vulnerabilidades, es lo que puede lograr resultados en este tipo de tareas de largo recorrido.
Un Agente "hecho a medida" para la minería de vulnerabilidades
Ahora, a través del informe técnico en GitHub, la estructura técnica de MopMonk es clara:
Un sistema de múltiples agentes de seguridad completamente nuevo, diseñado específicamente para la minería de vulnerabilidades, y la base de pensamiento que lo impulsa es precisamente MiniMax M3.

Dirección en GitHub: https://github.com/MopMonkAI/MopMonkAgent
Como se mencionó, M3 es actualmente un modelo de código abierto raro que puede reunir en una sola arquitectura capacidades de codificación de primer nivel, contexto de un millón de tokens y multimodalidad nativa.
Basta con ver los resultados para entenderlo: SWE-Bench Pro consigue un 59.0%, Terminal-Bench 2.1 alcanza un 66.0%, MCP Atlas obtiene un 74.2% —

Estos datos impresionantes satisfacen con precisión las necesidades de capacidad más duras para la implementación práctica de Agentes.
Además, puede iterar de forma autónoma y autocorregirse durante tareas que duran más de diez horas.
En otras palabras, M3 actúa como un "cerebro superpoderoso" que combina una capacidad de análisis de código de primer nivel, una memoria ultra-larga y una habilidad experta en el uso de herramientas.
Para tareas como CyberGym, que a menudo requieren digerir todo un repositorio de código y ejecutar decenas de rondas, una ventana de contexto de 1M es casi una necesidad.
Y lo que hace este marco de Agente de seguridad de MopMonk es amplificar las capacidades del cerebro M3 en poder de ejecución para la minería de vulnerabilidades.
Su "método interno", según los detalles técnicos públicos en GitHub, se centra en tres movimientos —
Primer movimiento, "memoria de vulnerabilidades" estructurada.
No se trata simplemente de apilar registros de chat, ni de arrojar un contexto ultra-largo al modelo, sino de organizar una "memoria fáctica de la tarea" actualizable de forma continua, alrededor de los tipos de objetos más críticos en la minería de vulnerabilidades:
Objetivo de la vulnerabilidad, ruta del código, formato de entrada, PoC candidato, evidencia de fallo, estado de verificación, y memoria de "restricciones para el siguiente paso".
Este último tipo es especialmente revelador: no genera planes abstractos vagos, sino que extrae directamente de la evidencia actual restricciones duras que deben cumplirse en el próximo experimento.
Por ejemplo, "esta vez debe cubrir esa rama", "qué campo ajustar", "qué tipo de causa de fallo excluir".
Este diseño de memoria transforma la minería de vulnerabilidades de un "ensayo y error repetido desde cero" en un "proceso de convergencia basado en evidencia".
Cada lectura de código, cada resultado de ejecución, cada envío fallido se convierte en una restricción reutilizable para la generación del siguiente PoC.

Segundo movimiento, "minería de vulnerabilidades" impulsada por memoria.
En la tarea de minería de vulnerabilidades, el sistema primero inicializa la memoria de la vulnerabilidad escaneando el repositorio de código y utilizando las rutas de activación candidatas y la información del directorio como punto de partida para la planificación.
Luego, avanza paso a paso, intentando converger en la ubicación concreta del código que desencadena el fallo.
Posteriormente, cada intento de exploración lee la memoria actual, prueba una hipótesis concreta y escribe el resultado de nuevo en la memoria.
De esta manera, el modelo no tiene que releer toda la tarea desde el principio en cada ronda, sino que extrae de esta memoria estructurada esa pequeña parte de evidencia más relevante en ese momento —
Reduciendo drásticamente la carga del contexto largo, y permitiendo que cada variación del PoC candidato herede el conocimiento acumulado previamente sobre rutas de código y formatos de entrada, haciendo que la búsqueda sea cada vez más precisa.
Dentro de un presupuesto de exploración estricto, el tiempo se gasta tanto como es posible en "nuevas hipótesis", aumentando en línea recta la densidad de experimentos efectivos.
Tercer movimiento, "exploración paralela de múltiples agentes" con memoria compartida.
Múltiples intentos de exploración comparten la misma memoria de vulnerabilidad, pueden avanzar simultáneamente desde múltiples direcciones como pistas de parches, entradas de harness, campos de formato de archivo, tipos de sanitizador, condiciones límite, heredando mutuamente experiencias de fallo y resultados de verificación.
Esto amplía la cobertura y evita exploraciones repetidas e ineficaces.
De esto se desprende que MopMonk ha reescrito la reproducción de vulnerabilidades, de un ensayo y error repetitivo y abierto, a un proceso de actualización de memoria "acumulable, constreñible y verificable".
Los tres movimientos combinados, confiando completamente en el "poder interno" que se sedimenta, refina y reutiliza poco a poco dentro de la tarea, han convertido por la fuerza una base de código abierto poderosa en una punta de lanza de fuerzas especiales en el campo de batalla de la minería de vulnerabilidades.
Finalmente, logró una tasa de éxito del 73.1%.

La base se encarga de "pensar profundamente", el Harness se encarga de "recordar firmemente, ajustar con precisión, golpear con estabilidad".
El acoplamiento profundo de ambos es lo que finalmente forjó el logro rompedor que llama la atención en la clasificación.
Un juicio más valioso que "apilar parámetros"
La verdadera inspiración de esto radica en —
En los últimos años, la inercia de la industria ha sido "apilar parámetros": a más parámetros, más fuerte el modelo, más alta la posición en la clasificación.
Pero tareas reales de ataque y defensa como CyberGym dan otra respuesta: lo que cada vez más decide la victoria es la capacidad de ejecución del Agente, es el espesor de la ingeniería de esta capa de Harness.
Según el informe técnico de GitHub, el valor de este método se resume en tres puntos:
Una potente capacidad del modelo base, proporciona la base para la búsqueda;
Una memoria de vulnerabilidades estructurada, proporciona el mecanismo de convergencia;
La exploración de múltiples agentes con memoria compartida, mejora la eficiencia de costos dentro de un presupuesto limitado.
La base determina el límite superior de la capacidad, y este Harness centrado en la memoria determina cuánto de esa capacidad se puede realmente materializar.
Y lo que es más crucial es su propiedad de interés compuesto:
La base del modelo cambiará de generación en generación; hoy se usa M3, mañana podría usarse un modelo de código abierto más nuevo.
Pero un Harness que ha sido pulido repetidamente en campos de batalla reales, que ha sedimentado experiencia en ataque y defensa, es un activo que puede trascender las iteraciones de la base y continuar generando interés compuesto.
En resumen, el valor a largo plazo del Harness de MopMonk puede ser mayor que "duplicar los parámetros".
Esta es precisamente la razón fundamental por la que la industria ha comenzado a examinar seriamente a este misterioso "Monge Barredor":
Lo que todos quieren ver no es solo cuántos puntos obtuvo, sino que demostró un camino para llevar una base de código abierto al extremo.
Entonces, ¿quién es el "Monge Barredor"?
Después de dar vueltas, volvemos a esa pregunta inicial, y la más desesperante.
¡¿MopMonk, quién es?!
Uniendo las pistas: un código cargado de sabor a artes marciales orientales + la base MiniMax de una empresa de Shanghái + un "poder interno" en el campo de la seguridad.
Casi todas las flechas apuntan al mismo juicio: es un equipo de seguridad de IA proveniente de China, muy probablemente ubicado en Shanghái.
También hay quienes, siguiendo el ángulo de la adaptación bidireccional entre el modelo base y el Agente, especulan a ciegas que detrás está indisolublemente ligado a un equipo nativo de grandes modelos de IA.
Variadas versiones de conjeturas circulan frenéticamente, pero hasta ahora nadie ha podido aportar pruebas contundentes.
¿Tú qué opinas, de quién será el maestro MopMonk? En la sección de comentarios, te esperamos para que compartas.
Este artículo proviene del WeChat Official Account "New Zhiyuan" (新智元), autor: ASI Apocalipsis







