Acaba de pasar: la IA de China irrumpe en el top 2 mundial de programación, solo por detrás de Claude

marsbitPublicado a 2026-05-27Actualizado a 2026-05-27

Resumen

Hoy, el modelo chino Qwen3.7-Max de Alibaba ha entrado en el top 4 global del ranking Code Arena con 1541 puntos, superando a modelos como GPT-5.5 y Gemini 3.5 Flash. Solo quedan por delante Claude Opus 4.7 y Opus 4.6, lo que convierte a Alibaba en el único representante chino y el segundo a nivel mundial en la competición de modelos de programación. Las pruebas prácticas confirman su rendimiento. En un desafío para crear un juego de carreras 3D en HTML a partir de un prompt, Qwen3.7-Max generó una versión jugable en la primera ronda, incluyendo detalles como una pantalla de inicio y efectos de sonido, donde otros modelos líderes necesitaron múltiples correcciones de errores. Su fortaleza clave reside en ser un "modelo base para Agent", diseñado para ejecutar tareas complejas de forma autónoma y prolongada. En una prueba interna, optimizó código de forma continua durante 35 horas, realizando 1158 llamadas a herramientas sin degradación del contexto. Este avance se atribuye a mejoras en su entrenamiento, como la "expansión de entorno" y la capacidad de "ejecución autónoma de larga duración". Con su combinación de alto rendimiento en benchmarks, resultados prácticos superiores y un coste reducido, Qwen3.7-Max se posiciona como un fuerte competidor en el campo de los modelos de programación, demostrando que la innovación en IA ya no es un monólogo de Silicon Valley.

¡Hoy mismo, se publicó la última lista de Code Arena!

Qwen3.7-Max, con 1541 puntos, irrumpió en el top 4 mundial, superando de un golpe a una serie de modelos punteros como GPT-5.5 y Gemini 3.5 Flash.

Por delante de él, solo quedan Claude Opus 4.7 y Opus 4.6.

En otras palabras, en la arena mundial de modelos de programación, Alibaba es el único fabricante chino que ha logrado colarse en esta mesa, ocupando el segundo puesto por detrás de Anthropic.

Qwen3.7-Max entra en el top 5 mundial

El único modelo que no es de Claude

En realidad, incluso antes de que Code Arena publicara la lista, Qwen3.7-Max ya se había hecho un nombre entre los desarrolladores internacionales.

Atomic Chat hizo una comparación a muerte, poniendo a Opus 4.7, GPT-5.5 y Qwen3.7-Max en el mismo escenario, con la tarea de programar una IA que se auto-entrene para jugar al Tetris.

El resultado: Qwen3.7-Max no solo superó tanto a Opus 4.7 como a GPT-5.5 con un coste de tokens de solo 1.32 dólares, sino que además mejoró el rendimiento en un 56%.

Otro desarrollador internacional optó por hacer que Qwen3.7-Max construyera un modelo 3D del universo, y el resultado fue simplemente impresionante.

En la tarea de generar un "modelo de pagoda en miniatura con estilo de píxeles 3D", la velocidad de salida y la calidad de Qwen3.7-Max también superaron ampliamente a la competencia.

El desarrollador Paul Couvert incluso elogió con entusiasmo que, al conectarlo con Hermes Agent y OpenCode, Qwen3.7-Max básicamente puede reemplazar a GPT-5.5 y Opus 4.7.

Programación: es una bestia

Pero por muy altas que sean las puntuaciones, no hay nada como probarlo en una situación real.

Preparamos un desafío de "juego de carreras" a prueba de balas para Qwen3.7-Max.

Introdujimos un prompt detallado, y en poco tiempo, Qwen3.7-Max generó directamente un archivo HTML jugable.

La primera versión tenía un pequeño bug: las teclas de giro A/D estaban invertidas.

Pero tras un segundo ajuste conversacional sencillo, el juego de carreras 3D completo y funcional se puso en marcha.

En el momento de abrirlo, la verdad, fue una sorpresa.

4 coches en la misma pista, 3 vueltas en un circuito circular, más de 100 monedas esparcidas por la pista, tocar un obstáculo ralentiza y hace perder el control.

El panel de resultados post-carrera no faltaba: clasificación, tiempo, número de monedas, vuelta rápida, todo estaba ahí.

Pero lo que realmente resultó sorprendente fueron dos detalles que solo logró Qwen3.7-Max.

Uno fue la pantalla de inicio. Tras probar los cuatro modelos en paralelo, solo él creó una pantalla de inicio propiamente dicha para el juego, entrando en la carrera solo al pulsar "Start". Los otros tres arrancaban directamente, sin siquiera una pantalla de título.

El otro fueron los efectos de sonido. Al final del Prompt se añadió un requisito: añadir el sonido del motor rugiendo y el efecto al recoger monedas. De los cuatro modelos, solo él cumplió con este extra, incluyendo el rugido del motor y el sonido de las monedas.

Veamos ahora el rendimiento de los otros participantes.

Los gráficos de Gemini 3.5 Flash eran notablemente más simples, carecían de esa sensación tridimensional inminente.

El diseño de la interfaz de usuario también era problemático: la información del salpicadero estaba dispersa en las cuatro esquinas de la pantalla, sin un foco visual claro.

En comparación, Qwen3.7-Max optó por agrupar los indicadores clave en el centro de la pantalla, un enfoque más acorde con el punto natural de atención del jugador.

El resultado de Claude Opus 4.6 fue, por decirlo suavemente, decepcionante.

No solo había muy pocas monedas en la pista, sino que los 3 coches de la IA se movían casi al unísono, sin aleatoriedad, como si estuvieran copiados y pegados.

Finalmente, GPT-5.5.

Podemos ver que, en efecto, la calidad visual es mucho mejor que la de los dos anteriores, y la jugabilidad también es más fluida.

Pero, por alguna razón, las monedas estaban hechas de "rosquillas" amarillas...

El diseño es lo de menos. Lo crucial es que Gemini, Claude y ChatGPT tuvieron que corregir varios bugs para que todas las funciones funcionaran correctamente.

Solo Qwen3.7-Max fue básicamente jugable en su primera generación.

Puntuación similar, resultados reales sólidos, precio de una fracción. Las conclusiones las sacarán los desarrolladores con sus decisiones.

El modelo "base" para la era de los Agent

La razón por la que Qwen3.7-Max puede alcanzar este nivel en la arena más competitiva de la programación está en su propio posicionamiento.

Hace unos días, cuando Alibaba presentó Qwen3.7-Max, le otorgó una etiqueta muy especial: Modelo base para Agent.

Nació como un modelo diseñado para ejecutar tareas de forma autónoma durante largos periodos.

Los datos de las pruebas internas muestran que, en una tarea de programación autónoma, Qwen3.7-Max funcionó de forma continua durante 35 horas, realizando 1158 llamadas a herramientas.

El código generado finalmente logró una aceleración media geométrica de 10 veces en comparación con la implementación de referencia de Triton.

Pero lo más impactante es su capacidad de "guerra de desgaste":

Tras más de 30 horas de proceso de búsqueda, el modelo seguía mostrando agudeza, descubriendo continuamente nuevos espacios de optimización.

¡Cero degradación del contexto, cero desviación de instrucciones, cero bucles infinitos durante todo el proceso!

No se puede negar que la dificultad no reside en realizar 1000 llamadas a herramientas en sí. Con la expansión del protocolo MCP, 1000 llamadas no son tan raras.

La dificultad está en los 35 horas de razonamiento coherente.

La mayoría de los modelos colapsan en tareas largas: o el contexto se va acumulando y desordenando, olvidando por completo los objetivos fijados al principio hacia el final; o entran en un bucle infinito, probando repetidamente la misma solución fallida.

Qwen3.7-Max ha logrado hacer realidad el "hacer lo correcto de forma continua".

Revelación de las tecnologías clave

Creemos que esta mejora en programación de Qwen3.7-Max está posiblemente relacionada con la mejora de dos métodos de entrenamiento.

La primera es la expansión del entorno.

Al entrenar en programación, cada tarea de Qwen3.7-Max se desglosa en tres dimensiones independientes: la tarea en sí, el marco de ejecución y el método de validación, que se combinan libremente.

El mismo problema se trabaja a veces en el marco de Claude Code, otras en OpenClaw, otras cambiando el método de validación.

El efecto es como si un becario rotara por todos los grupos de proyectos. Lo que se ve obligado a aprender son estrategias generales de resolución de problemas, no "cómo tomar atajos en un marco específico".

Esto explica un fenómeno contraintuitivo: Qwen3.7-Max se comporta de forma estable en marcos como Claude Code, OpenClaw y Qwen Code, sin mostrar ese "muy fuerte en su propio marco, pero flojo al cambiar" que sí presentan otros.

La segunda mejora es la ejecución autónoma de larga duración.

Durante el entrenamiento, el equipo introdujo un marco de "juego de supervivencia con acumulación dinámica".

Es decir, hacer que el modelo tome decisiones secuenciales de más de mil pasos en un entorno simulado en constante cambio, estableciendo sus propias hipótesis, ajustando la estrategia en función de la retroalimentación, y sin sufrir "corrupción del contexto" por funcionar demasiado tiempo.

Aquí hay un dato revelador: en YC-Bench, simulando la gestión de una startup durante un año completo, Qwen3.7-Max logró unos ingresos de 2,08 millones de dólares, el doble que la generación anterior (1,05 millones).

Lo más crucial es que mostró evolución estratégica: al encontrar una crisis a mitad de camino, fue capaz de ajustar la dirección de forma autónoma, identificar y bloquear clientes malintencionados, convergiendo finalmente en un ciclo de ejecución estable.

Este es el soporte subyacente del caso de optimización del kernel de 35 horas, y es la razón por la que, en Kernel Bench L3, Qwen3.7-Max logró un efecto de aceleración en el 96% de los escenarios.

Y la programación es solo el primer campo de batalla. Esta base de razonamiento de larga duración combinada con llamadas a herramientas apunta a una ambición aún mayor: una base genérica para Agent.

La final de programación tiene un nuevo agente disruptor

Desde su lanzamiento, Code Arena siempre ha evaluado habilidades prácticas: razonamiento de múltiples pasos, orquestación de herramientas, entrega de proyectos completos, todo a nivel de Agent, con desafíos reales.

Hoy, Qwen3.7-Max se ha colado en la cuarta posición con una puntuación de 1541, situándose entre Opus 4.6 Thinking y Opus 4.6.

En esta pista dominada por Claude durante más de medio año, ha dado su respuesta: los modelos chinos no son solo seguidores, también pueden ser definidores.

La competencia mundial en modelos de programación ya no es un monólogo de Silicon Valley.

Referencias:

https://arena.ai/leaderboard/code/webdev

Este artículo proviene del WeChat público "新智元" (Nueva Era de la Inteligencia), autor: Apocalipsis ASI

Preguntas relacionadas

Q¿Qué posición ocupa Qwen3.7-Max en el ranking de Code Arena según el artículo?

AOcupa la cuarta posición global (con una puntuación de 1541 puntos). En términos de la competencia global de modelos de programación, Alibaba (creador de Qwen) es el único fabricante chino en alcanzar ese nivel, posicionándose como segundo, solo por detrás de Anthropic (creador de Claude).

QSegún las pruebas prácticas del artículo, ¿qué ventajas clave demostró Qwen3.7-Max al generar un juego de carreras en comparación con otros modelos?

AEn la prueba del juego de carreras, Qwen3.7-Max demostró varias ventajas: 1) Fue el único que incluyó una pantalla de inicio (con un botón 'Start'). 2) Fue el único que añadió efectos de sonido (motor y recolección de monedas) según el requerimiento del 'prompt'. 3) Su primer intento de generación produjo un juego básicamente jugable, mientras que otros modelos necesitaron varias rondas para corregir errores. 4) Su interfaz de usuario era más pulida, con información clave centrada.

Q¿Cuál es la etiqueta o posición especial que se le dio a Qwen3.7-Max durante su lanzamiento, y qué implica?

ASe le dio la etiqueta de 'Modelo Base para Agentes' (Agent Base Model). Esto implica que está diseñado específicamente para ejecutar tareas de forma autónoma durante largos periodos de tiempo, realizando múltiples llamadas a herramientas y manteniendo un razonamiento coherente sin degradación del contexto, deriva de instrucciones o bucles infinitos.

Q¿Qué dos mejoras clave en los métodos de entrenamiento se mencionan como responsables del avance en programación de Qwen3.7-Max?

ASe mencionan dos mejoras principales: 1) Expansión del entorno (Environment Scaling): Entrenar combinando libremente tareas, marcos de ejecución y métodos de verificación para que el modelo aprenda estrategias generales, no trucos específicos de un framework. 2) Ejecución autónoma de largo recorrido (Long-horizon Autonomous Execution): Entrenar al modelo en un marco de 'juego de supervivencia acumulativo dinámico' para que tome más de mil decisiones secuenciales en entornos cambiantes, ajuste estrategias basándose en retroalimentación y evite la 'corrupción del contexto'.

Q¿Qué resultado impresionante logró Qwen3.7-Max en una tarea de optimización de 'kernel' de larga duración, según el artículo?

AEn una tarea de optimización autónoma de programación, Qwen3.7-Max funcionó de forma continua durante 35 horas, realizó 1158 llamadas a herramientas y el código generado logró una aceleración promedio geométrica 10 veces mayor en comparación con la implementación de referencia de Triton. Además, incluso después de 30 horas, el modelo mantuvo su agudeza, encontrando nuevas oportunidades de optimización sin sufrir degradación del contexto, deriva de instrucciones o caer en bucles infinitos.

Lecturas Relacionadas

PA Gráficos | Un gráfico para entender los grandes eventos de Web3 que vale la pena seguir en junio

**Resumen: Eventos clave de Web3 en junio (2026)** El calendario cripto de junio presenta una mezcla de factores macroeconómicos, desbloqueos de tokens y eventos tecnológicos que darán forma al mercado: * **Factores Macro:** Los datos de inflación (IPC) y empleo (no agrícolas) de EE.UU., junto con las decisiones de tipos de interés de la Fed, el BCE y el Banco de Japón, seguirán influyendo en la aversión al riesgo y las expectativas de liquidez global. * **Desbloqueos de Tokens:** Proyectos como SUI y ENA tendrán eventos de desbloqueo, lo que requiere atención al posible impacto en el mercado. * **Dinámicas de Proyectos:** Nuevos productos institucionales llegarán, como los futuros de índices bursátiles perpetuos de Coinbase y los futuros de índices cripto de CME Group. También habrá inclusiones en índices tradicionales (SharpLink en Russell). * **Ajustes del Ecosistema:** Continúa el proceso de consolidación, con el cierre de algunos servicios como el explorador Ord.io de Bitcoin Ordinals. Los usuarios deben estar atentos a la migración de activos. * **Eventos Externos Destacados:** Eventos como el inicio del Mundial, la conferencia WWDC de Apple, la posible OPV de acciones de SpaceX y la audiencia para la IPO de宇树科技en China añaden contexto más amplio. En resumen, junio será un mes donde el mercado buscará una nueva dirección bajo la influencia de expectativas de liquidez, cambios políticos y la rotación dentro del ecosistema.

marsbitHace 31 min(s)

PA Gráficos | Un gráfico para entender los grandes eventos de Web3 que vale la pena seguir en junio

marsbitHace 31 min(s)

Alibaba "reabastece", ByteDance "entrena"

**Resumen en español europeo (≈1500 caracteres):** En la última semana de mayo, dos estrategias de IA chinas contrastaron claramente. Alibaba aceleró la **implementación comercial** de la IA. Integró su modelo Qwen con Taobao, permitiendo funciones como probadores virtuales y comparación de precios con IA. Su protocolo ACT busca estandarizar pagos automatizados por agentes de IA. Financieramente, apuesta por ser la "fábrica de IA" de China, con ingresos externos de su nube creciendo un 40%, demostrando un enfoque en **ROI inmediato y monetización**. Su premisa: una brecha de capacidad en modelos base no se ampliará críticamente en 5 años. ByteDance adopta una postura de **investigación a largo plazo**. Su departamento Seed, con líneas separadas para aplicaciones e investigación fundamental, tiene como meta principal "explorar el límite superior de la inteligencia". Su modelo de video Seedance 2.0 lidera benchmarks globales. Invierten masivamente en talento (programa Top Seed) y en investigación pura, como un artículo de 8 meses sobre modelos mundiales. Su presupuesto de capital se revisa al alza de forma agresiva, posible gracias a su condición de empresa **no cotizada**, lo que le otorga paciencia para perseguir avances fundamentales sin presión trimestral por beneficios. La diferencia clave no es filosófica, sino estructural. Las empresas cotizadas como Alibaba deben priorizar la monetización para el mercado. Las no cotizadas como ByteDance pueden permitirse "entrenar" a fondo. El futuro de la estrategia de IA en China depende en gran medida de este estado financiero.

marsbitHace 38 min(s)

Alibaba "reabastece", ByteDance "entrena"

marsbitHace 38 min(s)

¿Por qué más agentes de IA no equivalen a mayor productividad?

**Resumen: Por qué más agentes de IA no equivalen a mayor productividad** Cuando los agentes de IA se vuelven más baratos y fáciles de ejecutar, el desarrollo de software enfrenta un nuevo desafío: el cuello de botella ya no es lanzar más agentes, sino la capacidad humana de gestionar, evaluar e integrar sus resultados. Este artículo introduce el concepto de "impuesto de orquestación". Iniciar un agente es barato (un prompt o un clic), pero cerrar el ciclo es costoso: verificar resultados, entender su impacto arquitectónico, resolver conflictos entre agentes y decidir qué código integrar. Este trabajo no se puede paralelizar; depende de un recurso en serie: el juicio humano. El desarrollador es el "GIL" (Cerradura Global del Intérprete) del sistema de agentes: el candido de un solo hilo que limita el rendimiento final. Múltiples agentes pueden ejecutarse concurrentemente, pero las fases de juicio arquitectónico, revisión de código y fusión de cambios deben pasar por la mente del desarrollador. Más agentes no siempre significan más producción; pueden solo alargar la cola de tareas pendientes de revisión, llevando a cambios de contexto más frecuentes y fatiga cognitiva. La sensación de eficiencia no equivale a productividad real. Un panel lleno de agentes en ejecución crea una ilusión de "alta producción", pero si el desarrollador no comprende, revisa e integra esos cambios, el sistema puede acumular deuda técnica y cognitiva. La discusión clave no es "cómo usar más agentes", sino "cómo rediseñar el flujo de trabajo en torno a la atención humana". La habilidad crucial es saber qué tareas delegar a la máquina para procesamiento en paralelo y cuáles reservar para el juicio humano, cuándo revisar por lotes y cuándo detener la orquestación para concentrarse en un problema central. La IA amplía la capacidad de concurrencia en la producción de software, pero la atención humana sigue siendo el recurso más escaso e irreplicable. Un flujo de trabajo maduro con agentes no consiste en asignar todas las tareas a la máquina, sino en diseñar cuidadosamente la arquitectura de la propia atención, como se haría con cualquier sistema de producción. La verdadera habilidad es diseñar el sistema respetando ese recurso en serie que no se puede clonar: tu atención.

marsbitHace 2 hora(s)

¿Por qué más agentes de IA no equivalen a mayor productividad?

marsbitHace 2 hora(s)

Tres años después: Una revisión de mis predicciones sobre ChatGPT en 2023

Tres años después: Revisando mis predicciones sobre ChatGPT en 2023 En marzo de 2023, tras el lanzamiento de ChatGPT, Wang Jianshuo hizo 20 predicciones intuitivas sobre la IA. Ahora, en mayo de 2026, un sistema con 41 agentes de IA las ha reevaluado con datos actuales. **Resultados clave:** * **Aciertos (dirección general):** La arquitectura RAG se convirtió en estándar para integrar conocimiento. La Interfaz de Usuario de Lenguaje (LUI) creó una nueva capa de interacción (ej. protocolo MCP). Surgieron redes de agentes autónomos que se comunican. China desarrolló modelos grandes útiles (ej. DeepSeek), cerrando la brecha técnica. Los LLM no tienen conciencia; el Test de Turing solo mide la apariencia. * **Errores/Matices:** La predicción de que GPT-4 tendría 100 billones de parámetros fue incorrecta (≈1.8B). Los LLM **sí** pueden hacer matemáticas complejas sin herramientas externas (ej. medallas IMO 2025). El valor no migró solo a la capa de aplicación; NVIDIA (capa de hardware) capturó gran parte. El contenido generado por IA no evade automáticamente los derechos de autor (multas multimillonarias). La IA personalizada crea, no reduce, "cámaras de eco". Los costes de entrenamiento de modelos líderes superaron con creces la estimación de 5-10 mil millones de dólares. **Lecciones aprendidas:** 1. Predecir **mecanismos y direcciones** es más fiable que dar cifras o declaraciones absolutas. 2. Se tiende a **sobreestimar la velocidad** de cambio a corto plazo y **subestimar su magnitud** a largo plazo. 3. Los promedios generales (ej. "no habrá desempleo masivo") pueden ocultar **impactos distributivos** severos (ej. en jóvenes). 4. Las afirmaciones con **matices y limitaciones** envejecen mejor. 5. Tres años no son suficientes para resolver debates fundamentales (ej. valor final, consciencia de la IA). Este ejercicio subraya la dificultad de hacer predicciones precisas en un campo en rápida evolución y la importancia de la humildad al proyectar el futuro.

marsbitHace 8 hora(s)

Tres años después: Una revisión de mis predicciones sobre ChatGPT en 2023

marsbitHace 8 hora(s)

Trading

Spot
Futuros
活动图片