Acaba de pasar: la IA de China irrumpe en el top 2 mundial de programación, solo por detrás de Claude

marsbitPublicado a 2026-05-27Actualizado a 2026-05-27

Resumen

Hoy, el modelo chino Qwen3.7-Max de Alibaba ha entrado en el top 4 global del ranking Code Arena con 1541 puntos, superando a modelos como GPT-5.5 y Gemini 3.5 Flash. Solo quedan por delante Claude Opus 4.7 y Opus 4.6, lo que convierte a Alibaba en el único representante chino y el segundo a nivel mundial en la competición de modelos de programación. Las pruebas prácticas confirman su rendimiento. En un desafío para crear un juego de carreras 3D en HTML a partir de un prompt, Qwen3.7-Max generó una versión jugable en la primera ronda, incluyendo detalles como una pantalla de inicio y efectos de sonido, donde otros modelos líderes necesitaron múltiples correcciones de errores. Su fortaleza clave reside en ser un "modelo base para Agent", diseñado para ejecutar tareas complejas de forma autónoma y prolongada. En una prueba interna, optimizó código de forma continua durante 35 horas, realizando 1158 llamadas a herramientas sin degradación del contexto. Este avance se atribuye a mejoras en su entrenamiento, como la "expansión de entorno" y la capacidad de "ejecución autónoma de larga duración". Con su combinación de alto rendimiento en benchmarks, resultados prácticos superiores y un coste reducido, Qwen3.7-Max se posiciona como un fuerte competidor en el campo de los modelos de programación, demostrando que la innovación en IA ya no es un monólogo de Silicon Valley.

¡Hoy mismo, se publicó la última lista de Code Arena!

Qwen3.7-Max, con 1541 puntos, irrumpió en el top 4 mundial, superando de un golpe a una serie de modelos punteros como GPT-5.5 y Gemini 3.5 Flash.

Por delante de él, solo quedan Claude Opus 4.7 y Opus 4.6.

En otras palabras, en la arena mundial de modelos de programación, Alibaba es el único fabricante chino que ha logrado colarse en esta mesa, ocupando el segundo puesto por detrás de Anthropic.

Qwen3.7-Max entra en el top 5 mundial

El único modelo que no es de Claude

En realidad, incluso antes de que Code Arena publicara la lista, Qwen3.7-Max ya se había hecho un nombre entre los desarrolladores internacionales.

Atomic Chat hizo una comparación a muerte, poniendo a Opus 4.7, GPT-5.5 y Qwen3.7-Max en el mismo escenario, con la tarea de programar una IA que se auto-entrene para jugar al Tetris.

El resultado: Qwen3.7-Max no solo superó tanto a Opus 4.7 como a GPT-5.5 con un coste de tokens de solo 1.32 dólares, sino que además mejoró el rendimiento en un 56%.

Otro desarrollador internacional optó por hacer que Qwen3.7-Max construyera un modelo 3D del universo, y el resultado fue simplemente impresionante.

En la tarea de generar un "modelo de pagoda en miniatura con estilo de píxeles 3D", la velocidad de salida y la calidad de Qwen3.7-Max también superaron ampliamente a la competencia.

El desarrollador Paul Couvert incluso elogió con entusiasmo que, al conectarlo con Hermes Agent y OpenCode, Qwen3.7-Max básicamente puede reemplazar a GPT-5.5 y Opus 4.7.

Programación: es una bestia

Pero por muy altas que sean las puntuaciones, no hay nada como probarlo en una situación real.

Preparamos un desafío de "juego de carreras" a prueba de balas para Qwen3.7-Max.

Introdujimos un prompt detallado, y en poco tiempo, Qwen3.7-Max generó directamente un archivo HTML jugable.

La primera versión tenía un pequeño bug: las teclas de giro A/D estaban invertidas.

Pero tras un segundo ajuste conversacional sencillo, el juego de carreras 3D completo y funcional se puso en marcha.

En el momento de abrirlo, la verdad, fue una sorpresa.

4 coches en la misma pista, 3 vueltas en un circuito circular, más de 100 monedas esparcidas por la pista, tocar un obstáculo ralentiza y hace perder el control.

El panel de resultados post-carrera no faltaba: clasificación, tiempo, número de monedas, vuelta rápida, todo estaba ahí.

Pero lo que realmente resultó sorprendente fueron dos detalles que solo logró Qwen3.7-Max.

Uno fue la pantalla de inicio. Tras probar los cuatro modelos en paralelo, solo él creó una pantalla de inicio propiamente dicha para el juego, entrando en la carrera solo al pulsar "Start". Los otros tres arrancaban directamente, sin siquiera una pantalla de título.

El otro fueron los efectos de sonido. Al final del Prompt se añadió un requisito: añadir el sonido del motor rugiendo y el efecto al recoger monedas. De los cuatro modelos, solo él cumplió con este extra, incluyendo el rugido del motor y el sonido de las monedas.

Veamos ahora el rendimiento de los otros participantes.

Los gráficos de Gemini 3.5 Flash eran notablemente más simples, carecían de esa sensación tridimensional inminente.

El diseño de la interfaz de usuario también era problemático: la información del salpicadero estaba dispersa en las cuatro esquinas de la pantalla, sin un foco visual claro.

En comparación, Qwen3.7-Max optó por agrupar los indicadores clave en el centro de la pantalla, un enfoque más acorde con el punto natural de atención del jugador.

El resultado de Claude Opus 4.6 fue, por decirlo suavemente, decepcionante.

No solo había muy pocas monedas en la pista, sino que los 3 coches de la IA se movían casi al unísono, sin aleatoriedad, como si estuvieran copiados y pegados.

Finalmente, GPT-5.5.

Podemos ver que, en efecto, la calidad visual es mucho mejor que la de los dos anteriores, y la jugabilidad también es más fluida.

Pero, por alguna razón, las monedas estaban hechas de "rosquillas" amarillas...

El diseño es lo de menos. Lo crucial es que Gemini, Claude y ChatGPT tuvieron que corregir varios bugs para que todas las funciones funcionaran correctamente.

Solo Qwen3.7-Max fue básicamente jugable en su primera generación.

Puntuación similar, resultados reales sólidos, precio de una fracción. Las conclusiones las sacarán los desarrolladores con sus decisiones.

El modelo "base" para la era de los Agent

La razón por la que Qwen3.7-Max puede alcanzar este nivel en la arena más competitiva de la programación está en su propio posicionamiento.

Hace unos días, cuando Alibaba presentó Qwen3.7-Max, le otorgó una etiqueta muy especial: Modelo base para Agent.

Nació como un modelo diseñado para ejecutar tareas de forma autónoma durante largos periodos.

Los datos de las pruebas internas muestran que, en una tarea de programación autónoma, Qwen3.7-Max funcionó de forma continua durante 35 horas, realizando 1158 llamadas a herramientas.

El código generado finalmente logró una aceleración media geométrica de 10 veces en comparación con la implementación de referencia de Triton.

Pero lo más impactante es su capacidad de "guerra de desgaste":

Tras más de 30 horas de proceso de búsqueda, el modelo seguía mostrando agudeza, descubriendo continuamente nuevos espacios de optimización.

¡Cero degradación del contexto, cero desviación de instrucciones, cero bucles infinitos durante todo el proceso!

No se puede negar que la dificultad no reside en realizar 1000 llamadas a herramientas en sí. Con la expansión del protocolo MCP, 1000 llamadas no son tan raras.

La dificultad está en los 35 horas de razonamiento coherente.

La mayoría de los modelos colapsan en tareas largas: o el contexto se va acumulando y desordenando, olvidando por completo los objetivos fijados al principio hacia el final; o entran en un bucle infinito, probando repetidamente la misma solución fallida.

Qwen3.7-Max ha logrado hacer realidad el "hacer lo correcto de forma continua".

Revelación de las tecnologías clave

Creemos que esta mejora en programación de Qwen3.7-Max está posiblemente relacionada con la mejora de dos métodos de entrenamiento.

La primera es la expansión del entorno.

Al entrenar en programación, cada tarea de Qwen3.7-Max se desglosa en tres dimensiones independientes: la tarea en sí, el marco de ejecución y el método de validación, que se combinan libremente.

El mismo problema se trabaja a veces en el marco de Claude Code, otras en OpenClaw, otras cambiando el método de validación.

El efecto es como si un becario rotara por todos los grupos de proyectos. Lo que se ve obligado a aprender son estrategias generales de resolución de problemas, no "cómo tomar atajos en un marco específico".

Esto explica un fenómeno contraintuitivo: Qwen3.7-Max se comporta de forma estable en marcos como Claude Code, OpenClaw y Qwen Code, sin mostrar ese "muy fuerte en su propio marco, pero flojo al cambiar" que sí presentan otros.

La segunda mejora es la ejecución autónoma de larga duración.

Durante el entrenamiento, el equipo introdujo un marco de "juego de supervivencia con acumulación dinámica".

Es decir, hacer que el modelo tome decisiones secuenciales de más de mil pasos en un entorno simulado en constante cambio, estableciendo sus propias hipótesis, ajustando la estrategia en función de la retroalimentación, y sin sufrir "corrupción del contexto" por funcionar demasiado tiempo.

Aquí hay un dato revelador: en YC-Bench, simulando la gestión de una startup durante un año completo, Qwen3.7-Max logró unos ingresos de 2,08 millones de dólares, el doble que la generación anterior (1,05 millones).

Lo más crucial es que mostró evolución estratégica: al encontrar una crisis a mitad de camino, fue capaz de ajustar la dirección de forma autónoma, identificar y bloquear clientes malintencionados, convergiendo finalmente en un ciclo de ejecución estable.

Este es el soporte subyacente del caso de optimización del kernel de 35 horas, y es la razón por la que, en Kernel Bench L3, Qwen3.7-Max logró un efecto de aceleración en el 96% de los escenarios.

Y la programación es solo el primer campo de batalla. Esta base de razonamiento de larga duración combinada con llamadas a herramientas apunta a una ambición aún mayor: una base genérica para Agent.

La final de programación tiene un nuevo agente disruptor

Desde su lanzamiento, Code Arena siempre ha evaluado habilidades prácticas: razonamiento de múltiples pasos, orquestación de herramientas, entrega de proyectos completos, todo a nivel de Agent, con desafíos reales.

Hoy, Qwen3.7-Max se ha colado en la cuarta posición con una puntuación de 1541, situándose entre Opus 4.6 Thinking y Opus 4.6.

En esta pista dominada por Claude durante más de medio año, ha dado su respuesta: los modelos chinos no son solo seguidores, también pueden ser definidores.

La competencia mundial en modelos de programación ya no es un monólogo de Silicon Valley.

Referencias:

https://arena.ai/leaderboard/code/webdev

Este artículo proviene del WeChat público "新智元" (Nueva Era de la Inteligencia), autor: Apocalipsis ASI

Preguntas relacionadas

Q¿Qué posición ocupa Qwen3.7-Max en el ranking de Code Arena según el artículo?

AOcupa la cuarta posición global (con una puntuación de 1541 puntos). En términos de la competencia global de modelos de programación, Alibaba (creador de Qwen) es el único fabricante chino en alcanzar ese nivel, posicionándose como segundo, solo por detrás de Anthropic (creador de Claude).

QSegún las pruebas prácticas del artículo, ¿qué ventajas clave demostró Qwen3.7-Max al generar un juego de carreras en comparación con otros modelos?

AEn la prueba del juego de carreras, Qwen3.7-Max demostró varias ventajas: 1) Fue el único que incluyó una pantalla de inicio (con un botón 'Start'). 2) Fue el único que añadió efectos de sonido (motor y recolección de monedas) según el requerimiento del 'prompt'. 3) Su primer intento de generación produjo un juego básicamente jugable, mientras que otros modelos necesitaron varias rondas para corregir errores. 4) Su interfaz de usuario era más pulida, con información clave centrada.

Q¿Cuál es la etiqueta o posición especial que se le dio a Qwen3.7-Max durante su lanzamiento, y qué implica?

ASe le dio la etiqueta de 'Modelo Base para Agentes' (Agent Base Model). Esto implica que está diseñado específicamente para ejecutar tareas de forma autónoma durante largos periodos de tiempo, realizando múltiples llamadas a herramientas y manteniendo un razonamiento coherente sin degradación del contexto, deriva de instrucciones o bucles infinitos.

Q¿Qué dos mejoras clave en los métodos de entrenamiento se mencionan como responsables del avance en programación de Qwen3.7-Max?

ASe mencionan dos mejoras principales: 1) Expansión del entorno (Environment Scaling): Entrenar combinando libremente tareas, marcos de ejecución y métodos de verificación para que el modelo aprenda estrategias generales, no trucos específicos de un framework. 2) Ejecución autónoma de largo recorrido (Long-horizon Autonomous Execution): Entrenar al modelo en un marco de 'juego de supervivencia acumulativo dinámico' para que tome más de mil decisiones secuenciales en entornos cambiantes, ajuste estrategias basándose en retroalimentación y evite la 'corrupción del contexto'.

Q¿Qué resultado impresionante logró Qwen3.7-Max en una tarea de optimización de 'kernel' de larga duración, según el artículo?

AEn una tarea de optimización autónoma de programación, Qwen3.7-Max funcionó de forma continua durante 35 horas, realizó 1158 llamadas a herramientas y el código generado logró una aceleración promedio geométrica 10 veces mayor en comparación con la implementación de referencia de Triton. Además, incluso después de 30 horas, el modelo mantuvo su agudeza, encontrando nuevas oportunidades de optimización sin sufrir degradación del contexto, deriva de instrucciones o caer en bucles infinitos.

Lecturas Relacionadas

OpenAI ya no depende del modelo más caro para ganar dinero

La empresa OpenAI anunció una importante reducción de precios el 30 de julio, destacando que GPT-5.6 Luna bajó un 80% y Terra un 20. Este movimiento, junto con una acción similar de Anthropic la semana anterior, señala un cambio estratégico crucial: las empresas ya no promueven principalmente sus modelos más potentes y caros. En su lugar, OpenAI recomienda explícitamente a los usuarios que para muchas tareas no es necesario usar el modelo más fuerte, sugiriendo un flujo de trabajo donde el modelo Sol (el más caro) diseña y planifica, y el modelo Luna (más económico) ejecuta. Esto refleja que el enfoque ha pasado de vender la inteligencia máxima a vender eficiencia y escala, priorizando modelos económicos y estables para tareas de alto volumen. La verdadera batalla ya no es por quién tiene el modelo más inteligente, sino por quién puede ofrecer la mejor relación costo-rendimiento y crear un ecosistema de uso con alta fidelidad. La industria de la IA estaría entrando en una era de "economía de escala", donde el costo por token cae drásticamente gracias, en parte, a que los propios modelos optimizan su código y operaciones, impulsando un ciclo de reducción de costos autosostenido. El objetivo final parece ser que la IA se convierta en una utilidad omnipresente y de bajo costo, como la electricidad, integrada en todos los flujos de trabajo.

marsbitHace 52 min(s)

OpenAI ya no depende del modelo más caro para ganar dinero

marsbitHace 52 min(s)

Sueldos de un millón al año por un electricista: Meta tiene tanta prisa que hasta abre su propia escuela técnica

La nueva barrera en la carrera de la IA no está en el código, sino en la construcción física. Empresas como Meta y OpenAI enfrentan una grave escasez de trabajadores calificados —electricistas, fontaneros, ingenieros HVAC— para construir sus megacentros de datos, como el proyecto "Stargate" de 160.000 millones de dólares. Aunque ofrecen salarios altísimos (hasta 280.000 dólares anuales para electricistas), la falta de mano de obra cualificada retrasa proyectos y genera pérdidas millonarias. La complejidad es extrema: las instalaciones consumen cientos de megavatios, requieren sistemas de refrigeración líquida avanzados y una ingeniería eléctrica sin precedentes. La solución: las Big Tech están creando sus propias escuelas de formación. Meta invirtió 115 millones en un programa que cubre todos los gastos para formar a miles de nuevos técnicos. OpenAI se alía con sindicatos. El reclutamiento ya llega a las escuelas secundarias, prometiendo carreras lucrativas sin necesidad de universidad. El resultado es un cambio generacional: un 60% de la Generación Z considera ahora trabajar en oficios especializados. Pero el desafío energético es colosal: los centros de datos de IA consumirán hasta el 12% de la electricidad de EE.UU. para 2028, encareciendo las facturas y dependiendo de una fuerza laboral que, una vez terminadas las construcciones masivas, deberá encontrar nuevo empleo en otros sectores.

marsbitHace 52 min(s)

Sueldos de un millón al año por un electricista: Meta tiene tanta prisa que hasta abre su propia escuela técnica

marsbitHace 52 min(s)

Sospechosa cuarta oleada de ataques a Coldcard se lleva 389 Bitcoin: Thorn de Galaxy

Se advierte a los usuarios de Coldcard sobre una nueva oleada de robos coordinados dirigidos a sus monederos de hardware de Bitcoin, pocos días después de la primera oleada del jueves. Alex Thorn, jefe de investigación de Galaxy, informó el lunes de 218 transacciones que afectan a 462 direcciones potencialmente víctimas, moviendo alrededor de 388.9 BTC. La actividad promedió 13.8 barridos por bloque, unas 45 veces más que en un período de control previo. Las transferencias crearon un nuevo destino para cada víctima en lugar de converger en una única dirección. Thorn afirmó que es muy probable que sean víctimas de Coldcard, ya que coinciden con el patrón de UTXO vulnerables y la elevada actividad transaccional. Algunos fondos ya han sido movidos a direcciones secundarias y hay transacciones similares en el mempool esperando confirmación. Los usuarios afectados podrían intentar emitir una transacción conflictiva con una tarifa más alta para mover sus fondos a un monedero seguro antes de que se confirme la del atacante. Esto sigue a la divulgación de una falla previamente no detectada en el firmware de Coldcard que hace que los dispositivos afectados generen semillas con menos entropía de la prevista. Se estima que más de 1,100 monederos han sido impactados, con alrededor de $90 millones en Bitcoin robados.

cointelegraphHace 1 hora(s)

Sospechosa cuarta oleada de ataques a Coldcard se lleva 389 Bitcoin: Thorn de Galaxy

cointelegraphHace 1 hora(s)

¿La Fed subirá los tipos en septiembre? ¿Cómo soportarán la presión las criptomonedas y las acciones estadounidenses?

En solo una semana, las apuestas del mercado sobre una subida de tipos en septiembre por parte de la Fed han pasado de menos del 50% a más del 80%. Este rápido cambio se debe al voto dividido 9-3 en la última reunión, donde tres miembros abogaron por una subida inmediata, y a la escalada del precio del petróleo provocada por tensiones geopolíticas en el Estrecho de Ormuz. El próximo dato clave será el IPC de julio, publicado el 12 de agosto. Para los criptoactivos como Bitcoin, que muestran una alta sensibilidad a la liquidez, el aumento de las expectativas de subidas es una mala noticia, ya que eleva el costo de oportunidad de mantener activos que no generan intereses. Sin embargo, el impacto puede ser limitado si el mercado interpreta la medida como el final del ciclo de endurecimiento. Las acciones vinculadas a las criptomonedas, como Coinbase, podrían experimentar una volatilidad aún mayor. En el mercado bursátil estadounidense, las acciones tecnológicas y de alto crecimiento enfrentan presión por el aumento de las tasas de descuento. El gasto de capital récord de los gigantes tecnológicos está siendo escrutinado, y una subida de tipos en septiembre podría reducir la tolerancia del mercado hacia empresas con flujos de efectivo negativos si no muestran crecimiento en ingresos. Los próximos datos de inflación y las declaraciones de la Fed serán cruciales para confirmar o no esta expectativa de endurecimiento.

marsbitHace 1 hora(s)

¿La Fed subirá los tipos en septiembre? ¿Cómo soportarán la presión las criptomonedas y las acciones estadounidenses?

marsbitHace 1 hora(s)

Los mineros de Bitcoin se rinden, pero sus acciones se disparan

La potencia minera de Bitcoin (hashrate) lleva meses cayendo, y la dificultad de minería acaba de registrar uno de sus descensos más pronunciados de la historia. Esto indica una capitulación de los mineros, ya que apagan máquinas que ya no son rentables. Sin embargo, las acciones de las empresas mineras cotizadas se han disparado en el último año, superando con creces el rendimiento del propio BTC, lo que marca una divergencia inusual respecto a ciclos anteriores. Este desacople se debe en gran parte a la narrativa de la IA (Inteligencia Artificial), que ha impulsado el valor de estas empresas independientemente del mercado de criptomonedas. Mientras tanto, los ingresos por recompensas de bloque (subsidio) en términos de BTC han alcanzado un mínimo histórico diario, y los ingresos por comisiones son actualmente muy bajos, cubriendo solo unos minutos de seguridad de la red al día. En resumen, la capitulación minera actual tiene una forma diferente: los mineros se enfrentan a un subsidio decreciente y precios bajos del BTC, pero algunas empresas encuentran valor alternativo en el hardware para IA. A largo plazo, la seguridad de la red dependerá cada vez más del desarrollo de un mercado de comisiones robusto, un problema que se hace más evidente durante los mercados bajistas.

marsbitHace 1 hora(s)

Los mineros de Bitcoin se rinden, pero sus acciones se disparan

marsbitHace 1 hora(s)

Trading

Spot

Acaba de pasar: la IA de China irrumpe en el top 2 mundial de programación, solo por detrás de Claude

Resumen

Qwen3.7-Max entra en el top 5 mundial

El único modelo que no es de Claude

Programación: es una bestia

El modelo "base" para la era de los Agent

Revelación de las tecnologías clave

La final de programación tiene un nuevo agente disruptor

Preguntas relacionadas

Lecturas Relacionadas

OpenAI ya no depende del modelo más caro para ganar dinero

Sueldos de un millón al año por un electricista: Meta tiene tanta prisa que hasta abre su propia escuela técnica

Sospechosa cuarta oleada de ataques a Coldcard se lleva 389 Bitcoin: Thorn de Galaxy

¿La Fed subirá los tipos en septiembre? ¿Cómo soportarán la presión las criptomonedas y las acciones estadounidenses?

Los mineros de Bitcoin se rinden, pero sus acciones se disparan

Trading

Categorías populares

Etiquetas Populares