Acaba de pasar: la IA de China irrumpe en el top 2 mundial de programación, solo por detrás de Claude

marsbitPublicado a 2026-05-27Actualizado a 2026-05-27

Resumen

Hoy, el modelo chino Qwen3.7-Max de Alibaba ha entrado en el top 4 global del ranking Code Arena con 1541 puntos, superando a modelos como GPT-5.5 y Gemini 3.5 Flash. Solo quedan por delante Claude Opus 4.7 y Opus 4.6, lo que convierte a Alibaba en el único representante chino y el segundo a nivel mundial en la competición de modelos de programación. Las pruebas prácticas confirman su rendimiento. En un desafío para crear un juego de carreras 3D en HTML a partir de un prompt, Qwen3.7-Max generó una versión jugable en la primera ronda, incluyendo detalles como una pantalla de inicio y efectos de sonido, donde otros modelos líderes necesitaron múltiples correcciones de errores. Su fortaleza clave reside en ser un "modelo base para Agent", diseñado para ejecutar tareas complejas de forma autónoma y prolongada. En una prueba interna, optimizó código de forma continua durante 35 horas, realizando 1158 llamadas a herramientas sin degradación del contexto. Este avance se atribuye a mejoras en su entrenamiento, como la "expansión de entorno" y la capacidad de "ejecución autónoma de larga duración". Con su combinación de alto rendimiento en benchmarks, resultados prácticos superiores y un coste reducido, Qwen3.7-Max se posiciona como un fuerte competidor en el campo de los modelos de programación, demostrando que la innovación en IA ya no es un monólogo de Silicon Valley.

¡Hoy mismo, se publicó la última lista de Code Arena!

Qwen3.7-Max, con 1541 puntos, irrumpió en el top 4 mundial, superando de un golpe a una serie de modelos punteros como GPT-5.5 y Gemini 3.5 Flash.

Por delante de él, solo quedan Claude Opus 4.7 y Opus 4.6.

En otras palabras, en la arena mundial de modelos de programación, Alibaba es el único fabricante chino que ha logrado colarse en esta mesa, ocupando el segundo puesto por detrás de Anthropic.

Qwen3.7-Max entra en el top 5 mundial

El único modelo que no es de Claude

En realidad, incluso antes de que Code Arena publicara la lista, Qwen3.7-Max ya se había hecho un nombre entre los desarrolladores internacionales.

Atomic Chat hizo una comparación a muerte, poniendo a Opus 4.7, GPT-5.5 y Qwen3.7-Max en el mismo escenario, con la tarea de programar una IA que se auto-entrene para jugar al Tetris.

El resultado: Qwen3.7-Max no solo superó tanto a Opus 4.7 como a GPT-5.5 con un coste de tokens de solo 1.32 dólares, sino que además mejoró el rendimiento en un 56%.

Otro desarrollador internacional optó por hacer que Qwen3.7-Max construyera un modelo 3D del universo, y el resultado fue simplemente impresionante.

En la tarea de generar un "modelo de pagoda en miniatura con estilo de píxeles 3D", la velocidad de salida y la calidad de Qwen3.7-Max también superaron ampliamente a la competencia.

El desarrollador Paul Couvert incluso elogió con entusiasmo que, al conectarlo con Hermes Agent y OpenCode, Qwen3.7-Max básicamente puede reemplazar a GPT-5.5 y Opus 4.7.

Programación: es una bestia

Pero por muy altas que sean las puntuaciones, no hay nada como probarlo en una situación real.

Preparamos un desafío de "juego de carreras" a prueba de balas para Qwen3.7-Max.

Introdujimos un prompt detallado, y en poco tiempo, Qwen3.7-Max generó directamente un archivo HTML jugable.

La primera versión tenía un pequeño bug: las teclas de giro A/D estaban invertidas.

Pero tras un segundo ajuste conversacional sencillo, el juego de carreras 3D completo y funcional se puso en marcha.

En el momento de abrirlo, la verdad, fue una sorpresa.

4 coches en la misma pista, 3 vueltas en un circuito circular, más de 100 monedas esparcidas por la pista, tocar un obstáculo ralentiza y hace perder el control.

El panel de resultados post-carrera no faltaba: clasificación, tiempo, número de monedas, vuelta rápida, todo estaba ahí.

Pero lo que realmente resultó sorprendente fueron dos detalles que solo logró Qwen3.7-Max.

Uno fue la pantalla de inicio. Tras probar los cuatro modelos en paralelo, solo él creó una pantalla de inicio propiamente dicha para el juego, entrando en la carrera solo al pulsar "Start". Los otros tres arrancaban directamente, sin siquiera una pantalla de título.

El otro fueron los efectos de sonido. Al final del Prompt se añadió un requisito: añadir el sonido del motor rugiendo y el efecto al recoger monedas. De los cuatro modelos, solo él cumplió con este extra, incluyendo el rugido del motor y el sonido de las monedas.

Veamos ahora el rendimiento de los otros participantes.

Los gráficos de Gemini 3.5 Flash eran notablemente más simples, carecían de esa sensación tridimensional inminente.

El diseño de la interfaz de usuario también era problemático: la información del salpicadero estaba dispersa en las cuatro esquinas de la pantalla, sin un foco visual claro.

En comparación, Qwen3.7-Max optó por agrupar los indicadores clave en el centro de la pantalla, un enfoque más acorde con el punto natural de atención del jugador.

El resultado de Claude Opus 4.6 fue, por decirlo suavemente, decepcionante.

No solo había muy pocas monedas en la pista, sino que los 3 coches de la IA se movían casi al unísono, sin aleatoriedad, como si estuvieran copiados y pegados.

Finalmente, GPT-5.5.

Podemos ver que, en efecto, la calidad visual es mucho mejor que la de los dos anteriores, y la jugabilidad también es más fluida.

Pero, por alguna razón, las monedas estaban hechas de "rosquillas" amarillas...

El diseño es lo de menos. Lo crucial es que Gemini, Claude y ChatGPT tuvieron que corregir varios bugs para que todas las funciones funcionaran correctamente.

Solo Qwen3.7-Max fue básicamente jugable en su primera generación.

Puntuación similar, resultados reales sólidos, precio de una fracción. Las conclusiones las sacarán los desarrolladores con sus decisiones.

El modelo "base" para la era de los Agent

La razón por la que Qwen3.7-Max puede alcanzar este nivel en la arena más competitiva de la programación está en su propio posicionamiento.

Hace unos días, cuando Alibaba presentó Qwen3.7-Max, le otorgó una etiqueta muy especial: Modelo base para Agent.

Nació como un modelo diseñado para ejecutar tareas de forma autónoma durante largos periodos.

Los datos de las pruebas internas muestran que, en una tarea de programación autónoma, Qwen3.7-Max funcionó de forma continua durante 35 horas, realizando 1158 llamadas a herramientas.

El código generado finalmente logró una aceleración media geométrica de 10 veces en comparación con la implementación de referencia de Triton.

Pero lo más impactante es su capacidad de "guerra de desgaste":

Tras más de 30 horas de proceso de búsqueda, el modelo seguía mostrando agudeza, descubriendo continuamente nuevos espacios de optimización.

¡Cero degradación del contexto, cero desviación de instrucciones, cero bucles infinitos durante todo el proceso!

No se puede negar que la dificultad no reside en realizar 1000 llamadas a herramientas en sí. Con la expansión del protocolo MCP, 1000 llamadas no son tan raras.

La dificultad está en los 35 horas de razonamiento coherente.

La mayoría de los modelos colapsan en tareas largas: o el contexto se va acumulando y desordenando, olvidando por completo los objetivos fijados al principio hacia el final; o entran en un bucle infinito, probando repetidamente la misma solución fallida.

Qwen3.7-Max ha logrado hacer realidad el "hacer lo correcto de forma continua".

Revelación de las tecnologías clave

Creemos que esta mejora en programación de Qwen3.7-Max está posiblemente relacionada con la mejora de dos métodos de entrenamiento.

La primera es la expansión del entorno.

Al entrenar en programación, cada tarea de Qwen3.7-Max se desglosa en tres dimensiones independientes: la tarea en sí, el marco de ejecución y el método de validación, que se combinan libremente.

El mismo problema se trabaja a veces en el marco de Claude Code, otras en OpenClaw, otras cambiando el método de validación.

El efecto es como si un becario rotara por todos los grupos de proyectos. Lo que se ve obligado a aprender son estrategias generales de resolución de problemas, no "cómo tomar atajos en un marco específico".

Esto explica un fenómeno contraintuitivo: Qwen3.7-Max se comporta de forma estable en marcos como Claude Code, OpenClaw y Qwen Code, sin mostrar ese "muy fuerte en su propio marco, pero flojo al cambiar" que sí presentan otros.

La segunda mejora es la ejecución autónoma de larga duración.

Durante el entrenamiento, el equipo introdujo un marco de "juego de supervivencia con acumulación dinámica".

Es decir, hacer que el modelo tome decisiones secuenciales de más de mil pasos en un entorno simulado en constante cambio, estableciendo sus propias hipótesis, ajustando la estrategia en función de la retroalimentación, y sin sufrir "corrupción del contexto" por funcionar demasiado tiempo.

Aquí hay un dato revelador: en YC-Bench, simulando la gestión de una startup durante un año completo, Qwen3.7-Max logró unos ingresos de 2,08 millones de dólares, el doble que la generación anterior (1,05 millones).

Lo más crucial es que mostró evolución estratégica: al encontrar una crisis a mitad de camino, fue capaz de ajustar la dirección de forma autónoma, identificar y bloquear clientes malintencionados, convergiendo finalmente en un ciclo de ejecución estable.

Este es el soporte subyacente del caso de optimización del kernel de 35 horas, y es la razón por la que, en Kernel Bench L3, Qwen3.7-Max logró un efecto de aceleración en el 96% de los escenarios.

Y la programación es solo el primer campo de batalla. Esta base de razonamiento de larga duración combinada con llamadas a herramientas apunta a una ambición aún mayor: una base genérica para Agent.

La final de programación tiene un nuevo agente disruptor

Desde su lanzamiento, Code Arena siempre ha evaluado habilidades prácticas: razonamiento de múltiples pasos, orquestación de herramientas, entrega de proyectos completos, todo a nivel de Agent, con desafíos reales.

Hoy, Qwen3.7-Max se ha colado en la cuarta posición con una puntuación de 1541, situándose entre Opus 4.6 Thinking y Opus 4.6.

En esta pista dominada por Claude durante más de medio año, ha dado su respuesta: los modelos chinos no son solo seguidores, también pueden ser definidores.

La competencia mundial en modelos de programación ya no es un monólogo de Silicon Valley.

Referencias:

https://arena.ai/leaderboard/code/webdev

Este artículo proviene del WeChat público "新智元" (Nueva Era de la Inteligencia), autor: Apocalipsis ASI

Preguntas relacionadas

Q¿Qué posición ocupa Qwen3.7-Max en el ranking de Code Arena según el artículo?

AOcupa la cuarta posición global (con una puntuación de 1541 puntos). En términos de la competencia global de modelos de programación, Alibaba (creador de Qwen) es el único fabricante chino en alcanzar ese nivel, posicionándose como segundo, solo por detrás de Anthropic (creador de Claude).

QSegún las pruebas prácticas del artículo, ¿qué ventajas clave demostró Qwen3.7-Max al generar un juego de carreras en comparación con otros modelos?

AEn la prueba del juego de carreras, Qwen3.7-Max demostró varias ventajas: 1) Fue el único que incluyó una pantalla de inicio (con un botón 'Start'). 2) Fue el único que añadió efectos de sonido (motor y recolección de monedas) según el requerimiento del 'prompt'. 3) Su primer intento de generación produjo un juego básicamente jugable, mientras que otros modelos necesitaron varias rondas para corregir errores. 4) Su interfaz de usuario era más pulida, con información clave centrada.

Q¿Cuál es la etiqueta o posición especial que se le dio a Qwen3.7-Max durante su lanzamiento, y qué implica?

ASe le dio la etiqueta de 'Modelo Base para Agentes' (Agent Base Model). Esto implica que está diseñado específicamente para ejecutar tareas de forma autónoma durante largos periodos de tiempo, realizando múltiples llamadas a herramientas y manteniendo un razonamiento coherente sin degradación del contexto, deriva de instrucciones o bucles infinitos.

Q¿Qué dos mejoras clave en los métodos de entrenamiento se mencionan como responsables del avance en programación de Qwen3.7-Max?

ASe mencionan dos mejoras principales: 1) Expansión del entorno (Environment Scaling): Entrenar combinando libremente tareas, marcos de ejecución y métodos de verificación para que el modelo aprenda estrategias generales, no trucos específicos de un framework. 2) Ejecución autónoma de largo recorrido (Long-horizon Autonomous Execution): Entrenar al modelo en un marco de 'juego de supervivencia acumulativo dinámico' para que tome más de mil decisiones secuenciales en entornos cambiantes, ajuste estrategias basándose en retroalimentación y evite la 'corrupción del contexto'.

Q¿Qué resultado impresionante logró Qwen3.7-Max en una tarea de optimización de 'kernel' de larga duración, según el artículo?

AEn una tarea de optimización autónoma de programación, Qwen3.7-Max funcionó de forma continua durante 35 horas, realizó 1158 llamadas a herramientas y el código generado logró una aceleración promedio geométrica 10 veces mayor en comparación con la implementación de referencia de Triton. Además, incluso después de 30 horas, el modelo mantuvo su agudeza, encontrando nuevas oportunidades de optimización sin sufrir degradación del contexto, deriva de instrucciones o caer en bucles infinitos.

Lecturas Relacionadas

¿Vale la pena la quema de LIT de 42 millones de dólares para impulsar el próximo gran rally de esta altcoin?

El token Lighter (LIT) ha experimentado una notable actividad reciente. Trás una advertencia previa de posible sobrecompra, el precio cayó un 13% hasta los 2,3 dólares, pero luego se recuperó a 2,60 dólares. Este movimiento se produce después de que el proyecto quemara más de 15,6 millones de tokens LIT, valorados en más de 42 millones de dólares, lo que podría haber generado un impulso alcista a corto plazo. Sin embargo, el análisis técnico en el gráfico diario muestra una divergencia bajista, donde el RSI hizo un máximo más bajo mientras el precio alcanzaba un máximo más alto, señalando una posible corrección. Los niveles de retroceso de Fibonacci sugieren que si LIT cae por debajo de 2,30 dólares, podría iniciarse un retroceso más profundo. En el gráfico de 4 horas, el precio ha formado un rango entre 2,31 y 2,68 dólares. Los operadores están a la espera de una ruptura: un cierre por encima de 2,70 dólares podría apuntar a objetivos de 3,06 y 3,21 dólares, mientras que una caída por debajo del soporte de 2,31 dólares haría más probable un retroceso por debajo de los 2 dólares. En resumen, la demanda se mantiene fuerte, pero los traders deben observar la formación del rango a corto plazo para determinar la próxima dirección del movimiento.

ambcryptoHace 2 hora(s)

¿Vale la pena la quema de LIT de 42 millones de dólares para impulsar el próximo gran rally de esta altcoin?

ambcryptoHace 2 hora(s)

Casi un centenar de jugadores se lanzan al sector de datos embodiment: 44.700 millones de financiación en un año, ¿quién puede ganar dinero realmente "vendiendo datos"?

**Resumen en español europeo:** Más de 90 empresas, incluidas 70 dedicadas a la recopilación, compiten en el emergente campo de los datos de inteligencia encarnada en China. En el último año, 15 proveedores de datos independientes recaudaron aproximadamente 4.470 millones de RMB. El artículo, basado en estadísticas de "Quantum Bit", describe diez aspectos clave del sector: 1. **Métodos de recopilación:** Se dividen en cuatro categorías: teleoperación de robots reales, recopilación sin robot (con captura de movimiento), simulación y destilación de vídeos de internet. La mayoría de las empresas (43%) utilizan múltiples métodos, siendo la teleoperación la ruta única más común (31%). 2. **Perfil de los actores:** Los proveedores de datos independientes son el grupo más numeroso (40%), seguidos por plataformas de datos estatales (26%) y fabricantes de robots (25%). Dos tercios de las empresas son "nativas" del sector. 3. **Capacidad y distribución:** La capacidad anual actual se estima en 1,6-1,8 millones de horas, con el objetivo de multiplicarla por 15-20 en 1-3 años. Las "fábricas de datos" están presentes en 20 provincias, concentrándose en el delta del Yangtsé. 4. **Financiación y etapa:** La financiación del último año para proveedores independientes (44.700 millones RMB) es modesta comparada con la inversión total en inteligencia encarnada. El sector está muy fragmentado, con una sola "unicornio" (Lightwheel AI) que acaparó el 70% de la inversión. 69 fondos han invertido, pero ninguno de forma significativa, mostrando cautela. 5. **Conclusión:** El mercado de datos encarnados es ya una industria independiente y generadora de empleo, pero se encuentra en una fase muy temprana. Aún no está claro si "vender datos" será un negocio rentable, y los próximos 1-2 años serán cruciales para validar el modelo.

marsbitHace 2 hora(s)

Casi un centenar de jugadores se lanzan al sector de datos embodiment: 44.700 millones de financiación en un año, ¿quién puede ganar dinero realmente "vendiendo datos"?

marsbitHace 2 hora(s)

Diálogo con el socio de Multicoin: El mercado cripto ya tocó fondo, en este ciclo son optimistas con tres criptomonedas

**Multicoin Capital: el mercado cripto ha tocado fondo, y tres criptomonedas destacan en este ciclo** Tushar Jain, socio gerente de Multicoin Capital, cree que el mercado de criptomonedas ha alcanzado un punto de inflexión. Señala que la caída ha tocado fondo, evidenciado por el hecho de que las malas noticias ya no provocan ventas masivas, mientras que la adopción de aplicaciones continúa creciendo. Jain destaca tres activos clave en su cartera y visión: 1. **Solana (SOL):** Sigue siendo un firme partidario de su arquitectura para mercados de capital en Internet. Cree que liderará el comercio al contado y la tokenización de valores, destacando su neutralidad creíble, crucial para la adopción institucional. 2. **Hyperliquid (HYPE):** Ve a esta plataforma como el líder emergente en derivados descentralizados, complementando el enfoque de Solana. Multicoin ha publicado un análisis proyectando un crecimiento significativo, basado en suposiciones conservadoras sobre el crecimiento del mercado de derivados y la cuota de Hyperliquid. 3. **Zcash (ZEC):** Considera que representa un retorno a los valores "cypherpunk" originales de la industria, ofreciendo privacidad y soberanía. A pesar de un reciente susto por un fallo en el código (ya solucionado) que provocó ventas de pánico, Jain ve una oportunidad, comparando su potencial con el Bitcoin temprano. Su valoración se basa en el potencial de escalar en el ranking de capitalización de mercado. **Enfoque de inversión:** Jain enfatiza una gestión activa, no un trading activo. Evita los indicadores técnicos y los intentos de "cronometrar" el mercado perfectamente. Su método de entrada utiliza un enfoque de "tercios" para promediar el costo y gestionar el riesgo. Vende solo si encuentra una mejor oportunidad, su tesis es refutada, o las valoraciones se vuelven extremadamente exhuberantes. Para Multicoin, Bitcoin actúa como su "efectivo" principal para la rotación de cartera. En resumen, Jain es optimista sobre el futuro del mercado, citando un sentimiento extremadamente pesimista que podría haber terminado, y aboga por una cartera concentrada en activos donde los inversores tienen una fuerte convicción y ventaja analítica o conductual.

marsbitHace 3 hora(s)

Diálogo con el socio de Multicoin: El mercado cripto ya tocó fondo, en este ciclo son optimistas con tres criptomonedas

marsbitHace 3 hora(s)

Bitcoin se acerca al fondo del ciclo a pesar de récord de salidas de ETF Spot de $8 mil millones – ¿Por qué?

En el momento de publicación, Bitcoin (BTC) cotiza a 64.099,20 dólares, mostrando una recuperación tras caer por debajo de los 60.000 dólares, aunque persisten preocupaciones. James Butterfill, de CoinShares, destaca tres factores de presión: las tensiones geopolíticas en Oriente Medio, la postura de la Fed (que mantiene los tipos en 3,50%-3,75% por preocupaciones inflacionarias) y las significativas salidas netas de los ETF Spot de Bitcoin, que alcanzaron unos 8.000 millones de dólares en ocho semanas. No obstante, Butterfill observa indicios preliminares de que Bitcoin podría estar acercándose a un mínimo cíclico. Las recientes entradas en los ETF durante las últimas tres sesiones sugieren que la presión vendedora institucional podría estar disminuyendo. Además, la venta de 3.588 BTC por parte de Strategy a principios de julio tuvo un impacto limitado, lo que respalda esta idea. Desde un punto de vista técnico, el mapa de calor de Glassnode identifica un importante nivel de resistencia en torno a los 77.000 dólares, mientras que la acumulación en el rango de 60.000-63.000 dólares está formando una nueva base de soporte. En resumen, aunque el mercado sigue bajo presión por los vientos en contra macroeconómicos y regulatorios, las señales de agotamiento de las ventas sugieren que el fondo del ciclo podría estar cerca.

ambcryptoHace 3 hora(s)

Bitcoin se acerca al fondo del ciclo a pesar de récord de salidas de ETF Spot de $8 mil millones – ¿Por qué?

ambcryptoHace 3 hora(s)

Pronóstico del precio de XRP: ¿Están los traders al margen rechazando perseguir rebotes superficiales?

Según Santiment, la actividad en XRP Ledger ha caído a niveles inusualmente bajos, con solo alrededor de 25,000 direcciones activas diarias a principios de julio de 2026, las segundas más bajas del año. El crecimiento de la red también se encuentra en su nivel más bajo desde noviembre de 2024. Los datos sugieren que los traders están al margen, esperando un movimiento significativo en lugar de perseguir rebotes leves del precio. El volumen spot y las tendencias de CVD (Cumulative Volume Delta) reflejan una presión de compra reducida desde marzo. Aunque los tokens están saliendo de los exchanges, los flujos no son tan fuertes como en 2025. Los fondos de financiación (funding rates) agregados a 30 días han sido negativos durante todo 2026, lo que, según el analista Darkfost, indica un consenso bajista que podría preceder a una reversión alcista a medio plazo, similar al patrón observado antes de un repunte del 126% en abril de 2025. Sin embargo, para que se materialice una rally, las tendencias del volumen spot deben cambiar significativamente.

ambcryptoHace 4 hora(s)

Pronóstico del precio de XRP: ¿Están los traders al margen rechazando perseguir rebotes superficiales?

ambcryptoHace 4 hora(s)

Trading

Spot

Acaba de pasar: la IA de China irrumpe en el top 2 mundial de programación, solo por detrás de Claude

Resumen

Qwen3.7-Max entra en el top 5 mundial

El único modelo que no es de Claude

Programación: es una bestia

El modelo "base" para la era de los Agent

Revelación de las tecnologías clave

La final de programación tiene un nuevo agente disruptor

Preguntas relacionadas

Lecturas Relacionadas

¿Vale la pena la quema de LIT de 42 millones de dólares para impulsar el próximo gran rally de esta altcoin?

Casi un centenar de jugadores se lanzan al sector de datos embodiment: 44.700 millones de financiación en un año, ¿quién puede ganar dinero realmente "vendiendo datos"?

Diálogo con el socio de Multicoin: El mercado cripto ya tocó fondo, en este ciclo son optimistas con tres criptomonedas

Bitcoin se acerca al fondo del ciclo a pesar de récord de salidas de ETF Spot de $8 mil millones – ¿Por qué?

Pronóstico del precio de XRP: ¿Están los traders al margen rechazando perseguir rebotes superficiales?

Trading

Categorías populares

Etiquetas Populares