Acaba de pasar: la IA de China irrumpe en el top 2 mundial de programación, solo por detrás de Claude

marsbitPublicado a 2026-05-27Actualizado a 2026-05-27

Resumen

Hoy, el modelo chino Qwen3.7-Max de Alibaba ha entrado en el top 4 global del ranking Code Arena con 1541 puntos, superando a modelos como GPT-5.5 y Gemini 3.5 Flash. Solo quedan por delante Claude Opus 4.7 y Opus 4.6, lo que convierte a Alibaba en el único representante chino y el segundo a nivel mundial en la competición de modelos de programación. Las pruebas prácticas confirman su rendimiento. En un desafío para crear un juego de carreras 3D en HTML a partir de un prompt, Qwen3.7-Max generó una versión jugable en la primera ronda, incluyendo detalles como una pantalla de inicio y efectos de sonido, donde otros modelos líderes necesitaron múltiples correcciones de errores. Su fortaleza clave reside en ser un "modelo base para Agent", diseñado para ejecutar tareas complejas de forma autónoma y prolongada. En una prueba interna, optimizó código de forma continua durante 35 horas, realizando 1158 llamadas a herramientas sin degradación del contexto. Este avance se atribuye a mejoras en su entrenamiento, como la "expansión de entorno" y la capacidad de "ejecución autónoma de larga duración". Con su combinación de alto rendimiento en benchmarks, resultados prácticos superiores y un coste reducido, Qwen3.7-Max se posiciona como un fuerte competidor en el campo de los modelos de programación, demostrando que la innovación en IA ya no es un monólogo de Silicon Valley.

¡Hoy mismo, se publicó la última lista de Code Arena!

Qwen3.7-Max, con 1541 puntos, irrumpió en el top 4 mundial, superando de un golpe a una serie de modelos punteros como GPT-5.5 y Gemini 3.5 Flash.

Por delante de él, solo quedan Claude Opus 4.7 y Opus 4.6.

En otras palabras, en la arena mundial de modelos de programación, Alibaba es el único fabricante chino que ha logrado colarse en esta mesa, ocupando el segundo puesto por detrás de Anthropic.

Qwen3.7-Max entra en el top 5 mundial

El único modelo que no es de Claude

En realidad, incluso antes de que Code Arena publicara la lista, Qwen3.7-Max ya se había hecho un nombre entre los desarrolladores internacionales.

Atomic Chat hizo una comparación a muerte, poniendo a Opus 4.7, GPT-5.5 y Qwen3.7-Max en el mismo escenario, con la tarea de programar una IA que se auto-entrene para jugar al Tetris.

El resultado: Qwen3.7-Max no solo superó tanto a Opus 4.7 como a GPT-5.5 con un coste de tokens de solo 1.32 dólares, sino que además mejoró el rendimiento en un 56%.

Otro desarrollador internacional optó por hacer que Qwen3.7-Max construyera un modelo 3D del universo, y el resultado fue simplemente impresionante.

En la tarea de generar un "modelo de pagoda en miniatura con estilo de píxeles 3D", la velocidad de salida y la calidad de Qwen3.7-Max también superaron ampliamente a la competencia.

El desarrollador Paul Couvert incluso elogió con entusiasmo que, al conectarlo con Hermes Agent y OpenCode, Qwen3.7-Max básicamente puede reemplazar a GPT-5.5 y Opus 4.7.

Programación: es una bestia

Pero por muy altas que sean las puntuaciones, no hay nada como probarlo en una situación real.

Preparamos un desafío de "juego de carreras" a prueba de balas para Qwen3.7-Max.

Introdujimos un prompt detallado, y en poco tiempo, Qwen3.7-Max generó directamente un archivo HTML jugable.

La primera versión tenía un pequeño bug: las teclas de giro A/D estaban invertidas.

Pero tras un segundo ajuste conversacional sencillo, el juego de carreras 3D completo y funcional se puso en marcha.

En el momento de abrirlo, la verdad, fue una sorpresa.

4 coches en la misma pista, 3 vueltas en un circuito circular, más de 100 monedas esparcidas por la pista, tocar un obstáculo ralentiza y hace perder el control.

El panel de resultados post-carrera no faltaba: clasificación, tiempo, número de monedas, vuelta rápida, todo estaba ahí.

Pero lo que realmente resultó sorprendente fueron dos detalles que solo logró Qwen3.7-Max.

Uno fue la pantalla de inicio. Tras probar los cuatro modelos en paralelo, solo él creó una pantalla de inicio propiamente dicha para el juego, entrando en la carrera solo al pulsar "Start". Los otros tres arrancaban directamente, sin siquiera una pantalla de título.

El otro fueron los efectos de sonido. Al final del Prompt se añadió un requisito: añadir el sonido del motor rugiendo y el efecto al recoger monedas. De los cuatro modelos, solo él cumplió con este extra, incluyendo el rugido del motor y el sonido de las monedas.

Veamos ahora el rendimiento de los otros participantes.

Los gráficos de Gemini 3.5 Flash eran notablemente más simples, carecían de esa sensación tridimensional inminente.

El diseño de la interfaz de usuario también era problemático: la información del salpicadero estaba dispersa en las cuatro esquinas de la pantalla, sin un foco visual claro.

En comparación, Qwen3.7-Max optó por agrupar los indicadores clave en el centro de la pantalla, un enfoque más acorde con el punto natural de atención del jugador.

El resultado de Claude Opus 4.6 fue, por decirlo suavemente, decepcionante.

No solo había muy pocas monedas en la pista, sino que los 3 coches de la IA se movían casi al unísono, sin aleatoriedad, como si estuvieran copiados y pegados.

Finalmente, GPT-5.5.

Podemos ver que, en efecto, la calidad visual es mucho mejor que la de los dos anteriores, y la jugabilidad también es más fluida.

Pero, por alguna razón, las monedas estaban hechas de "rosquillas" amarillas...

El diseño es lo de menos. Lo crucial es que Gemini, Claude y ChatGPT tuvieron que corregir varios bugs para que todas las funciones funcionaran correctamente.

Solo Qwen3.7-Max fue básicamente jugable en su primera generación.

Puntuación similar, resultados reales sólidos, precio de una fracción. Las conclusiones las sacarán los desarrolladores con sus decisiones.

El modelo "base" para la era de los Agent

La razón por la que Qwen3.7-Max puede alcanzar este nivel en la arena más competitiva de la programación está en su propio posicionamiento.

Hace unos días, cuando Alibaba presentó Qwen3.7-Max, le otorgó una etiqueta muy especial: Modelo base para Agent.

Nació como un modelo diseñado para ejecutar tareas de forma autónoma durante largos periodos.

Los datos de las pruebas internas muestran que, en una tarea de programación autónoma, Qwen3.7-Max funcionó de forma continua durante 35 horas, realizando 1158 llamadas a herramientas.

El código generado finalmente logró una aceleración media geométrica de 10 veces en comparación con la implementación de referencia de Triton.

Pero lo más impactante es su capacidad de "guerra de desgaste":

Tras más de 30 horas de proceso de búsqueda, el modelo seguía mostrando agudeza, descubriendo continuamente nuevos espacios de optimización.

¡Cero degradación del contexto, cero desviación de instrucciones, cero bucles infinitos durante todo el proceso!

No se puede negar que la dificultad no reside en realizar 1000 llamadas a herramientas en sí. Con la expansión del protocolo MCP, 1000 llamadas no son tan raras.

La dificultad está en los 35 horas de razonamiento coherente.

La mayoría de los modelos colapsan en tareas largas: o el contexto se va acumulando y desordenando, olvidando por completo los objetivos fijados al principio hacia el final; o entran en un bucle infinito, probando repetidamente la misma solución fallida.

Qwen3.7-Max ha logrado hacer realidad el "hacer lo correcto de forma continua".

Revelación de las tecnologías clave

Creemos que esta mejora en programación de Qwen3.7-Max está posiblemente relacionada con la mejora de dos métodos de entrenamiento.

La primera es la expansión del entorno.

Al entrenar en programación, cada tarea de Qwen3.7-Max se desglosa en tres dimensiones independientes: la tarea en sí, el marco de ejecución y el método de validación, que se combinan libremente.

El mismo problema se trabaja a veces en el marco de Claude Code, otras en OpenClaw, otras cambiando el método de validación.

El efecto es como si un becario rotara por todos los grupos de proyectos. Lo que se ve obligado a aprender son estrategias generales de resolución de problemas, no "cómo tomar atajos en un marco específico".

Esto explica un fenómeno contraintuitivo: Qwen3.7-Max se comporta de forma estable en marcos como Claude Code, OpenClaw y Qwen Code, sin mostrar ese "muy fuerte en su propio marco, pero flojo al cambiar" que sí presentan otros.

La segunda mejora es la ejecución autónoma de larga duración.

Durante el entrenamiento, el equipo introdujo un marco de "juego de supervivencia con acumulación dinámica".

Es decir, hacer que el modelo tome decisiones secuenciales de más de mil pasos en un entorno simulado en constante cambio, estableciendo sus propias hipótesis, ajustando la estrategia en función de la retroalimentación, y sin sufrir "corrupción del contexto" por funcionar demasiado tiempo.

Aquí hay un dato revelador: en YC-Bench, simulando la gestión de una startup durante un año completo, Qwen3.7-Max logró unos ingresos de 2,08 millones de dólares, el doble que la generación anterior (1,05 millones).

Lo más crucial es que mostró evolución estratégica: al encontrar una crisis a mitad de camino, fue capaz de ajustar la dirección de forma autónoma, identificar y bloquear clientes malintencionados, convergiendo finalmente en un ciclo de ejecución estable.

Este es el soporte subyacente del caso de optimización del kernel de 35 horas, y es la razón por la que, en Kernel Bench L3, Qwen3.7-Max logró un efecto de aceleración en el 96% de los escenarios.

Y la programación es solo el primer campo de batalla. Esta base de razonamiento de larga duración combinada con llamadas a herramientas apunta a una ambición aún mayor: una base genérica para Agent.

La final de programación tiene un nuevo agente disruptor

Desde su lanzamiento, Code Arena siempre ha evaluado habilidades prácticas: razonamiento de múltiples pasos, orquestación de herramientas, entrega de proyectos completos, todo a nivel de Agent, con desafíos reales.

Hoy, Qwen3.7-Max se ha colado en la cuarta posición con una puntuación de 1541, situándose entre Opus 4.6 Thinking y Opus 4.6.

En esta pista dominada por Claude durante más de medio año, ha dado su respuesta: los modelos chinos no son solo seguidores, también pueden ser definidores.

La competencia mundial en modelos de programación ya no es un monólogo de Silicon Valley.

Referencias:

https://arena.ai/leaderboard/code/webdev

Este artículo proviene del WeChat público "新智元" (Nueva Era de la Inteligencia), autor: Apocalipsis ASI

Preguntas relacionadas

Q¿Qué posición ocupa Qwen3.7-Max en el ranking de Code Arena según el artículo?

AOcupa la cuarta posición global (con una puntuación de 1541 puntos). En términos de la competencia global de modelos de programación, Alibaba (creador de Qwen) es el único fabricante chino en alcanzar ese nivel, posicionándose como segundo, solo por detrás de Anthropic (creador de Claude).

QSegún las pruebas prácticas del artículo, ¿qué ventajas clave demostró Qwen3.7-Max al generar un juego de carreras en comparación con otros modelos?

AEn la prueba del juego de carreras, Qwen3.7-Max demostró varias ventajas: 1) Fue el único que incluyó una pantalla de inicio (con un botón 'Start'). 2) Fue el único que añadió efectos de sonido (motor y recolección de monedas) según el requerimiento del 'prompt'. 3) Su primer intento de generación produjo un juego básicamente jugable, mientras que otros modelos necesitaron varias rondas para corregir errores. 4) Su interfaz de usuario era más pulida, con información clave centrada.

Q¿Cuál es la etiqueta o posición especial que se le dio a Qwen3.7-Max durante su lanzamiento, y qué implica?

ASe le dio la etiqueta de 'Modelo Base para Agentes' (Agent Base Model). Esto implica que está diseñado específicamente para ejecutar tareas de forma autónoma durante largos periodos de tiempo, realizando múltiples llamadas a herramientas y manteniendo un razonamiento coherente sin degradación del contexto, deriva de instrucciones o bucles infinitos.

Q¿Qué dos mejoras clave en los métodos de entrenamiento se mencionan como responsables del avance en programación de Qwen3.7-Max?

ASe mencionan dos mejoras principales: 1) Expansión del entorno (Environment Scaling): Entrenar combinando libremente tareas, marcos de ejecución y métodos de verificación para que el modelo aprenda estrategias generales, no trucos específicos de un framework. 2) Ejecución autónoma de largo recorrido (Long-horizon Autonomous Execution): Entrenar al modelo en un marco de 'juego de supervivencia acumulativo dinámico' para que tome más de mil decisiones secuenciales en entornos cambiantes, ajuste estrategias basándose en retroalimentación y evite la 'corrupción del contexto'.

Q¿Qué resultado impresionante logró Qwen3.7-Max en una tarea de optimización de 'kernel' de larga duración, según el artículo?

AEn una tarea de optimización autónoma de programación, Qwen3.7-Max funcionó de forma continua durante 35 horas, realizó 1158 llamadas a herramientas y el código generado logró una aceleración promedio geométrica 10 veces mayor en comparación con la implementación de referencia de Triton. Además, incluso después de 30 horas, el modelo mantuvo su agudeza, encontrando nuevas oportunidades de optimización sin sufrir degradación del contexto, deriva de instrucciones o caer en bucles infinitos.

Lecturas Relacionadas

¿Cuanto más sube el mercado estadounidense, más peligroso se vuelve? Goldman Sachs: Los mecanismos de protección a la baja están casi inoperantes

El mercado ha perdido casi por completo el miedo al riesgo a la baja, según un informe de Goldman Sachs. El sesgo de volatilidad (Skew) de las opciones del S&P 500 ha caído a su nivel más bajo en 18 meses, lo que indica que el mecanismo de protección frente a caídas está "fallando". Actualmente, el mercado otorga la misma probabilidad (~8%) a una caída del 10% que a una subida del 10%. Además, el Índice de Pánico de Goldman Sachs alcanzó un mínimo de dos años. Esta señal aparece mientras el mercado alcista de EE.UU. continúa, con el S&P 500 batiendo récords con frecuencia. Sin embargo, el estratega Brian Garrett señala tres preocupaciones: 1) La concentración extrema del mercado en las mayores empresas. 2) El excesivo enfoque en acciones relacionadas con la IA. 3) Similitudes con los patrones de precios de 1998-1999. Debido al bajo coste actual de la cobertura, Goldman Sachs recomienda estrategias como comprar opciones de put del S&P 500 para protección, o comprar opciones de call sobre el VIX. También sugiere operaciones de volatilidad en ETFs de Bitcoin. Los datos de flujos muestran que los fondos de cobertura están comprando a un ritmo rápido, con rotación hacia el sector financiero. Cabe destacar que el tamaño de los ETFs apalancados e inversos sobre acciones individuales se ha duplicado en dos meses, superando los 60.000 millones de dólares.

marsbitHace 25 min(s)

¿Cuanto más sube el mercado estadounidense, más peligroso se vuelve? Goldman Sachs: Los mecanismos de protección a la baja están casi inoperantes

marsbitHace 25 min(s)

¿Fracaso de DAT? Las empresas que apostaron por HYPE obtienen ganancias flotantes de 12.500 millones de dólares

Las empresas que apuestan por HYPE obtienen ganancias flotantes de 12.500 millones de dólares, a diferencia de MicroStrategy, que enfrenta dificultades. A continuación, se presentan tres empresas de tesorería de HYPE: 1. **Hyperliquid Strategies Inc. (PURR)**: Nacida de una fusión, ahora es una empresa de tesorería de HYPE pura. Tiene unas ganancias flotantes de 12.200 millones de dólares con 22,3 millones de HYPE. Su precio de acción ha subido notablemente. Está aumentando ingresos mediante staking y participando en la gobernanza de la red. 2. **Hyperion DeFi (HYPD)**: La primera empresa de tesorería de HYPE que cotiza en bolsa. Tiene ganancias flotantes de 49,4 millones de dólares con 2 millones de HYPE. También participa activamente en el ecosistema DeFi y tiene un validador entre los más grandes. 3. **Lion Group Holding (LGHL)**: Plataforma tradicional que se convirtió en tesorería de HYPE. Sus tenencias son más pequeñas (141,4 millones de dólares en valor), pero mantiene una estrategia de compra y retención a largo plazo. La clave del éxito de estas tesorerías de HYPE es su profunda participación en el ecosistema (staking, validación, DeFi), que genera ingresos recurrentes además de la revalorización del token. Mientras MicroStrategy depende principalmente del apalancamiento y el precio del BTC, las estrategias basadas en HYPE aprovechan su mecanismo de tokenómica y el crecimiento de Hyperliquid, la principal plataforma de derivados on-chain. Esto podría posicionarlas favorablemente si HYPE alcanza precios más altos, como predicen algunos analistas.

marsbitHace 45 min(s)

¿Fracaso de DAT? Las empresas que apostaron por HYPE obtienen ganancias flotantes de 12.500 millones de dólares

marsbitHace 45 min(s)

¿Fracaso de DAT? Empresas cotizadas que apuestan por HYPE obtienen ganancias flotantes de 12.500 millones de dólares

La estrategia de tesorería en cripto que imitaba a MicroStrategy (referida como "Strategy") enfrenta dificultades, con pérdidas netas de 125 mil millones de dólares en el Q1 de 2026 y una alta probabilidad de venta de BTC. En contraste, varias empresas públicas que apostaron por HYPE, el token de Hyperliquid, han obtenido ganancias significativas, con plusvalías no realizadas que superan los 12.5 mil millones de dólares. Se destacan tres empresas: 1. **Hyperliquid Strategies Inc. (PURR):** La más grande, con una tenencia de aproximadamente 22.3 millones de HYPE valorada en 16.36 mil millones y ganancias de 12.2 mil millones. Completamente transformada en una empresa de tesorería nativa en cripto. 2. **Hyperion DeFi (HYPD):** Mantiene unos 2 millones de HYPE y se centra en una participación profunda en el ecosistema, operando nodos validadores y construyendo productos DeFi. 3. **Lion Group Holding (LGHL):** La más pequeña, con una tenencia de aproximadamente 194,000 HYPE. A diferencia de la estrategia de MicroStrategy basada en apalancamiento, estos "tesoros de HYPE" obtienen rendimiento mediante la participación en la red (staking, nodos validadores) y el crecimiento del ecosistema Hyperliquid, combinado con la apreciación del precio del token. Con HYPE siendo un activo resistente, se considera que estas compañías, especialmente PURR, podrían beneficiarse aún más si el token alcanza precios más altos.

Odaily星球日报Hace 50 min(s)

¿Fracaso de DAT? Empresas cotizadas que apuestan por HYPE obtienen ganancias flotantes de 12.500 millones de dólares

Odaily星球日报Hace 50 min(s)

Nvidia desmonta un nuevo nicho de mercado con su bastidor: el valor de los MLCC se dispara un 182%

El suministro de infraestructuras para la IA se enfrenta a un nuevo cuello de botella: los condensadores cerámicos multicapa (MLCC, por sus siglas en inglés). Goldman Sachs y Morgan Stanley señalan que este componente, clave para estabilizar la corriente y filtrar el ruido en servidores de IA, está entrando en un ciclo de crecimiento sin precedentes impulsado por la demanda. El uso de MLCC se dispara con las nuevas arquitecturas de bastidores de Nvidia. Morgan Stanley desvela que el valor de los MLCC en el bastidor Vera Rubin (VR200) es de unos 4.320 dólares, un 182% más que en la generación anterior. Goldman Sachs prevé que el mercado de MLCC para servidores de IA se multiplique por más de cuatro entre 2025 y 2030, con una tasa de crecimiento anual compuesto del 34%. Este crecimiento choca con una oferta limitada. La capacidad de producción del sector solo crece algo más de un 10% anual, incapaz de asumir la demanda exponencial de servidores de IA y la ya sólida demanda de automoción eléctrica. Este desequilibrio ha activado el ciclo de precios: los líderes japoneses Murata y Taiyo Yuden ya han subido precios entre un 15% y un 35%. Los datos de exportación de Japón en abril confirman la tendencia, con un aumento del precio medio del 16% interanual. La elasticidad de los beneficios es significativa. Según Goldman Sachs, una subida de precios del 5% podría aumentar el beneficio operativo de Taiyo Yuden hasta un 37% en el año fiscal 2027. La firma mantiene su recomendación de "comprar" para Murata, Taiyo Yuden y TDK. En resumen, los MLCC, un componente antes discreto, se han convertido en un elemento crítico y escaso en la cadena de suministro de la IA. Con una demanda en fuerte crecimiento y una oferta rígida, todos los indicadores apuntan a que este superciclo impulsado por la inteligencia artificial acaba de comenzar.

marsbitHace 1 hora(s)

Nvidia desmonta un nuevo nicho de mercado con su bastidor: el valor de los MLCC se dispara un 182%

marsbitHace 1 hora(s)

Trading

Spot
Futuros
活动图片