Acaba de pasar: la IA de China irrumpe en el top 2 mundial de programación, solo por detrás de Claude

marsbitPublicado a 2026-05-27Actualizado a 2026-05-27

Resumen

Hoy, el modelo chino Qwen3.7-Max de Alibaba ha entrado en el top 4 global del ranking Code Arena con 1541 puntos, superando a modelos como GPT-5.5 y Gemini 3.5 Flash. Solo quedan por delante Claude Opus 4.7 y Opus 4.6, lo que convierte a Alibaba en el único representante chino y el segundo a nivel mundial en la competición de modelos de programación. Las pruebas prácticas confirman su rendimiento. En un desafío para crear un juego de carreras 3D en HTML a partir de un prompt, Qwen3.7-Max generó una versión jugable en la primera ronda, incluyendo detalles como una pantalla de inicio y efectos de sonido, donde otros modelos líderes necesitaron múltiples correcciones de errores. Su fortaleza clave reside en ser un "modelo base para Agent", diseñado para ejecutar tareas complejas de forma autónoma y prolongada. En una prueba interna, optimizó código de forma continua durante 35 horas, realizando 1158 llamadas a herramientas sin degradación del contexto. Este avance se atribuye a mejoras en su entrenamiento, como la "expansión de entorno" y la capacidad de "ejecución autónoma de larga duración". Con su combinación de alto rendimiento en benchmarks, resultados prácticos superiores y un coste reducido, Qwen3.7-Max se posiciona como un fuerte competidor en el campo de los modelos de programación, demostrando que la innovación en IA ya no es un monólogo de Silicon Valley.

¡Hoy mismo, se publicó la última lista de Code Arena!

Qwen3.7-Max, con 1541 puntos, irrumpió en el top 4 mundial, superando de un golpe a una serie de modelos punteros como GPT-5.5 y Gemini 3.5 Flash.

Por delante de él, solo quedan Claude Opus 4.7 y Opus 4.6.

En otras palabras, en la arena mundial de modelos de programación, Alibaba es el único fabricante chino que ha logrado colarse en esta mesa, ocupando el segundo puesto por detrás de Anthropic.

Qwen3.7-Max entra en el top 5 mundial

El único modelo que no es de Claude

En realidad, incluso antes de que Code Arena publicara la lista, Qwen3.7-Max ya se había hecho un nombre entre los desarrolladores internacionales.

Atomic Chat hizo una comparación a muerte, poniendo a Opus 4.7, GPT-5.5 y Qwen3.7-Max en el mismo escenario, con la tarea de programar una IA que se auto-entrene para jugar al Tetris.

El resultado: Qwen3.7-Max no solo superó tanto a Opus 4.7 como a GPT-5.5 con un coste de tokens de solo 1.32 dólares, sino que además mejoró el rendimiento en un 56%.

Otro desarrollador internacional optó por hacer que Qwen3.7-Max construyera un modelo 3D del universo, y el resultado fue simplemente impresionante.

En la tarea de generar un "modelo de pagoda en miniatura con estilo de píxeles 3D", la velocidad de salida y la calidad de Qwen3.7-Max también superaron ampliamente a la competencia.

El desarrollador Paul Couvert incluso elogió con entusiasmo que, al conectarlo con Hermes Agent y OpenCode, Qwen3.7-Max básicamente puede reemplazar a GPT-5.5 y Opus 4.7.

Programación: es una bestia

Pero por muy altas que sean las puntuaciones, no hay nada como probarlo en una situación real.

Preparamos un desafío de "juego de carreras" a prueba de balas para Qwen3.7-Max.

Introdujimos un prompt detallado, y en poco tiempo, Qwen3.7-Max generó directamente un archivo HTML jugable.

La primera versión tenía un pequeño bug: las teclas de giro A/D estaban invertidas.

Pero tras un segundo ajuste conversacional sencillo, el juego de carreras 3D completo y funcional se puso en marcha.

En el momento de abrirlo, la verdad, fue una sorpresa.

4 coches en la misma pista, 3 vueltas en un circuito circular, más de 100 monedas esparcidas por la pista, tocar un obstáculo ralentiza y hace perder el control.

El panel de resultados post-carrera no faltaba: clasificación, tiempo, número de monedas, vuelta rápida, todo estaba ahí.

Pero lo que realmente resultó sorprendente fueron dos detalles que solo logró Qwen3.7-Max.

Uno fue la pantalla de inicio. Tras probar los cuatro modelos en paralelo, solo él creó una pantalla de inicio propiamente dicha para el juego, entrando en la carrera solo al pulsar "Start". Los otros tres arrancaban directamente, sin siquiera una pantalla de título.

El otro fueron los efectos de sonido. Al final del Prompt se añadió un requisito: añadir el sonido del motor rugiendo y el efecto al recoger monedas. De los cuatro modelos, solo él cumplió con este extra, incluyendo el rugido del motor y el sonido de las monedas.

Veamos ahora el rendimiento de los otros participantes.

Los gráficos de Gemini 3.5 Flash eran notablemente más simples, carecían de esa sensación tridimensional inminente.

El diseño de la interfaz de usuario también era problemático: la información del salpicadero estaba dispersa en las cuatro esquinas de la pantalla, sin un foco visual claro.

En comparación, Qwen3.7-Max optó por agrupar los indicadores clave en el centro de la pantalla, un enfoque más acorde con el punto natural de atención del jugador.

El resultado de Claude Opus 4.6 fue, por decirlo suavemente, decepcionante.

No solo había muy pocas monedas en la pista, sino que los 3 coches de la IA se movían casi al unísono, sin aleatoriedad, como si estuvieran copiados y pegados.

Finalmente, GPT-5.5.

Podemos ver que, en efecto, la calidad visual es mucho mejor que la de los dos anteriores, y la jugabilidad también es más fluida.

Pero, por alguna razón, las monedas estaban hechas de "rosquillas" amarillas...

El diseño es lo de menos. Lo crucial es que Gemini, Claude y ChatGPT tuvieron que corregir varios bugs para que todas las funciones funcionaran correctamente.

Solo Qwen3.7-Max fue básicamente jugable en su primera generación.

Puntuación similar, resultados reales sólidos, precio de una fracción. Las conclusiones las sacarán los desarrolladores con sus decisiones.

El modelo "base" para la era de los Agent

La razón por la que Qwen3.7-Max puede alcanzar este nivel en la arena más competitiva de la programación está en su propio posicionamiento.

Hace unos días, cuando Alibaba presentó Qwen3.7-Max, le otorgó una etiqueta muy especial: Modelo base para Agent.

Nació como un modelo diseñado para ejecutar tareas de forma autónoma durante largos periodos.

Los datos de las pruebas internas muestran que, en una tarea de programación autónoma, Qwen3.7-Max funcionó de forma continua durante 35 horas, realizando 1158 llamadas a herramientas.

El código generado finalmente logró una aceleración media geométrica de 10 veces en comparación con la implementación de referencia de Triton.

Pero lo más impactante es su capacidad de "guerra de desgaste":

Tras más de 30 horas de proceso de búsqueda, el modelo seguía mostrando agudeza, descubriendo continuamente nuevos espacios de optimización.

¡Cero degradación del contexto, cero desviación de instrucciones, cero bucles infinitos durante todo el proceso!

No se puede negar que la dificultad no reside en realizar 1000 llamadas a herramientas en sí. Con la expansión del protocolo MCP, 1000 llamadas no son tan raras.

La dificultad está en los 35 horas de razonamiento coherente.

La mayoría de los modelos colapsan en tareas largas: o el contexto se va acumulando y desordenando, olvidando por completo los objetivos fijados al principio hacia el final; o entran en un bucle infinito, probando repetidamente la misma solución fallida.

Qwen3.7-Max ha logrado hacer realidad el "hacer lo correcto de forma continua".

Revelación de las tecnologías clave

Creemos que esta mejora en programación de Qwen3.7-Max está posiblemente relacionada con la mejora de dos métodos de entrenamiento.

La primera es la expansión del entorno.

Al entrenar en programación, cada tarea de Qwen3.7-Max se desglosa en tres dimensiones independientes: la tarea en sí, el marco de ejecución y el método de validación, que se combinan libremente.

El mismo problema se trabaja a veces en el marco de Claude Code, otras en OpenClaw, otras cambiando el método de validación.

El efecto es como si un becario rotara por todos los grupos de proyectos. Lo que se ve obligado a aprender son estrategias generales de resolución de problemas, no "cómo tomar atajos en un marco específico".

Esto explica un fenómeno contraintuitivo: Qwen3.7-Max se comporta de forma estable en marcos como Claude Code, OpenClaw y Qwen Code, sin mostrar ese "muy fuerte en su propio marco, pero flojo al cambiar" que sí presentan otros.

La segunda mejora es la ejecución autónoma de larga duración.

Durante el entrenamiento, el equipo introdujo un marco de "juego de supervivencia con acumulación dinámica".

Es decir, hacer que el modelo tome decisiones secuenciales de más de mil pasos en un entorno simulado en constante cambio, estableciendo sus propias hipótesis, ajustando la estrategia en función de la retroalimentación, y sin sufrir "corrupción del contexto" por funcionar demasiado tiempo.

Aquí hay un dato revelador: en YC-Bench, simulando la gestión de una startup durante un año completo, Qwen3.7-Max logró unos ingresos de 2,08 millones de dólares, el doble que la generación anterior (1,05 millones).

Lo más crucial es que mostró evolución estratégica: al encontrar una crisis a mitad de camino, fue capaz de ajustar la dirección de forma autónoma, identificar y bloquear clientes malintencionados, convergiendo finalmente en un ciclo de ejecución estable.

Este es el soporte subyacente del caso de optimización del kernel de 35 horas, y es la razón por la que, en Kernel Bench L3, Qwen3.7-Max logró un efecto de aceleración en el 96% de los escenarios.

Y la programación es solo el primer campo de batalla. Esta base de razonamiento de larga duración combinada con llamadas a herramientas apunta a una ambición aún mayor: una base genérica para Agent.

La final de programación tiene un nuevo agente disruptor

Desde su lanzamiento, Code Arena siempre ha evaluado habilidades prácticas: razonamiento de múltiples pasos, orquestación de herramientas, entrega de proyectos completos, todo a nivel de Agent, con desafíos reales.

Hoy, Qwen3.7-Max se ha colado en la cuarta posición con una puntuación de 1541, situándose entre Opus 4.6 Thinking y Opus 4.6.

En esta pista dominada por Claude durante más de medio año, ha dado su respuesta: los modelos chinos no son solo seguidores, también pueden ser definidores.

La competencia mundial en modelos de programación ya no es un monólogo de Silicon Valley.

Referencias:

https://arena.ai/leaderboard/code/webdev

Este artículo proviene del WeChat público "新智元" (Nueva Era de la Inteligencia), autor: Apocalipsis ASI

Preguntas relacionadas

Q¿Qué posición ocupa Qwen3.7-Max en el ranking de Code Arena según el artículo?

AOcupa la cuarta posición global (con una puntuación de 1541 puntos). En términos de la competencia global de modelos de programación, Alibaba (creador de Qwen) es el único fabricante chino en alcanzar ese nivel, posicionándose como segundo, solo por detrás de Anthropic (creador de Claude).

QSegún las pruebas prácticas del artículo, ¿qué ventajas clave demostró Qwen3.7-Max al generar un juego de carreras en comparación con otros modelos?

AEn la prueba del juego de carreras, Qwen3.7-Max demostró varias ventajas: 1) Fue el único que incluyó una pantalla de inicio (con un botón 'Start'). 2) Fue el único que añadió efectos de sonido (motor y recolección de monedas) según el requerimiento del 'prompt'. 3) Su primer intento de generación produjo un juego básicamente jugable, mientras que otros modelos necesitaron varias rondas para corregir errores. 4) Su interfaz de usuario era más pulida, con información clave centrada.

Q¿Cuál es la etiqueta o posición especial que se le dio a Qwen3.7-Max durante su lanzamiento, y qué implica?

ASe le dio la etiqueta de 'Modelo Base para Agentes' (Agent Base Model). Esto implica que está diseñado específicamente para ejecutar tareas de forma autónoma durante largos periodos de tiempo, realizando múltiples llamadas a herramientas y manteniendo un razonamiento coherente sin degradación del contexto, deriva de instrucciones o bucles infinitos.

Q¿Qué dos mejoras clave en los métodos de entrenamiento se mencionan como responsables del avance en programación de Qwen3.7-Max?

ASe mencionan dos mejoras principales: 1) Expansión del entorno (Environment Scaling): Entrenar combinando libremente tareas, marcos de ejecución y métodos de verificación para que el modelo aprenda estrategias generales, no trucos específicos de un framework. 2) Ejecución autónoma de largo recorrido (Long-horizon Autonomous Execution): Entrenar al modelo en un marco de 'juego de supervivencia acumulativo dinámico' para que tome más de mil decisiones secuenciales en entornos cambiantes, ajuste estrategias basándose en retroalimentación y evite la 'corrupción del contexto'.

Q¿Qué resultado impresionante logró Qwen3.7-Max en una tarea de optimización de 'kernel' de larga duración, según el artículo?

AEn una tarea de optimización autónoma de programación, Qwen3.7-Max funcionó de forma continua durante 35 horas, realizó 1158 llamadas a herramientas y el código generado logró una aceleración promedio geométrica 10 veces mayor en comparación con la implementación de referencia de Triton. Además, incluso después de 30 horas, el modelo mantuvo su agudeza, encontrando nuevas oportunidades de optimización sin sufrir degradación del contexto, deriva de instrucciones o caer en bucles infinitos.

Lecturas Relacionadas

Del sistema financiero paralelo al principal: llega la ventana histórica de la era de los valores en cadena

Del ecosistema paralelo a las finanzas principales: llega la ventana histórica para la era de los valores tokenizados. En la última década, la industria cripto ha funcionado como un experimento financiero paralelo, construyendo su propio ecosistema con monedas, mercados y narrativas. Sin embargo, una barrera lo separaba del sistema financiero tradicional. Ahora, esa barrera se está derribando. La primera fase, desde las ICO hasta DeFi y NFT, fue una evolución interna dentro de un ecosistema cerrado. Atrajo capital y usuarios, pero seguía siendo un circuito aparte. Incluso los ETF de Bitcoin, que abren una vía para que el capital tradicional compre activos cripto, no integran los activos del mundo real en la cadena. La verdadera transformación, más grande que los ETF, es la tokenización de valores del mundo real: acciones, bonos, fondos y otros activos financieros tradicionales representados en blockchain. Esto podría rediseñar la infraestructura financiera, fusionando funciones de custodia, liquidación y comercio en redes automatizadas, reduciendo tiempos y complejidad. El próximo gran cambio no será la guerra entre cadenas de bloques por velocidad, sino la competencia para construir el nuevo sistema financiero global. La clave ya no será el rendimiento técnico, sino la calidad de los activos y la liquidez. Si los principales activos globales, como acciones de empresas líderes, se tokenizan, la frontera entre las finanzas tradicionales y las cripto desaparecerá. El futuro no está en crear un mundo nuevo, sino en integrarse plenamente en el sistema financiero global existente. La fusión entre las finanzas tradicionales y el ecosistema cripto podría marcar el comienzo de la mayor historia de crecimiento de la industria.

marsbitHace 28 min(s)

Del sistema financiero paralelo al principal: llega la ventana histórica de la era de los valores en cadena

marsbitHace 28 min(s)

Wang Chuan: Cuando Wang de al lado ganó treinta veces invirtiendo en acciones de almacenamiento, ¿cómo puede aún no estar ansioso? (Seis) - La trampa de los productos homogéneos

El artículo analiza los riesgos de invertir en acciones de empresas de almacenamiento, un sector de productos altamente homogeneizados y cíclicos. Utiliza el ejemplo de Iomega, cuyo precio de las acciones subió 160 veces entre 1994 y 1996, para luego caer más del 97% tras la llegada de competidores como los CD-R. Explica que la dinámica del sector se basa en una demanda elástica frente a una oferta rígida, lo que provoca volatilidad extrema en los precios, como se ha visto históricamente con los chips DRAM. Actualmente (2026), los precios y márgenes de empresas como Sandisk y Micron se han disparado debido a la fuerte demanda de memoria para IA. Sin embargo, el autor advierte que estos altos márgenes atraerán nueva capacidad productiva, lo que eventualmente hará caer los precios y beneficios. Cuestiona la eficacia de los contratos a largo plazo para fijar precios, comparándolos con pactos frágiles, y señala la asimetría de riesgo: múltiples factores (recesión, recortes en IA, nueva capacidad china, innovaciones técnicas) podrían desequilibrar la oferta y la demanda. Concluye que un PER bajo en el pico del ciclo es una trampa mortal, ya que los beneficios pueden evaporarse rápidamente, advirtiendo contra la inversión simplista en este sector volátil.

marsbitHace 35 min(s)

Wang Chuan: Cuando Wang de al lado ganó treinta veces invirtiendo en acciones de almacenamiento, ¿cómo puede aún no estar ansioso? (Seis) - La trampa de los productos homogéneos

marsbitHace 35 min(s)

Wang Chuan: Cómo mantener la calma cuando el vecino Lao Wang multiplicó por treinta su inversión en acciones de almacenamiento (6) - La trampa de los productos homogéneos

**Resumen: Las trampas de los productos básicos en la industria del almacenamiento** Este artículo analiza los riesgos cíclicos y las características de los productos básicos en la industria del almacenamiento de datos, utilizando casos históricos y la situación actual para advertir sobre los peligros de invertir en acciones del sector. El autor comienza con el ejemplo de Iomega en los años 90. Su unidad Zip fue un éxito inicial, haciendo que su acción subiera más de 160 veces en año y medio, antes de colapsar un 97% tras la llegada de tecnologías competidoras más baratas (CD-R). Este patrón se repite en toda la industria: productos como la memoria DRAM son altamente homogéneos, sin valor de marca, lo que genera volatilidad extrema en los precios. Empresas como Micron han visto su acción estancada durante 25 años, y son comunes las quiebras (Mostek, Qimonda, etc.). La esencia del problema es la **demanda elástica frente a una oferta rígida, de capital intensivo y largo plazo de ampliación**. Cuando los precios suben (como desde 2025 debido a la demanda de memoria para IA), los fabricantes obtienen márgenes brutos enormes (ej: SanDisk pasó de 22.5% a 78.3%), principalmente por el aumento de precios, no de volumen. Sin embargo, estos altos márgenes destruyen la demanda marginal y atraen nueva capacidad. Para 2027, se espera que una nueva ola de capacidad entre en el mercado. El autor desmonta argumentos alcistas: los acuerdos de suministro a largo plazo (LTA) son frágiles y se pueden romper cuando cambian las condiciones del mercado. Además, la situación es asimétrica: basta un nuevo competidor (como empresas chinas), una recesión, una reducción en la inversión en IA o una innovación que reduzca la necesidad de memoria para desequilibrar el mercado. Una **trampa fatal** es que, en el pico del ciclo, las acciones de almacenamiento a menudo muestran bajos ratios P/E (relación precio-beneficio), atrayendo a inversores incautos que creen que es una "inversión en valor". En realidad, es el momento de mayor riesgo, ya que una caída en los precios de las materias primas puede hacer desaparecer esas ganancias rápidamente. En conclusión, la industria del almacenamiento está sujeta a ciclos brutales donde la alta rentabilidad contiene las semillas de su propia destrucción, lo que la convierte en una arena peligrosa para los inversores desprevenidos.

链捕手Hace 53 min(s)

Wang Chuan: Cómo mantener la calma cuando el vecino Lao Wang multiplicó por treinta su inversión en acciones de almacenamiento (6) - La trampa de los productos homogéneos

链捕手Hace 53 min(s)

Llega el AI PC: ¡Modelos masivos de 120B locales ahora son posibles! NVIDIA redefine la base de la "computadora personal con IA" con RTX Spark

En la conferencia GTC 2026, NVIDIA presentó el chip RTX Spark, redefiniendo el estándar de hardware para los "PCs personales de IA". Integrando una GPU Blackwell, una CPU Grace de 20 núcleos y una arquitectura de memoria unificada de hasta 128GB, el SoC ofrece un rendimiento de 1 petaflop (1000 TOPS) para IA. Esto permite ejecutar localmente modelos de lenguaje de hasta 120B parámetros con ventanas de contexto de hasta un millón de tokens, superando ampliamente las capacidades de los NPU actuales en PCs con IA. Principales fabricantes de equipos originales (OEM) como ASUS, Dell, HP, Lenovo, Microsoft Surface y MSI lanzarán portátiles delgados y equipos de sobremesa compactos con este chip en otoño. NVIDIA y Microsoft colaboran en seguridad, integrando el entorno de ejecución en sandbox OpenShell en Windows para aislar y gestionar de forma segura los agentes de IA locales. Adobe anunció una reestructuración desde el núcleo de Photoshop y Premiere para adaptarse a la arquitectura de memoria unificada, prometiendo mejoras de rendimiento. La llegada de RTX Spark marca un cambio en la industria del PC, donde la GPU se convierte en el componente central del sistema, desafiando el dominio tradicional de las CPU x86. Quedan por ver detalles clave como el precio final, la gestión térmica en portátiles y el rendimiento real en tareas no relacionadas con la IA.

marsbitHace 1 hora(s)

Llega el AI PC: ¡Modelos masivos de 120B locales ahora son posibles! NVIDIA redefine la base de la "computadora personal con IA" con RTX Spark

marsbitHace 1 hora(s)

Trading

Spot
Futuros
活动图片