¡Acaba de llegar Claude Sonnet 5!
Código Fennec, zorro del desierto (fennec), el zorro más pequeño del desierto del Sáhara.
Este es el modelo Sonnet con mayor capacidad de Agente hasta la fecha de Anthropic, y su rendimiento se acerca al buque insignia Opus 4.8.
A partir de hoy, Sonnet 5 se convierte en el modelo por defecto para todos los usuarios Free y Pro.


Puede planificar de forma autónoma y utilizar herramientas de navegador y terminal.
Hace solo unos meses, esto requería invocar modelos enormes y costosos. Ahora, Sonnet lo ha logrado fácilmente.
Comparado con la generación anterior Sonnet 4.6, Sonnet 5 muestra mejoras significativas en tareas de razonamiento, uso de herramientas, programación y trabajo de conocimiento.
Puntos clave:
Puntuación SWE-bench Pro del 63.2%, superando al GPT-5.5 (58.6%) y acercándose al Opus 4.8 (69.2%).
Puntuación del «Examen Final de la Humanidad» del 57.4%, solo 0.5 puntos porcentuales por debajo de Opus 4.8.
Precio estándar de $3 por millón de tokens de entrada / $15 de salida, solo el 60% del precio de Opus 4.8.
Defensa contra inyección en navegador del 0.93%, superando a Mythos 5 y Opus 4.8.

Curiosamente, Fable 5 también fue filtrado como próximo a regresar el mismo día. Pero el costo será una verificación de identidad obligatoria, y muy probablemente limitado a usuarios estadounidenses.
Mientras que Sonnet 5 se promociona sin reservas, los usuarios globales pueden empezar a usarlo hoy mismo.

Igualando en todos los frentes a Opus 4.8, la IA trabajadora más fuerte irrumpe
Esta vez, el lanzamiento sorpresa de Sonnet 5 también sirvió para llenar el vacío de no poder usar Fable 5.
Para muchos desarrolladores, el año cero de la era de los Agentes comenzó con Sonnet.
Claude Sonnet 3.5, 3.6, 3.7 fueron los primeros modelos en mostrar habilidades asombrosas para escribir código y usar herramientas.
En otras palabras, la idea de «dejar que la IA trabaje por sí misma» se hizo realidad por primera vez con la serie «mediana» Sonnet.
Pero durante este último año, los mayores saltos de capacidad se concentraron en la línea «grande» Opus. Sonnet se quedó directamente atrás del buque insignia.
¡Lo que Sonnet 5 pretende hacer es cerrar esa brecha!
Anthropic lo define en una frase: Claude Sonnet 5 es el Sonnet más capaz de «trabajar» de la historia.
Los resultados en benchmarks prácticos lo demuestran claramente.

En su campo tradicional fuerte, la programación, Sonnet 5 logra un 63.2% en SWE-bench Pro. Mientras que la generación anterior Sonnet 4.6 solo obtuvo un 58.1%, y Opus 4.8 lidera temporalmente con un 69.2%.
En comparación, el principal rival, el buque insignia de OpenAI, GPT-5.5, solo consiguió un 58.6% en la misma tabla, y el Gemini 3.5 Flash de Google un 55.1%.
Terminal-Bench 2.1 es aún más contundente, Sonnet 5 se dispara al 80.4%, dejando muy atrás al Sonnet 4.6 con solo un 67.0%, un aumento de 13 puntos porcentuales. A solo 2 puntos del 82.7% de Opus 4.8.
En el benchmark de razonamiento interdisciplinario apodado «El Último Examen de la Humanidad» (Humanity's Last Exam), Sonnet 5 con herramientas logra un 57.4%, Opus 4.8 un 57.9%, solo 0.5 puntos de diferencia. GPT-5.5 en la misma prueba solo obtuvo un 52.2%, Gemini 3.1 Pro un 51.4%.
En capacidad de control de computadoras, Sonnet 5 obtiene un 81.2% en OSWorld-Verified, superando también al 78.7% de GPT-5.5 y acercándose al 83.4% de Opus 4.8.
Lo más sorprendente es en trabajo de conocimiento, donde Sonnet 5 incluso obtiene 1618 puntos en GDPval-AA v2, superando directamente los 1615 de Opus 4.8.
En rendimiento de búsqueda y uso de herramientas de agentes inteligentes, Sonnet 5 ofrece capacidades a nivel de Opus 4.8 con el menor costo.


Podría decirse que en casi todos los benchmarks, Sonnet 5 se sitúa en el intervalo del 90% al 100% de Opus 4.8.
Es como pagar el precio de un Sonnet para obtener el 90% del cerebro de un Opus.
Promoción limitada de $2, pero con una gran trampa
El precio es la verdadera «jugada maestra» esta vez.
En cuanto a precios de API, Anthropic ofrece una gran promoción por tiempo limitado: entrada $2 por millón de tokens, salida $10 por millón de tokens.
Después del 31 de agosto, se restablecerá el precio original de $3 de entrada y $15 de salida.
En comparación, Opus 4.8 cuesta $5 y $25, y la versión estándar de GPT-5.5 cuesta $5 y $30.
Durante el período promocional, los precios de entrada y salida son solo el 40% de los de Opus 4.8. Incluso después de restaurar el precio estándar, son solo el 60%.

Sin embargo, aunque Anthropic parece muy sincero en la superficie, los detalles esconden pequeñas intenciones.
La razón es que Sonnet 5 utiliza un nuevo tokenizador, lo que podría hacer que la cantidad de tokens para la misma entrada se inflara entre 1.0 y 1.35 veces.
Una vez que pase el período promocional, el precio original de $3/$15 más el efecto de inflación del tokenizador significará que el gasto real será definitivamente más doloroso que usar Sonnet 4.6.
Pero aun así, comparado con Opus, sigue siendo una diferencia abrumadora.
Superando a todos los buques insignia de la familia
La System Card esconde el aspecto más subestimado de Sonnet 5.
Tasa de éxito de ataque por inyección de prompt del 0.19%, igual que Opus 4.8. GPT-5.5 es 3.08%, Gemini 3.5 Flash es 6.66%.

En defensa contra inyección en navegador, la tasa de éxito de ataque es solo del 0.93%, mientras que Mythos 5 es 29.7% y Opus 4.8 es 31.5%.
Un modelo de gama media de $2 supera a todos los buques insignia de la familia, bajando directamente al 0% con medidas de protección activadas.
En inyección de código malicioso, la tasa de éxito de ataque de Sonnet 4.6 era del 45.26%, Sonnet 5 la redujo al 0.29%, una mejora de 150 veces.
En pruebas de explotación de vulnerabilidades de Firefox 147, Mythos 5 puede escribir exploits utilizables en un 88.4%, Opus 4.8 en un 8.8%, Sonnet 5 en un 0.0%. Puede escribir código de negocio de primera clase, pero no puede escribir un solo programa de explotación de vulnerabilidades utilizable.

Un efecto secundario es una puntuación de comportamiento desalineado de 2.53 (sobre 10), mejor que el 2.89 de Sonnet 4.6, pero mayor que el 2.10 de Opus 4.8 y el 1.95 de Mythos Preview.
Se ha vuelto más fuerte, pero también más obstinado.

No busca la corona, se enfoca en el segmento medio
Sonnet 5 se posiciona en un lugar extremadamente preciso: su capacidad hacia arriba se acerca a Opus 4.8 y GPT-5.5, y su precio hacia abajo se acerca al nivel de Gemini 3.5 Flash.
OpenAI acaba de duplicar el precio respecto a la generación anterior, y Anthropic responde bajando el precio de entrada de Sonnet 5 a $3.
Aquellos desarrolladores que antes dudaban si pagar por un modelo insignia ahora tienen una alternativa letal.
Mientras todos apuntan a la cima, Anthropic dispara en el segmento medio.
La cartera de los desarrolladores ya ha votado esta noche
Hoy, el rendimiento de Sonnet 5 ya ha entrado en el territorio de los buques insignia. Puede manejar de una vez tareas como corregir bugs, completar pruebas y hacer refactorizaciones.
La incomodidad de antes, de pensar que Opus era demasiado caro y Sonnet no lo suficientemente bueno, hoy ha desaparecido.
Es más económico. Con el mismo presupuesto, antes solo se podía ejecutar un Agente de nivel Opus, ahora se pueden ejecutar de dos a tres Sonnet en paralelo.
El umbral de costo para arquitecturas multi-agente ha sido reducido drásticamente por Sonnet 5.
Cuándo regresará Fable 5 como rey sigue siendo una incógnita.
Pero Sonnet 5 ya está aquí, firme, con un rendimiento que toca directamente el umbral de Opus.
Para la gran mayoría de los desarrolladores, será el Claude más capaz y fácil de usar que tendrán a su lado durante mucho tiempo.
Referencias:
https://x.com/claudeai/status/2072017450611142835
https://www.anthropic.com/news/claude-sonnet-5
Este artículo proviene del WeChat Official Account «新智元» (Nueva Era de la Inteligencia), autor: ASI Apocalipsis





