Breaking: Claude 5 versión trabajadora ha llegado, todos pueden usarlo

marsbitPublicado a 2026-07-01Actualizado a 2026-07-01

Resumen

Acaba de lanzarse Claude Sonnet 5, denominado en código "Fennec". Este nuevo modelo de Anthropic presenta la capacidad de agente más fuerte hasta la fecha dentro de la línea Sonnet, con un rendimiento que rivaliza con el modelo insignia Opus 4.8. Se convierte en el modelo predeterminado para todos los usuarios Free y Pro. Sus capacidades incluyen planificación autónoma y uso de herramientas como navegador y terminal, funciones antes reservadas a modelos más costosos. El rendimiento muestra mejoras significativas respecto a su predecesor, Sonnet 4.6. En pruebas de referencia, Sonnet 5 logra un 63.2% en SWE-bench Pro (superando a GPT-5.5), un 57.4% en "Humanity's Last Exam" (muy cerca de Opus 4.8) y un 80.4% en Terminal-Bench 2.1. Su rendimiento general se sitúa entre el 90% y el 100% del de Opus 4.8 en la mayoría de las métricas. El precio de la API tiene una promoción limitada hasta el 31 de agosto: 2 USD por millón de tokens de entrada y 10 USD por millón de salida. Después, el precio estándar será de 3 USD y 15 USD, respectivamente, aproximadamente un 60% del coste de Opus 4.8. En seguridad, destaca su baja tasa de éxito ante ataques de inyección de prompt (0.19%) y su excelente defensa contra inyección en navegador (0.93%), superando incluso a otros modelos insignia de la competencia. Anthropic posiciona a Sonnet 5 como una opción potente y más accesible, ofreciendo capacidades cercanas a los modelos tope de gama a un precio significativamente menor, dirigido especial...

¡Acaba de llegar Claude Sonnet 5!

Código Fennec, zorro del desierto (fennec), el zorro más pequeño del desierto del Sáhara.

Este es el modelo Sonnet con mayor capacidad de Agente hasta la fecha de Anthropic, y su rendimiento se acerca al buque insignia Opus 4.8.

A partir de hoy, Sonnet 5 se convierte en el modelo por defecto para todos los usuarios Free y Pro.

Puede planificar de forma autónoma y utilizar herramientas de navegador y terminal.

Hace solo unos meses, esto requería invocar modelos enormes y costosos. Ahora, Sonnet lo ha logrado fácilmente.

Comparado con la generación anterior Sonnet 4.6, Sonnet 5 muestra mejoras significativas en tareas de razonamiento, uso de herramientas, programación y trabajo de conocimiento.

Puntos clave:

Puntuación SWE-bench Pro del 63.2%, superando al GPT-5.5 (58.6%) y acercándose al Opus 4.8 (69.2%).

Puntuación del «Examen Final de la Humanidad» del 57.4%, solo 0.5 puntos porcentuales por debajo de Opus 4.8.

Precio estándar de $3 por millón de tokens de entrada / $15 de salida, solo el 60% del precio de Opus 4.8.

Defensa contra inyección en navegador del 0.93%, superando a Mythos 5 y Opus 4.8.

Curiosamente, Fable 5 también fue filtrado como próximo a regresar el mismo día. Pero el costo será una verificación de identidad obligatoria, y muy probablemente limitado a usuarios estadounidenses.

Mientras que Sonnet 5 se promociona sin reservas, los usuarios globales pueden empezar a usarlo hoy mismo.

Igualando en todos los frentes a Opus 4.8, la IA trabajadora más fuerte irrumpe

Esta vez, el lanzamiento sorpresa de Sonnet 5 también sirvió para llenar el vacío de no poder usar Fable 5.

Para muchos desarrolladores, el año cero de la era de los Agentes comenzó con Sonnet.

Claude Sonnet 3.5, 3.6, 3.7 fueron los primeros modelos en mostrar habilidades asombrosas para escribir código y usar herramientas.

En otras palabras, la idea de «dejar que la IA trabaje por sí misma» se hizo realidad por primera vez con la serie «mediana» Sonnet.

Pero durante este último año, los mayores saltos de capacidad se concentraron en la línea «grande» Opus. Sonnet se quedó directamente atrás del buque insignia.

¡Lo que Sonnet 5 pretende hacer es cerrar esa brecha!

Anthropic lo define en una frase: Claude Sonnet 5 es el Sonnet más capaz de «trabajar» de la historia.

Los resultados en benchmarks prácticos lo demuestran claramente.

En su campo tradicional fuerte, la programación, Sonnet 5 logra un 63.2% en SWE-bench Pro. Mientras que la generación anterior Sonnet 4.6 solo obtuvo un 58.1%, y Opus 4.8 lidera temporalmente con un 69.2%.

En comparación, el principal rival, el buque insignia de OpenAI, GPT-5.5, solo consiguió un 58.6% en la misma tabla, y el Gemini 3.5 Flash de Google un 55.1%.

Terminal-Bench 2.1 es aún más contundente, Sonnet 5 se dispara al 80.4%, dejando muy atrás al Sonnet 4.6 con solo un 67.0%, un aumento de 13 puntos porcentuales. A solo 2 puntos del 82.7% de Opus 4.8.

En el benchmark de razonamiento interdisciplinario apodado «El Último Examen de la Humanidad» (Humanity's Last Exam), Sonnet 5 con herramientas logra un 57.4%, Opus 4.8 un 57.9%, solo 0.5 puntos de diferencia. GPT-5.5 en la misma prueba solo obtuvo un 52.2%, Gemini 3.1 Pro un 51.4%.

En capacidad de control de computadoras, Sonnet 5 obtiene un 81.2% en OSWorld-Verified, superando también al 78.7% de GPT-5.5 y acercándose al 83.4% de Opus 4.8.

Lo más sorprendente es en trabajo de conocimiento, donde Sonnet 5 incluso obtiene 1618 puntos en GDPval-AA v2, superando directamente los 1615 de Opus 4.8.

En rendimiento de búsqueda y uso de herramientas de agentes inteligentes, Sonnet 5 ofrece capacidades a nivel de Opus 4.8 con el menor costo.

Podría decirse que en casi todos los benchmarks, Sonnet 5 se sitúa en el intervalo del 90% al 100% de Opus 4.8.

Es como pagar el precio de un Sonnet para obtener el 90% del cerebro de un Opus.

Promoción limitada de $2, pero con una gran trampa

El precio es la verdadera «jugada maestra» esta vez.

En cuanto a precios de API, Anthropic ofrece una gran promoción por tiempo limitado: entrada $2 por millón de tokens, salida $10 por millón de tokens.

Después del 31 de agosto, se restablecerá el precio original de $3 de entrada y $15 de salida.

En comparación, Opus 4.8 cuesta $5 y $25, y la versión estándar de GPT-5.5 cuesta $5 y $30.

Durante el período promocional, los precios de entrada y salida son solo el 40% de los de Opus 4.8. Incluso después de restaurar el precio estándar, son solo el 60%.

Sin embargo, aunque Anthropic parece muy sincero en la superficie, los detalles esconden pequeñas intenciones.

La razón es que Sonnet 5 utiliza un nuevo tokenizador, lo que podría hacer que la cantidad de tokens para la misma entrada se inflara entre 1.0 y 1.35 veces.

Una vez que pase el período promocional, el precio original de $3/$15 más el efecto de inflación del tokenizador significará que el gasto real será definitivamente más doloroso que usar Sonnet 4.6.

Pero aun así, comparado con Opus, sigue siendo una diferencia abrumadora.

Superando a todos los buques insignia de la familia

La System Card esconde el aspecto más subestimado de Sonnet 5.

Tasa de éxito de ataque por inyección de prompt del 0.19%, igual que Opus 4.8. GPT-5.5 es 3.08%, Gemini 3.5 Flash es 6.66%.

En defensa contra inyección en navegador, la tasa de éxito de ataque es solo del 0.93%, mientras que Mythos 5 es 29.7% y Opus 4.8 es 31.5%.

Un modelo de gama media de $2 supera a todos los buques insignia de la familia, bajando directamente al 0% con medidas de protección activadas.

En inyección de código malicioso, la tasa de éxito de ataque de Sonnet 4.6 era del 45.26%, Sonnet 5 la redujo al 0.29%, una mejora de 150 veces.

En pruebas de explotación de vulnerabilidades de Firefox 147, Mythos 5 puede escribir exploits utilizables en un 88.4%, Opus 4.8 en un 8.8%, Sonnet 5 en un 0.0%. Puede escribir código de negocio de primera clase, pero no puede escribir un solo programa de explotación de vulnerabilidades utilizable.

Un efecto secundario es una puntuación de comportamiento desalineado de 2.53 (sobre 10), mejor que el 2.89 de Sonnet 4.6, pero mayor que el 2.10 de Opus 4.8 y el 1.95 de Mythos Preview.

Se ha vuelto más fuerte, pero también más obstinado.

No busca la corona, se enfoca en el segmento medio

Sonnet 5 se posiciona en un lugar extremadamente preciso: su capacidad hacia arriba se acerca a Opus 4.8 y GPT-5.5, y su precio hacia abajo se acerca al nivel de Gemini 3.5 Flash.

OpenAI acaba de duplicar el precio respecto a la generación anterior, y Anthropic responde bajando el precio de entrada de Sonnet 5 a $3.

Aquellos desarrolladores que antes dudaban si pagar por un modelo insignia ahora tienen una alternativa letal.

Mientras todos apuntan a la cima, Anthropic dispara en el segmento medio.

La cartera de los desarrolladores ya ha votado esta noche

Hoy, el rendimiento de Sonnet 5 ya ha entrado en el territorio de los buques insignia. Puede manejar de una vez tareas como corregir bugs, completar pruebas y hacer refactorizaciones.

La incomodidad de antes, de pensar que Opus era demasiado caro y Sonnet no lo suficientemente bueno, hoy ha desaparecido.

Es más económico. Con el mismo presupuesto, antes solo se podía ejecutar un Agente de nivel Opus, ahora se pueden ejecutar de dos a tres Sonnet en paralelo.

El umbral de costo para arquitecturas multi-agente ha sido reducido drásticamente por Sonnet 5.

Cuándo regresará Fable 5 como rey sigue siendo una incógnita.

Pero Sonnet 5 ya está aquí, firme, con un rendimiento que toca directamente el umbral de Opus.

Para la gran mayoría de los desarrolladores, será el Claude más capaz y fácil de usar que tendrán a su lado durante mucho tiempo.

Referencias:

https://x.com/claudeai/status/2072017450611142835

https://www.anthropic.com/news/claude-sonnet-5

Este artículo proviene del WeChat Official Account «新智元» (Nueva Era de la Inteligencia), autor: ASI Apocalipsis

Preguntas relacionadas

Q¿Qué es Claude Sonnet 5 y qué lo hace significativo en comparación con sus predecesores?

AClaude Sonnet 5 es el último modelo de la serie Sonnet de Anthropic, con el nombre en clave 'Fennec'. Es significativo porque es el modelo Sonnet con mayor capacidad de agente hasta la fecha, acercándose mucho al rendimiento del modelo insignia Opus 4.8 en muchas tareas. Se convierte en el modelo predeterminado para usuarios Free y Pro, ofreciendo capacidades avanzadas de planificación autónoma y uso de herramientas (navegador, terminal) a un costo mucho menor que Opus.

Q¿Cuáles son las principales mejoras de rendimiento de Claude Sonnet 5 según los benchmarks mencionados en el artículo?

ASegún los benchmarks del artículo, Claude Sonnet 5 muestra mejoras significativas en varias áreas: SWE-bench Pro (63.2%), superando a GPT-5.5; Terminal-Bench 2.1 (80.4%); 'Humanity's Last Exam' (57.4%); OSWorld-Verified (81.2%); y GDPval-AA v2 (1618 puntos, superando incluso a Opus 4.8). Su rendimiento general se sitúa entre el 90% y el 100% del de Opus 4.8 en la mayoría de las pruebas.

Q¿Cuál es la estrategia de precios promocional y estándar para la API de Claude Sonnet 5, y qué advertencia se menciona respecto al costo?

ALa API de Claude Sonnet 5 tiene un precio promocional limitado hasta el 31 de agosto: 2 dólares por millón de tokens de entrada y 10 dólares por millón de salida. Después, el precio estándar será de 3 dólares (entrada) y 15 dólares (salida). Sin embargo, se advierte que Sonnet 5 utiliza un nuevo tokenizador que puede aumentar la cantidad de tokens para la misma entrada entre 1.0 y 1.35 veces, lo que podría incrementar el costo real después de la promoción en comparación con el uso de Sonnet 4.6.

Q¿Cómo se desempeña Claude Sonnet 5 en términos de seguridad y prevención de inyecciones en comparación con otros modelos?

AClaude Sonnet 5 presenta un desempeño excepcional en seguridad. Su tasa de éxito de ataque por inyección de prompts es del 0.19%, igual a Opus 4.8. En defensa contra inyección en navegador, la tasa de éxito de ataque es solo del 0.93%, superando significativamente a Mythos 5 (29.7%) y Opus 4.8 (31.5%). En inyección de código malicioso, la tasa baja del 45.26% de Sonnet 4.6 al 0.29% en Sonnet 5, una mejora de 150 veces. Además, en la prueba de explotación de vulnerabilidades Firefox 147, Sonnet 5 tiene una tasa del 0.0%.

Q¿Qué posición estratégica ocupa Claude Sonnet 5 en el mercado actual de modelos de lenguaje según el análisis del artículo?

AEl artículo posiciona a Claude Sonnet 5 en un lugar estratégico muy preciso. Por un lado, su rendimiento se acerca al de los modelos insignia como Opus 4.8 y GPT-5.5. Por otro lado, su precio (especialmente durante la promoción) se acerca al nivel de modelos más económicos como Gemini 3.5 Flash. Esta combinación lo convierte en una alternativa poderosa y rentable para desarrolladores que consideraban los modelos insignia demasiado caros, atacando efectivamente el segmento de mercado 'medio' o 'de gama media-alta'.

Lecturas Relacionadas

¿La "actualización más grande desde The Merge"? ¿Cómo afecta Glamsterdam a Ethereum y a los usuarios comunes?

**La actualización de Ethereum Glamsterdam, programada para la segunda mitad de 2026, es considerada la mayor desde "The Merge". Su objetivo no es simplemente reducir costes, sino remodelar la base de la red para permitir una futura expansión significativa, manteniendo la descentralización.** **Los cambios clave incluyen:** 1. **ePBS (PBS incorporado):** Integra la separación entre creadores y proponentes de bloques en el protocolo, eliminando intermediarios externos. Esto otorga más tiempo a los nodos (de ~2 a ~9 segundos) para procesar datos, allanando el camino para aumentar el límite de Gas y la capacidad de la red principal. 2. **Listas de acceso a nivel de bloque (BALs):** Proporcionan un "mapa" previo de qué datos de estado leerá y modificará cada bloque. Esto permite un procesamiento más eficiente, allanando el camino para una posible ejecución en paralelo y una sincronización más rápida de nodos. 3. **Repreciación del Gas:** Separa el costo del cálculo del costo del almacenamiento de estado permanente. Las operaciones que crean muchos datos nuevos (cuentas, contratos) pueden volverse más caras, mientras que el simple cálculo o las transferencias podrían abaratarse. Esto controla la inflación del estado y hace que los precios reflejen mejor el coste real para la red. **Impacto para los usuarios:** * Las **tarifas de transacción** podrían volverse **más estables y generalmente más bajas** para operaciones simples, debido al mayor espacio en los bloques. Sin embargo, las operaciones que crean mucho estado podrían aumentar de precio. * Las **billeteras** podrán **estimar el Gas con mayor precisión**, reduciendo las transacciones fallidas. * Los **usuarios de L2** podrían beneficiarse a largo plazo de un coste de datos (blobs) más estable. * Se mejorará el **rastreo de transacciones de ETH** (EIP-7708), mostrando movimientos internos en billeteras y exploradores. * Los operadores de nodos deberán actualizar su software. En resumen, Glamsterdam no es una simple subida del límite de Gas. Es una reingeniería fundamental para que Ethereum pueda escalar de forma sostenible sin comprometer su descentralización, preparando el terreno para una mayor capacidad y una mejor experiencia de usuario en los próximos años.

marsbitHace 3 hora(s)

¿La "actualización más grande desde The Merge"? ¿Cómo afecta Glamsterdam a Ethereum y a los usuarios comunes?

marsbitHace 3 hora(s)

Trading

Spot
活动图片