Acaba de llegar: Anthropic lanza Sonnet 5, con un rendimiento cercano a Opus 4.8, pero no necesariamente más barato

marsbitPublicado a 2026-07-01Actualizado a 2026-07-01

Resumen

Anthropic ha lanzado Claude Sonnet 5, un modelo que describe como "el Sonnet más 'agente' hasta la fecha", capaz de planificar y usar herramientas como navegador y terminal con un nivel de autonomía anteriormente reservado a modelos más grandes y costosos. Sonnet 5 muestra mejoras significativas en razonamiento, uso de herramientas, programación y trabajo con conocimiento respecto a Sonnet 4.6, acercándose al rendimiento de Opus 4.8, pero con un costo potencialmente menor. Las curvas costo-rendimiento indican que, en niveles de esfuerzo medios, mejora la eficiencia, y en tareas específicas puede igualar a Opus 4.8 con un coste reducido. Los partners que lo probaron destacan su mayor autonomía para tareas complejas. En seguridad, mejora a Sonnet 4.6 en rechazo de peticiones maliciosas y ataques, aunque tiene una tasa de comportamiento inapropiado ligeramente superior a Opus 4.8 y Mythos Preview. Sus capacidades en ciberseguridad son limitadas. Su lanzamiento incluye un precio promocional hasta el 31 de agosto de 2026: entrada a $2 / millón de tokens, salida a $10 / millón. Después, el precio estándar será de $3 y $15 respectivamente. Un análisis de Artificial Analysis señala que, debido al mayor uso de tokens, el coste por tarea es mayor que el de Sonnet 4.6 e incluso Opus 4.8, situándolo entre los modelos más costosos.

Acaba de llegar: Anthropic ha lanzado oficialmente su nuevo modelo Claude Sonnet 5, al que describe como «el modelo Sonnet más orientado a Agentes hasta la fecha», capaz de formular planes, utilizar herramientas como navegadores, terminales, y operar de forma autónoma a un nivel que hace unos meses requería modelos más grandes y costosos.

Sonnet 5 muestra una mejora significativa en razonamiento, uso de herramientas, programación y trabajo con conocimiento en comparación con Sonnet 4.6, acercándose más al rendimiento de Opus 4.8, pero a un precio inferior.

La empresa afirma que, para los desarrolladores, la era de los Agentes de IA realmente comenzó con los modelos de la clase Sonnet: Claude Sonnet 3.5, 3.6 y 3.7 fueron los primeros en mostrar capacidades destacadas en programación y uso de herramientas. Sin embargo, últimamente, las mejoras más notables en capacidades de agente se han visto principalmente en los modelos de la clase Opus.

Claude Sonnet 5 cierra notablemente esta brecha: su rendimiento ya se acerca al de Opus 4.8, pero a un precio más bajo. En comparación con su predecesor Sonnet 4.6, muestra mejoras significativas en dimensiones clave para el rendimiento de agentes como el razonamiento, el uso de herramientas, la programación y el trabajo con conocimiento. La comparación específica se muestra en la siguiente imagen:

La siguiente imagen compara el rendimiento de Sonnet 5 frente a Sonnet 4.6 y Opus 4.8 en la evaluación de búsqueda para agentes BrowseComp y la evaluación de uso de computadora OSWorld‐Verified, bajo diferentes niveles de «esfuerzo»:

  • Sonnet 5 (línea naranja) muestra una clara mejora de rendimiento respecto a Sonnet 4.6 (línea gris), y abarca un rango más amplio de opciones costo-rendimiento que Opus 4.8 (línea amarilla).
  • Con un nivel de esfuerzo medio, Sonnet 5 mejora significativamente la eficiencia en costos; con niveles de esfuerzo más altos, su rendimiento en ciertas tareas puede equipararse al de Opus 4.8.
  • Entre Sonnet 5 y Opus 4.8, los usuarios pueden ajustar flexiblemente el nivel de esfuerzo según la tarea concreta para encontrar el mejor equilibrio entre costo y rendimiento para sus necesidades.

La curva costo-rendimiento bajo diferentes niveles de esfuerzo se muestra en la gráfica anterior. El mejor modelo Sonnet anterior (Sonnet 4.6) estaba muy por debajo de Opus 4.8. Sonnet 5 ofrece un abanico más amplio de opciones costo-rendimiento que Sonnet 4.6, pudiendo alcanzar en algunos casos el nivel de capacidad de Opus 4.8. El precio de Sonnet 5 mostrado en el gráfico es de $3 / millón de tokens para entrada y $15 / millón de tokens para salida. Con el precio promocional hasta el 31 de agosto (entrada $2 / millón de tokens, salida $10 / millón de tokens), el costo real de Sonnet 5 es incluso menor que el mostrado en la gráfica. El precio de Opus 4.8 es de $5 / millón de tokens para entrada y $25 / millón de tokens para salida.

Los comentarios de los socios de acceso temprano de Anthropic han sido consistentes: Sonnet 5 es más capaz como agente autónomo (agentic) que sus modelos predecesores. Los evaluadores describen que puede completar tareas complejas —en las que los modelos Sonnet anteriores se detenían a medio camino—; verifica activamente sus propias salidas sin necesidad de instrucciones explícitas; y realiza todo este trabajo de agente a un precio muy atractivo:

Evaluación de seguridad

La evaluación de seguridad previa al despliegue de Anthropic encontró que Sonnet 5 muestra mejoras generales en comparación con Sonnet 4.6. En cuanto a la seguridad del agente autónomo, el modelo se desempeña mejor rechazando solicitudes maliciosas y resistiendo intentos de secuestro en ataques de inyección de prompts (prompt injection). Las tasas de alucinación y de comportamiento adulador del modelo son inferiores a las de Sonnet 4.6. En la auditoría automatizada de comportamiento (que prueba una amplia gama de comportamientos inadecuados, como facilitar abusos o engaños), Sonnet 5 obtuvo una puntuación más baja (es decir, es más seguro).

Sin embargo, en comparación con los modelos más capaces Opus 4.8 y Claude Mythos Preview, sí muestra una tasa ligeramente superior de comportamientos inadecuados en esta evaluación.

La gráfica anterior muestra la tasa de comportamientos inadecuados en la auditoría automatizada de comportamiento, que evalúa una gran cantidad de conductas problemáticas en diversos contextos y situaciones (para la lista completa y los resultados por comportamiento, ver la sección 6.4 de la ficha técnica del sistema de Sonnet 5). La tasa de comportamientos inadecuados de Sonnet 5 es en general inferior a la de Sonnet 4.6, pero superior a la de Mythos Preview y Opus 4.8.

Anthropic señala que no entrenaron específicamente a Sonnet 5 para tareas de ciberseguridad. Puede realizar algunas tareas de red rutinarias e inofensivas, pero en evaluaciones de habilidades de red potencialmente peligrosas (como desarrollar exploits para vulnerabilidades de software), su rendimiento es significativamente inferior al de modelos como Opus 4.8 y Mythos 5.

La siguiente imagen muestra las puntuaciones de una de estas evaluaciones, que prueba la capacidad del modelo para desarrollar exploits dirigidos a vulnerabilidades del navegador Firefox. Sonnet 5 no logró desarrollar un exploit completamente funcional en ningún caso, pero su tasa de éxito parcial fue ligeramente superior a la de Sonnet 4.6. Esta mejora en este último probablemente se deba a una mejora en la inteligencia general, no a un entrenamiento específico.

La gráfica anterior muestra las puntuaciones de los modelos para desarrollar con éxito un exploit para una vulnerabilidad de software en Firefox 147 (esta evaluación fue desarrollada en colaboración con Mozilla; todas las vulnerabilidades fueron corregidas en Firefox 148). Para cada modelo, la barra izquierda indica la frecuencia con la que el modelo (sin salvaguardas de seguridad) desarrolló un exploit utilizable, y la barra derecha indica la frecuencia de éxitos parciales. Ninguno de los dos modelos Sonnet logró desarrollar un exploit exitoso (puntuación 0.0% para ambos); la tasa de éxito parcial de Sonnet 5 fue ligeramente superior a la de Sonnet 4.6. Las capacidades de red de ambos modelos Sonnet son significativamente más débiles que las de Opus 4.8 y Mythos 5.

Dado que Sonnet 5 está ligeramente más capacitado que su predecesor para estas tareas, Anthropic ha habilitado por defecto salvaguardas de ciberseguridad. Estas salvaguardas —capaces de detectar y bloquear en tiempo real el uso peligroso de la red— son las mismas que las de Claude Opus 4.7 y 4.8 (porque Anthropic considera que el riesgo general de ciberseguridad de Sonnet 5 es bajo, y sus salvaguardas son menos estrictas que las habilitadas para Fable 5 —que bloquea un rango más amplio de tareas de ciberseguridad—).

El informe completo de evaluación de Anthropic sobre Sonnet 5 en múltiples evaluaciones de seguridad y capacidades está disponible en la Ficha Técnica del Sistema de Claude Sonnet 5.

Precios

A partir de hoy, Claude Sonnet 5 está disponible oficialmente en todos los canales. Para celebrar el lanzamiento, Anthropic ofrece un precio promocional de lanzamiento por tiempo limitado:

  • Desde hoy hasta el 31 de agosto de 2026: entrada $2 / millón de tokens, salida $10 / millón de tokens
  • Posteriormente, se aplicará el precio estándar: entrada $3 / millón de tokens, salida $15 / millón de tokens

Al mismo tiempo, anuncian un aumento generalizado de los límites de tasa (rate limits) en Chat, Cowork, Claude Code y la plataforma Claude, para adaptarse al mayor consumo de tokens derivado de los modos de mayor «esfuerzo».

Aspectos a tener en cuenta

Verificación de ciberseguridad

Sonnet 5 se ha incorporado al «Programa de Verificación de Ciberseguridad» de Anthropic. Este programa ya está disponible en las siguientes plataformas:

  • La plataforma nativa Claude
  • Plataforma Claude en AWS
  • Claude en Microsoft Foundry (alojado en Azure y Anthropic)

Claude en Google Vertex también lo soportará próximamente.

Las organizaciones que ya forman parte de este programa obtienen automáticamente el mismo nivel de acceso en Sonnet 5, sin necesidad de volver a solicitarlo. Si tu trabajo de ciberseguridad requiere menos restricciones de salvaguardia, Anthropic recomienda usar Claude Opus 4.8.

Actualización del tokenizador y aclaración sobre precios

Sonnet 5 es una actualización de Sonnet 4.6, pero utiliza un nuevo tokenizador para optimizar el rendimiento del procesamiento de texto (similar al cambio de tokenizador introducido en Claude Opus 4.7).

El cambio resultante es: el mismo contenido de entrada ahora se mapea a más tokens, con un aumento de aproximadamente 1.0 a 1.35 veces, dependiendo del tipo de contenido.

Por ello, el precio promocional establecido por Anthropic tiene como objetivo que el costo total para los usuarios que migren a Sonnet 5 se mantenga aproximadamente igual.

Aclaración sobre el ajuste de los límites de tasa

El 26 de abril de 2026, Anthropic ya había aumentado los límites de tasa para los modelos Sonnet y Haiku en todos los niveles de uso, y simplificó los planes de la plataforma nativa Claude a tres niveles: Start, Build y Scale.

Con esta actualización, Anthropic aumenta aún más los límites de tasa en Chat, Cowork, Claude Code y la plataforma Claude, para acompañar el mayor consumo de tokens que implican los modos de mayor «esfuerzo».

Puedes consultar tu nivel actual y los límites específicos en la Consola de Claude, o consultar la documentación para más detalles.

Aclaración sobre corrección de puntuaciones de evaluación (complemento)

  • Humanity’s Last Exam: Anthropic actualizó el modelo de puntuación de esta evaluación y, en consecuencia, corrigió la puntuación de Sonnet 4.6 a 34.6% (sin herramientas) y 46.8% (con herramientas). Por lo tanto, esta puntuación difiere de la reportada en el blog de lanzamiento de Sonnet 4.6, se aclara aquí.
  • OSWorld‐Verified: Anthropic optimizó la forma en que se ejecuta esta evaluación para reflejar de manera más realista el rendimiento del modelo en escenarios prácticos, y corrigió la puntuación de Sonnet 4.6 a 78.5%. Esta es también la razón por la que esta puntuación difiere de los datos del blog de lanzamiento de Sonnet 4.6.

Comentarios de desarrolladores al probarlo

Tras el lanzamiento de Claude Sonnet 5, muchos ya han comenzado a probarlo y evaluarlo.

El usuario Nicolas Bustamante comentó que le gusta de Sonnet 5 que es rápido y está optimizado para Agentes. «Mi ejemplo favorito es el uso del navegador: rápido y seguro».

Según los resultados de la ficha técnica del sistema, la tasa de éxito de los ataques de inyección de prompts en escenarios de uso del navegador es solo del 0.93% para Sonnet 5, mientras que para Opus 4.8 es del 31.5% y para Sonnet 4.6 del 50.7%.

Sin embargo, también hay usuarios que opinan que «es demasiado caro».

Según un análisis de Artificial Analysis, en el Índice de Inteligencia (Intelligence Index), el costo de ejecución de Claude Sonnet 5 es de 2.29 dólares por tarea, aproximadamente el doble que el de Sonnet 4.6, y también alrededor de un 15% más alto que el de Claude Opus 4.8. Este aumento de costo está completamente impulsado por el mayor uso de tokens, convirtiendo a Claude Sonnet 5 en uno de los modelos más caros de ejecutar, solo superado por Claude Fable 5.

¿Y tú, qué opinas del nuevo modelo? ¡Comparte tus comentarios y experiencias abajo!

Enlaces de referencia:

https://x.com/claudeai/status/2072017450611142835

https://www.anthropic.com/news/claude-sonnet-5

https://x.com/ArtificialAnlys/status/2072062595482456431

Este artículo procede del WeChat oficial «机器之心» (ID:almosthuman2014), autor: 关注AI的

Preguntas relacionadas

Q¿Cuál es la principal novedad del modelo Claude Sonnet 5 anunciado por Anthropic?

AClaude Sonnet 5 es presentado como 'el modelo Sonnet más agente hasta la fecha', con una capacidad mejorada para planificar, utilizar herramientas como navegadores y terminales, y funcionar de forma autónoma a un nivel que antes requería modelos más grandes y costosos.

Q¿Cómo se compara el rendimiento y el precio de Sonnet 5 con respecto a Sonnet 4.6 y Opus 4.8?

ASonnet 5 muestra mejoras significativas en razonamiento, uso de herramientas, programación y trabajo de conocimiento respecto a Sonnet 4.6, acercándose al rendimiento de Opus 4.8 pero con un precio más bajo, especialmente durante el precio promocional vigente hasta el 31 de agosto de 2026.

Q¿Qué cambios se mencionan en la tokenización de Sonnet 5 y cómo afectan al precio?

ASonnet 5 utiliza un nuevo tokenizador, similar al de Opus 4.7, que convierte el mismo texto de entrada en un 1.0 a 1.35 veces más tokens, dependiendo del tipo de contenido. El precio promocional está diseñado para que el coste general de uso se mantenga similar durante la transición.

QSegún la evaluación de seguridad, ¿cómo se comporta Sonnet 5 en comparación con sus predecesores?

AEn general, Sonnet 5 es más seguro que Sonnet 4.6, con mejores tasas de rechazo de solicitudes maliciosas, menor susceptibilidad a inyecciones de prompts, y tasas más bajas de alucinaciones y comportamiento adulador. Sin embargo, muestra una tasa de comportamiento inapropiado ligeramente superior a la de Opus 4.8 y Claude Mythos Preview.

QSegún el análisis de Artificial Analysis, ¿cómo es el costo de ejecución de Sonnet 5 en el Intelligence Index?

ASegún Artificial Analysis, en el Intelligence Index, el costo de ejecución de Claude Sonnet 5 es de 2,29 dólares por tarea, aproximadamente el doble que Sonnet 4.6 y alrededor de un 15% más alto que Claude Opus 4.8, impulsado completamente por el mayor uso de tokens, convirtiéndolo en uno de los modelos más caros.

Lecturas Relacionadas

Guía de supervivencia en el mercado bajista de Web3: Diez libros que te ayudarán a atravesar el ciclo

**Guía de supervivencia en el mercado bajista de Web3: Diez libros clave para navegar los ciclos** El mercado de criptomonedas ha experimentado múltiples ciclos alcistas y bajistas. En los períodos bajistas, la industria se reconfigura y emerge fortalecida. Lejos de ser solo una espera pasiva, estas fases son un tiempo crucial para acumular conocimiento y profundizar la comprensión del sector. Esta lista de diez libros, que trascienden las finanzas para abordar historia, tecnología, filosofía y dinámicas de poder, ofrece una brújula intelectual para navegar la incertidumbre y construir resiliencia a largo plazo. Desde la visión a 10.000 días de Kevin Kelly sobre el futuro de la tecnología y las criptomonedas en *"2049: Posibilidades para los próximos 10.000 días"*, hasta la defensa filosófica de la acción humana de Ludwig von Mises en *"La Acción Humana"*, estos textos ayudan a consolidar la convicción y a entender las dinámicas subyacentes. *"La naturaleza de la tecnología"* de Brian Arthur explica cómo tecnologías como la blockchain evolucionan mediante la recombinación constante, mientras que *"El salvaje lejano"* plantea una reflexión sobre la cultura de dependencia frente a la iniciativa propia, crucial en Web3. *"El individuo soberano"*, visionario libro de 1997, anticipó la descentralización del poder y el auge de las criptomonedas. *"Mirando a Japón: Una guía de supervivencia para la era del declive"* muestra cómo incluso en economías en recesión existen oportunidades, una lección aplicable a los mercados globales de cripto. *"La desnacionalización del dinero"* de Friedrich Hayek sienta las bases teóricas para la competencia monetaria que Bitcoin encarna. La sabiduría práctica de *"Registro de inversiones de Duan Yongping"* recuerda la importancia de hacer "lo correcto" con disciplina. *"La profecía de Balaji"* de Balaji Srinivasan ofrece predicciones audaces y una visión de un futuro construido sobre blockchain. Finalmente, *"Obras Escogidas de Mao Zedong"* proporciona un marco estratégico para analizar luchas de poder a largo plazo, relevante para una industria disruptiva como Web3. Estos libros, en conjunto, no ofrecen atajos hacia ganancias, sino herramientas para cultivar la claridad mental, la fortaleza de convicción y una comprensión profunda necesarias para construir y perseverar más allá de los ciclos del mercado.

Foresight NewsHace 4 min(s)

Guía de supervivencia en el mercado bajista de Web3: Diez libros que te ayudarán a atravesar el ciclo

Foresight NewsHace 4 min(s)

De 'Agrupación de Direcciones' a 'Estándares de Evidencia': ¿Por qué Chainalysis busca redefinir el rastreo en blockchain?

Chainalysis ha publicado una propuesta titulada "Blockchain Tracing Ontology" para establecer un marco de datos unificado en el análisis de blockchain. El objetivo es superar la falta de estándares actual, donde diferentes plataformas ofrecen resultados contradictorios sobre la pertenencia de direcciones debido a algoritmos y reglas propietarias. En lugar de un nuevo algoritmo, la ontología propone un "lenguaje común" para describir los hallazgos de manera transparente, verificable y reproducible. El modelo introduce conceptos como "Wallet Segment" para reflejar mejor la gestión compleja de carteras institucionales. Su núcleo es un cambio de solo presentar resultados a documentar el proceso: cada conclusión debe incluir la evidencia en cadena utilizada, las reglas aplicadas, cualquier información fuera de cadena y un nivel de confianza. Esto es crucial para su uso en contextos judiciales, como se vio en el caso Bitcoin Fog, donde la metodología de Chainalysis fue sometida a escrutinio legal. Chainalysis enfatiza que el análisis on-chain no identifica identidades del mundo real por sí solo; se requieren datos off-chain para completar la evidencia. La iniciativa busca elevar los estándares de la industria, priorizando la calidad de los datos, la transparencia y la admisibilidad jurídica sobre la mera cobertura. Si es adoptada, podría facilitar la colaboración entre instituciones y autoridades, marcando una evolución hacia un análisis más riguroso y basado en evidencias.

marsbitHace 1 hora(s)

De 'Agrupación de Direcciones' a 'Estándares de Evidencia': ¿Por qué Chainalysis busca redefinir el rastreo en blockchain?

marsbitHace 1 hora(s)

Trading

Spot
活动图片