Acaba de llegar: Anthropic lanza Sonnet 5, con un rendimiento cercano a Opus 4.8, pero no necesariamente más barato

marsbitPublicado a 2026-07-01Actualizado a 2026-07-01

Resumen

Anthropic ha lanzado Claude Sonnet 5, un modelo que describe como "el Sonnet más 'agente' hasta la fecha", capaz de planificar y usar herramientas como navegador y terminal con un nivel de autonomía anteriormente reservado a modelos más grandes y costosos. Sonnet 5 muestra mejoras significativas en razonamiento, uso de herramientas, programación y trabajo con conocimiento respecto a Sonnet 4.6, acercándose al rendimiento de Opus 4.8, pero con un costo potencialmente menor. Las curvas costo-rendimiento indican que, en niveles de esfuerzo medios, mejora la eficiencia, y en tareas específicas puede igualar a Opus 4.8 con un coste reducido. Los partners que lo probaron destacan su mayor autonomía para tareas complejas. En seguridad, mejora a Sonnet 4.6 en rechazo de peticiones maliciosas y ataques, aunque tiene una tasa de comportamiento inapropiado ligeramente superior a Opus 4.8 y Mythos Preview. Sus capacidades en ciberseguridad son limitadas. Su lanzamiento incluye un precio promocional hasta el 31 de agosto de 2026: entrada a $2 / millón de tokens, salida a $10 / millón. Después, el precio estándar será de $3 y $15 respectivamente. Un análisis de Artificial Analysis señala que, debido al mayor uso de tokens, el coste por tarea es mayor que el de Sonnet 4.6 e incluso Opus 4.8, situándolo entre los modelos más costosos.

Acaba de llegar: Anthropic ha lanzado oficialmente su nuevo modelo Claude Sonnet 5, al que describe como «el modelo Sonnet más orientado a Agentes hasta la fecha», capaz de formular planes, utilizar herramientas como navegadores, terminales, y operar de forma autónoma a un nivel que hace unos meses requería modelos más grandes y costosos.

Sonnet 5 muestra una mejora significativa en razonamiento, uso de herramientas, programación y trabajo con conocimiento en comparación con Sonnet 4.6, acercándose más al rendimiento de Opus 4.8, pero a un precio inferior.

La empresa afirma que, para los desarrolladores, la era de los Agentes de IA realmente comenzó con los modelos de la clase Sonnet: Claude Sonnet 3.5, 3.6 y 3.7 fueron los primeros en mostrar capacidades destacadas en programación y uso de herramientas. Sin embargo, últimamente, las mejoras más notables en capacidades de agente se han visto principalmente en los modelos de la clase Opus.

Claude Sonnet 5 cierra notablemente esta brecha: su rendimiento ya se acerca al de Opus 4.8, pero a un precio más bajo. En comparación con su predecesor Sonnet 4.6, muestra mejoras significativas en dimensiones clave para el rendimiento de agentes como el razonamiento, el uso de herramientas, la programación y el trabajo con conocimiento. La comparación específica se muestra en la siguiente imagen:

La siguiente imagen compara el rendimiento de Sonnet 5 frente a Sonnet 4.6 y Opus 4.8 en la evaluación de búsqueda para agentes BrowseComp y la evaluación de uso de computadora OSWorld‐Verified, bajo diferentes niveles de «esfuerzo»:

  • Sonnet 5 (línea naranja) muestra una clara mejora de rendimiento respecto a Sonnet 4.6 (línea gris), y abarca un rango más amplio de opciones costo-rendimiento que Opus 4.8 (línea amarilla).
  • Con un nivel de esfuerzo medio, Sonnet 5 mejora significativamente la eficiencia en costos; con niveles de esfuerzo más altos, su rendimiento en ciertas tareas puede equipararse al de Opus 4.8.
  • Entre Sonnet 5 y Opus 4.8, los usuarios pueden ajustar flexiblemente el nivel de esfuerzo según la tarea concreta para encontrar el mejor equilibrio entre costo y rendimiento para sus necesidades.

La curva costo-rendimiento bajo diferentes niveles de esfuerzo se muestra en la gráfica anterior. El mejor modelo Sonnet anterior (Sonnet 4.6) estaba muy por debajo de Opus 4.8. Sonnet 5 ofrece un abanico más amplio de opciones costo-rendimiento que Sonnet 4.6, pudiendo alcanzar en algunos casos el nivel de capacidad de Opus 4.8. El precio de Sonnet 5 mostrado en el gráfico es de $3 / millón de tokens para entrada y $15 / millón de tokens para salida. Con el precio promocional hasta el 31 de agosto (entrada $2 / millón de tokens, salida $10 / millón de tokens), el costo real de Sonnet 5 es incluso menor que el mostrado en la gráfica. El precio de Opus 4.8 es de $5 / millón de tokens para entrada y $25 / millón de tokens para salida.

Los comentarios de los socios de acceso temprano de Anthropic han sido consistentes: Sonnet 5 es más capaz como agente autónomo (agentic) que sus modelos predecesores. Los evaluadores describen que puede completar tareas complejas —en las que los modelos Sonnet anteriores se detenían a medio camino—; verifica activamente sus propias salidas sin necesidad de instrucciones explícitas; y realiza todo este trabajo de agente a un precio muy atractivo:

Evaluación de seguridad

La evaluación de seguridad previa al despliegue de Anthropic encontró que Sonnet 5 muestra mejoras generales en comparación con Sonnet 4.6. En cuanto a la seguridad del agente autónomo, el modelo se desempeña mejor rechazando solicitudes maliciosas y resistiendo intentos de secuestro en ataques de inyección de prompts (prompt injection). Las tasas de alucinación y de comportamiento adulador del modelo son inferiores a las de Sonnet 4.6. En la auditoría automatizada de comportamiento (que prueba una amplia gama de comportamientos inadecuados, como facilitar abusos o engaños), Sonnet 5 obtuvo una puntuación más baja (es decir, es más seguro).

Sin embargo, en comparación con los modelos más capaces Opus 4.8 y Claude Mythos Preview, sí muestra una tasa ligeramente superior de comportamientos inadecuados en esta evaluación.

La gráfica anterior muestra la tasa de comportamientos inadecuados en la auditoría automatizada de comportamiento, que evalúa una gran cantidad de conductas problemáticas en diversos contextos y situaciones (para la lista completa y los resultados por comportamiento, ver la sección 6.4 de la ficha técnica del sistema de Sonnet 5). La tasa de comportamientos inadecuados de Sonnet 5 es en general inferior a la de Sonnet 4.6, pero superior a la de Mythos Preview y Opus 4.8.

Anthropic señala que no entrenaron específicamente a Sonnet 5 para tareas de ciberseguridad. Puede realizar algunas tareas de red rutinarias e inofensivas, pero en evaluaciones de habilidades de red potencialmente peligrosas (como desarrollar exploits para vulnerabilidades de software), su rendimiento es significativamente inferior al de modelos como Opus 4.8 y Mythos 5.

La siguiente imagen muestra las puntuaciones de una de estas evaluaciones, que prueba la capacidad del modelo para desarrollar exploits dirigidos a vulnerabilidades del navegador Firefox. Sonnet 5 no logró desarrollar un exploit completamente funcional en ningún caso, pero su tasa de éxito parcial fue ligeramente superior a la de Sonnet 4.6. Esta mejora en este último probablemente se deba a una mejora en la inteligencia general, no a un entrenamiento específico.

La gráfica anterior muestra las puntuaciones de los modelos para desarrollar con éxito un exploit para una vulnerabilidad de software en Firefox 147 (esta evaluación fue desarrollada en colaboración con Mozilla; todas las vulnerabilidades fueron corregidas en Firefox 148). Para cada modelo, la barra izquierda indica la frecuencia con la que el modelo (sin salvaguardas de seguridad) desarrolló un exploit utilizable, y la barra derecha indica la frecuencia de éxitos parciales. Ninguno de los dos modelos Sonnet logró desarrollar un exploit exitoso (puntuación 0.0% para ambos); la tasa de éxito parcial de Sonnet 5 fue ligeramente superior a la de Sonnet 4.6. Las capacidades de red de ambos modelos Sonnet son significativamente más débiles que las de Opus 4.8 y Mythos 5.

Dado que Sonnet 5 está ligeramente más capacitado que su predecesor para estas tareas, Anthropic ha habilitado por defecto salvaguardas de ciberseguridad. Estas salvaguardas —capaces de detectar y bloquear en tiempo real el uso peligroso de la red— son las mismas que las de Claude Opus 4.7 y 4.8 (porque Anthropic considera que el riesgo general de ciberseguridad de Sonnet 5 es bajo, y sus salvaguardas son menos estrictas que las habilitadas para Fable 5 —que bloquea un rango más amplio de tareas de ciberseguridad—).

El informe completo de evaluación de Anthropic sobre Sonnet 5 en múltiples evaluaciones de seguridad y capacidades está disponible en la Ficha Técnica del Sistema de Claude Sonnet 5.

Precios

A partir de hoy, Claude Sonnet 5 está disponible oficialmente en todos los canales. Para celebrar el lanzamiento, Anthropic ofrece un precio promocional de lanzamiento por tiempo limitado:

  • Desde hoy hasta el 31 de agosto de 2026: entrada $2 / millón de tokens, salida $10 / millón de tokens
  • Posteriormente, se aplicará el precio estándar: entrada $3 / millón de tokens, salida $15 / millón de tokens

Al mismo tiempo, anuncian un aumento generalizado de los límites de tasa (rate limits) en Chat, Cowork, Claude Code y la plataforma Claude, para adaptarse al mayor consumo de tokens derivado de los modos de mayor «esfuerzo».

Aspectos a tener en cuenta

Verificación de ciberseguridad

Sonnet 5 se ha incorporado al «Programa de Verificación de Ciberseguridad» de Anthropic. Este programa ya está disponible en las siguientes plataformas:

  • La plataforma nativa Claude
  • Plataforma Claude en AWS
  • Claude en Microsoft Foundry (alojado en Azure y Anthropic)

Claude en Google Vertex también lo soportará próximamente.

Las organizaciones que ya forman parte de este programa obtienen automáticamente el mismo nivel de acceso en Sonnet 5, sin necesidad de volver a solicitarlo. Si tu trabajo de ciberseguridad requiere menos restricciones de salvaguardia, Anthropic recomienda usar Claude Opus 4.8.

Actualización del tokenizador y aclaración sobre precios

Sonnet 5 es una actualización de Sonnet 4.6, pero utiliza un nuevo tokenizador para optimizar el rendimiento del procesamiento de texto (similar al cambio de tokenizador introducido en Claude Opus 4.7).

El cambio resultante es: el mismo contenido de entrada ahora se mapea a más tokens, con un aumento de aproximadamente 1.0 a 1.35 veces, dependiendo del tipo de contenido.

Por ello, el precio promocional establecido por Anthropic tiene como objetivo que el costo total para los usuarios que migren a Sonnet 5 se mantenga aproximadamente igual.

Aclaración sobre el ajuste de los límites de tasa

El 26 de abril de 2026, Anthropic ya había aumentado los límites de tasa para los modelos Sonnet y Haiku en todos los niveles de uso, y simplificó los planes de la plataforma nativa Claude a tres niveles: Start, Build y Scale.

Con esta actualización, Anthropic aumenta aún más los límites de tasa en Chat, Cowork, Claude Code y la plataforma Claude, para acompañar el mayor consumo de tokens que implican los modos de mayor «esfuerzo».

Puedes consultar tu nivel actual y los límites específicos en la Consola de Claude, o consultar la documentación para más detalles.

Aclaración sobre corrección de puntuaciones de evaluación (complemento)

  • Humanity’s Last Exam: Anthropic actualizó el modelo de puntuación de esta evaluación y, en consecuencia, corrigió la puntuación de Sonnet 4.6 a 34.6% (sin herramientas) y 46.8% (con herramientas). Por lo tanto, esta puntuación difiere de la reportada en el blog de lanzamiento de Sonnet 4.6, se aclara aquí.
  • OSWorld‐Verified: Anthropic optimizó la forma en que se ejecuta esta evaluación para reflejar de manera más realista el rendimiento del modelo en escenarios prácticos, y corrigió la puntuación de Sonnet 4.6 a 78.5%. Esta es también la razón por la que esta puntuación difiere de los datos del blog de lanzamiento de Sonnet 4.6.

Comentarios de desarrolladores al probarlo

Tras el lanzamiento de Claude Sonnet 5, muchos ya han comenzado a probarlo y evaluarlo.

El usuario Nicolas Bustamante comentó que le gusta de Sonnet 5 que es rápido y está optimizado para Agentes. «Mi ejemplo favorito es el uso del navegador: rápido y seguro».

Según los resultados de la ficha técnica del sistema, la tasa de éxito de los ataques de inyección de prompts en escenarios de uso del navegador es solo del 0.93% para Sonnet 5, mientras que para Opus 4.8 es del 31.5% y para Sonnet 4.6 del 50.7%.

Sin embargo, también hay usuarios que opinan que «es demasiado caro».

Según un análisis de Artificial Analysis, en el Índice de Inteligencia (Intelligence Index), el costo de ejecución de Claude Sonnet 5 es de 2.29 dólares por tarea, aproximadamente el doble que el de Sonnet 4.6, y también alrededor de un 15% más alto que el de Claude Opus 4.8. Este aumento de costo está completamente impulsado por el mayor uso de tokens, convirtiendo a Claude Sonnet 5 en uno de los modelos más caros de ejecutar, solo superado por Claude Fable 5.

¿Y tú, qué opinas del nuevo modelo? ¡Comparte tus comentarios y experiencias abajo!

Enlaces de referencia:

https://x.com/claudeai/status/2072017450611142835

https://www.anthropic.com/news/claude-sonnet-5

https://x.com/ArtificialAnlys/status/2072062595482456431

Este artículo procede del WeChat oficial «机器之心» (ID:almosthuman2014), autor: 关注AI的

Preguntas relacionadas

Q¿Cuál es la principal novedad del modelo Claude Sonnet 5 anunciado por Anthropic?

AClaude Sonnet 5 es presentado como 'el modelo Sonnet más agente hasta la fecha', con una capacidad mejorada para planificar, utilizar herramientas como navegadores y terminales, y funcionar de forma autónoma a un nivel que antes requería modelos más grandes y costosos.

Q¿Cómo se compara el rendimiento y el precio de Sonnet 5 con respecto a Sonnet 4.6 y Opus 4.8?

ASonnet 5 muestra mejoras significativas en razonamiento, uso de herramientas, programación y trabajo de conocimiento respecto a Sonnet 4.6, acercándose al rendimiento de Opus 4.8 pero con un precio más bajo, especialmente durante el precio promocional vigente hasta el 31 de agosto de 2026.

Q¿Qué cambios se mencionan en la tokenización de Sonnet 5 y cómo afectan al precio?

ASonnet 5 utiliza un nuevo tokenizador, similar al de Opus 4.7, que convierte el mismo texto de entrada en un 1.0 a 1.35 veces más tokens, dependiendo del tipo de contenido. El precio promocional está diseñado para que el coste general de uso se mantenga similar durante la transición.

QSegún la evaluación de seguridad, ¿cómo se comporta Sonnet 5 en comparación con sus predecesores?

AEn general, Sonnet 5 es más seguro que Sonnet 4.6, con mejores tasas de rechazo de solicitudes maliciosas, menor susceptibilidad a inyecciones de prompts, y tasas más bajas de alucinaciones y comportamiento adulador. Sin embargo, muestra una tasa de comportamiento inapropiado ligeramente superior a la de Opus 4.8 y Claude Mythos Preview.

QSegún el análisis de Artificial Analysis, ¿cómo es el costo de ejecución de Sonnet 5 en el Intelligence Index?

ASegún Artificial Analysis, en el Intelligence Index, el costo de ejecución de Claude Sonnet 5 es de 2,29 dólares por tarea, aproximadamente el doble que Sonnet 4.6 y alrededor de un 15% más alto que Claude Opus 4.8, impulsado completamente por el mayor uso de tokens, convirtiéndolo en uno de los modelos más caros.

Lecturas Relacionadas

El airdrop de Ansem hace resurgir el efecto de las recomendaciones de famosos: cuando el mercado está lateral, el dinero inteligente observa los tweets de los KOL

El mercado de criptomonedas, a pesar del entorno bajista actual, está presenciando un resurgimiento del efecto "shilling" (promoción) por parte de personalidades influyentes. Un ejemplo destacado es el token $ANSEM, vinculado al trader Ansem, que se disparó casi un 19,878% en una semana tras su anuncio de airdrops. El mecanismo de distribución, basado en la participación en redes sociales y con cierto carácter aleatorio, ha repartido tokens por valor de millones de dólares, aunque los datos muestran una concentración significativa en pocas carteras. Este fenómeno no es aislado. Figuras como Arthur Hayes también están impulsando activos específicos. Su análisis público de Collector Crypt ($CARDS) y sus comentarios favorables sobre $SYN en el ecosistema Hyperliquid generaron aumentos de precio y volumen inmediatos, demostrando el poder persistente de estos llamados a la acción en un mercado lateral y falto de narrativas fuertes. En esencia, ante la falta de nuevas historias y capital fresco, estos eventos localizados impulsados por líderes de opinión se han convertido en focos de atención y oportunidades (así como riesgos) para el capital inteligente. Las tácticas clásicas de análisis on-chain y de sentimiento en redes sociales siguen siendo relevantes para navegar este terreno, donde la oportunidad y la trampa coexisten estrechamente.

marsbitHace 36 min(s)

El airdrop de Ansem hace resurgir el efecto de las recomendaciones de famosos: cuando el mercado está lateral, el dinero inteligente observa los tweets de los KOL

marsbitHace 36 min(s)

PA Gráfico | Conoce los eventos clave de Web3 en julio de 2026 en una imagen

Resumen de eventos clave de Web3 para julio de 2026: El mercado cripto de julio estará marcado por una combinación de decisiones macroeconómicas, avances regulatorios, desbloqueos de tokens y eventos tecnológicos. Los puntos principales incluyen: 📌 Datos macro de EE.UU.: publicación del empleo no agrícola y el IPC de junio, las minutas de la reunión del FOMC de la Fed y el Libro Beige. 🏛️ Regulación: Fin del período de transición de MiCA en la UE. Fechas clave para la Ley de Estructura de Mercado de EE.UU. y debates sobre la Ley Clarity. 🪙 Desbloqueos de tokens: Tokens como ENA y PUMP serán liberados gradualmente, lo que podría afectar la volatilidad del mercado. 🚀 Novedades de proyectos: Robinhood anunciará una "nueva era cripto", posiblemente con nuevos productos financieros tokenizados. Securitize planea cotizar en la NYSE con el código SECZ. ⚠️ Advertencias: Proyectos como Botanix y Legend cesarán servicios; los usuarios deben gestionar la extracción o migración de activos. 🌐 Eventos destacados: Exposición Internacional de Industria de Inteligencia Embebida de Shanghai, conferencia WebX 2026 y la final del Mundial. 💼 Mercados tradicionales: SpaceX se incorpora al índice Nasdaq 100; ASML y TSMC publicarán resultados del Q2. El mercado buscará una nueva dirección en julio, balanceando expectativas de liquidez, implementación de políticas y rotación dentro del ecosistema. Este mes concentra los eventos focales para entender las tendencias centrales de Web3 en 2026.

marsbitHace 1 hora(s)

PA Gráfico | Conoce los eventos clave de Web3 en julio de 2026 en una imagen

marsbitHace 1 hora(s)

Cómo el aumento de la actividad en la red de Solana puede impulsar una ruptura de SOL por encima de $82

La actividad en la red de Solana ha aumentado notablemente, alcanzando su nivel más alto en meses, con 4.51 millones de carteras activas diarias, un récord histórico desde febrero. Este crecimiento se atribuye al auge de las acciones tokenizadas, el aumento de actividad en xStocks y la reactivación de las finanzas descentralizadas (DeFi). El incremento en el uso real de la red, más allá de la especulación, está respaldando el precio de SOL. Factores como el suministro estable de stablecoins, las entradas de capital netas y el volumen de intercambio en DEX indican que los fondos se mantienen en el ecosistema. Sin embargo, la sostenibilidad de esta recuperación depende de que los nuevos usuarios continúen utilizando la plataforma después del repunte actual. La adopción de activos tokenizados podría fortalecer el crecimiento a largo plazo, mientras que una desaceleración en la entrada de capital podría reducir el impulso de la red. En cuanto al precio, SOL subió un 7.48% el 29 de junio, alcanzando un máximo de $76.49, aunque luego retrocedió a $73. La resistencia clave se encuentra en la zona de $78-$82, que ha rechazado varios intentos anteriores. Un cierre mensual en verde rompería una racha de nueve meses negativos, señalando mayor confianza de los compradores. Superar la resistencia de $82 podría abrir el camino hacia $92, pero es esencial mantener el soporte en $72 para confirmar una estructura alcista sostenida.

ambcryptoHace 2 hora(s)

Cómo el aumento de la actividad en la red de Solana puede impulsar una ruptura de SOL por encima de $82

ambcryptoHace 2 hora(s)

Trading

Spot
活动图片