El "mito" Mythos que Anthropic ha estado ocultando durante dos meses finalmente ha llegado—
El modelo insignia más potente de su historia, presentado en dos versiones: Claude Fable 5 y Claude Mythos 5.
Fable 5 es una versión de Mythos con medidas de seguridad añadidas, disponible para todos los usuarios.
Una vez que una consulta del usuario activa el clasificador de riesgos (como intentar que escriba malware), el sistema degradará automáticamente la llamada a la generación anterior, Claude Opus 4.8, para responder.
Mythos 5 es la versión "Mythos" completa y sin restricciones, pero solo está disponible para un pequeño número de usuarios de confianza.
Ha levantado las restricciones de seguridad en áreas como la ciberseguridad, y el sitio web oficial afirma que "posee las capacidades más avanzadas del mundo en ofensiva y defensa en ciberseguridad e investigación biológica pura".
Según la empresa, Fable 5 y Mythos 5 tienen un tiempo de ejecución autónomo más largo que cualquier modelo Claude anterior.
¿Un pequeño suspiro? La IA de vanguardia ha comenzado a entrar en la era de los permisos.
Y esto ocurre apenas un par de días después de que Anthropic hiciera un llamado serio para detener de inmediato toda investigación en IA...
No entiendo por qué Dario también ha comenzado a seguir el viejo camino de Altman de hacer marketing previo para sus nuevos modelos y productos, y con un gran despliegue.
(Sé que Anthropic tiene sus razones, pero aún así ofrezco una sonrisa).
Sin embargo, también hay noticias no técnicas que alegran a los desarrolladores: el precio de la API de estos dos nuevos modelos insignia se ha reducido a más de la mitad en comparación con la versión preliminar anterior:
Solo 10 dólares por millón de tokens de entrada, y 50 dólares por millón de tokens de salida.
Bien, entremos rápidamente en la parte técnica, ¡vamos—
¡Llega Mythos en dos versiones! Anthropic destaca la "eficiencia de Tokens"
Primero, un dato.
En los registros de lanzamiento oficiales y en las evaluaciones de la industria, no se presenta para Mythos 5 una larga lista estándar y pública de benchmarks (como MMLU, GSM8K, SWE-bench, etc.) como sí se hace para presentar Fable 5.
Sin embargo, dado que ambos son el mismo modelo subyacente, en realidad pueden verse como "dobles especulares" de un mismo núcleo, con indicadores técnicos básicos completamente idénticos.
Así que por ahora solo podemos ver el rendimiento de Fable 5, que es el que se ha hecho público principalmente a través de los canales oficiales.
Según Anthropic, Claude Fable 5 es el Claude público más potente hasta la fecha, y es la primera vez que la serie Fable alcanza capacidades de nivel Mythos.
Sus ventajas se concentran en varias áreas: ingeniería de software, trabajo de conocimiento complejo, capacidades visuales, contexto largo, memoria e investigación en ciencias de la vida.
Lo más crucial es que cuanto más larga y compleja sea la tarea, más evidente será la ventaja de Fable 5 sobre los Claude anteriores, lo que indica que el foco de Fable 5 no es tener respuestas más atractivas en una sola ronda, sino ser capaz de manejar tareas de ciclo largo.
Desglosemos el poder dominante de este modelo mitológico con datos y demostraciones contundentes:
Ingeniería de Software: Supera benchmarks de alta dificultad, desde "corregir errores" hasta un "ejército totalmente automatizado"
En la evaluación SWE-bench Pro, que mide la capacidad de los modelos para resolver problemas de ingeniería de software complejos del mundo real, Claude Fable 5 obtuvo una puntuación alta del 80.3%.
En comparación, el principal modelo de la competencia, GPT-5.5, obtuvo un 58.6%.
En la evaluación Frontier Code de Cognition, que prioriza la capacidad del modelo para completar tareas de programación difíciles mientras cumple con los estándares de calidad de un código de producción, Fable 5 obtuvo la puntuación más alta entre los modelos de vanguardia incluso con una intensidad de razonamiento media.
Este benchmark FrontierCode es extremadamente difícil de saturar.
Sin embargo, incluso en el modo "esfuerzo medio (Medium effort)", la puntuación de Fable 5 encabeza la lista de todos los modelos de vanguardia.
El primer caso de uso típico que ofrece Anthropic proviene de Stripe.
En un repositorio de código Ruby de 50 millones de líneas, Fable 5 completó una migración completa de la base de código. Este trabajo, si lo hiciera manualmente un equipo de ingeniería, originalmente llevaría más de dos meses.
¿Y Fable 5? Solo un día.
Además, en el benchmark de desarrollo frontend de extremo a extremo ViBench (Vibe-coding benchmark), Fable 5 prácticamente saturó los casos de uso de desarrollo básico, logrando una verdadera generación de aplicaciones de "un solo disparo (One-shot)".
Visión Nativa: Sin andamiaje, completando Pokémon a ciegas
El conocido medio tecnológico VentureBeat reveló en su artículo "Anthropic brings Mythos to the masses with Claude Fable 5, its most powerful generally available model ever" que en la prueba de referencia GDPpdf, centrada en el razonamiento sobre documentos visuales, Fable 5 y Mythos 5 obtuvieron una puntuación del 29.8% sin usar herramientas externas.
En comparación, Opus 4.8 obtuvo un 22.5%, GPT-5.5 un 24.9% y Gemini 3.1 Pro un 16.7%.
Anthropic también supuso que a la gente le resultaría aburrido ver un montón de datos, así que publicó una demostración de Fable 5 jugando, que es más visualmente directa.
Los modelos Claude anteriores, si querían jugar al RPG "Pokémon FireRed Edition", tenían que configurarles un "andamiaje" extremadamente complejo en el exterior (incluyendo ayuda de navegación en mapas, lectura del estado del juego en memoria, etc.).
Ahora, Fable 5 logra un "juego a ciegas" puramente de visión nativa.
Usando solo capturas de pantalla originales del juego, sin ninguna ayuda de mapa externo, razonó, planificó estrategias y completó de forma totalmente autónoma todo el juego.
Además, debido a su gran capacidad de concentración en secuencias largas, cuando se le configuró con memoria persistente a nivel de archivo, su rendimiento en el juego de cartas roguelike "Slay the Spire" aumentó directamente 3 veces, y la probabilidad de llegar al acto final también se triplicó.
Contexto Largo y Memoria Mejorados, Enfatizando la "Eficiencia de Tokens"
El contexto largo y la memoria también son puntos clave de esta actualización.
Anthropic afirma que Fable 5 puede mantener la concentración en tareas largas de millones de tokens, y puede usar sus propias notas para mejorar la salida.
La empresa probó con Slay the Spire: después de conectar al modelo una memoria de archivo persistente, la mejora en el rendimiento de Fable 5 fue tres veces mayor que la de Opus 4.8, y la frecuencia de llegar al capítulo final también se triplicó.
Esta es en realidad un componente muy fundamental de las capacidades de agente.
Una IA que trabaje durante largos períodos debe poder recordar qué ha hecho, en qué se ha equivocado y por qué hacer lo siguiente. Sin una memoria estable, las tareas autónomas pueden convertirse fácilmente en una gran escena de amnesia.
Por ello, Anthropic también enfatizó especialmente la eficiencia de tokens (esta es una dirección clave para esta generación de modelos).
Cuanto más tiempo pueda un modelo trabajar de forma autónoma, más tokens consumirá.
Si un modelo es muy potente pero a la vez "muy hablador", los costos pronto serán demasiado altos para las empresas.
El énfasis de Fable 5 en la eficiencia de tokens está esencialmente resolviendo el problema de la contabilidad en la implementación de agentes.
Finanzas, Derecho y Operaciones: El agujero negro lógico que rompe por primera vez la barrera del 90%
En la prueba de referencia financiera de Hebbia (Finance Benchmark for senior-level reasoning), que examina el razonamiento analítico avanzado, Fable 5 obtuvo la puntuación más alta de la industria.
En razonamiento sobre documentos largos, interpretación compleja de gráficos y tablas, y análisis de causa raíz de múltiples pasos, Fable 5 logró un crecimiento de dos dígitos.
En pruebas reales de las grandes empresas de trading cuantitativo IMC y Optiver, Fable 5 obtuvo casi todos los puntos de su evaluación de análisis comercial (incluyendo recuperación de hechos, razonamiento conceptual y cálculo de valor esperado), y mostró una estabilidad sorprendente: en múltiples ejecuciones repetidas, los resultados fueron completamente consistentes.
La plataforma de análisis de datos Hex dio esta evaluación:
Fable 5 es el primer modelo de la industria en romper la barrera del 90% en nuestro benchmark central de análisis (que cubre tareas analíticas extremadamente complejas y de ciclo largo), superando a Opus en un 10%. En las preguntas más difíciles, mostró una capacidad de juicio a nivel de experto humano.
Investigación de Vanguardia: El Mythos completo "venciendo" a un modelo 100 veces más grande
En investigación de física de vanguardia, pruebas de la startup VibeCAD e instituciones de investigación física mostraron que Fable 5, usando solo 1/3 de los tokens de razonamiento, produjo en 36 horas resultados de investigación física que se acercaron a los logrados por GPT-5.5 después de cuatro días.
Y aquí finalmente aparece el todavía algo oculto Mythos.
Anthropic indica que, en el campo biomédico, la versión completa de Mythos 5, sin ninguna ayuda humana, ya puede ejecutar de forma independiente todo el flujo de trabajo de un biólogo: seleccionar sitios de unión de proteínas, planificar y ejecutar autónomamente diversas herramientas bioinformáticas, e incluso depurar (Debug) por sí mismo cuando encuentra fallos.
De los 14 compuestos dirigidos a proteínas que diseñó, 9 ya han entrado en la tubería de desarrollo de fármacos real en laboratorio.
Anthropic también enfatiza que Mythos 5 "es nuestro primer modelo capaz de generar continuamente hipótesis científicas novedosas y convincentes".
En comparaciones directas a ciegas con los modelos de la serie Opus, los científicos prefirieron las hipótesis de biología molecular de Mythos en el 80% de los casos, y ya han llevado varias de estas hipótesis a la fase de verificación experimental.
Simultáneamente, una hipótesis de Mythos, sobre un nuevo mecanismo de una proteína de E. coli, fue confirmada en la investigación de otro laboratorio independiente que estudiaba el mismo problema: "A newly identified detoxification system protects uropathogenic Escherichia coli from reactive chlorine species".
Es aún más exagerado en estudios de genómica: Mythos 5 trabajó de forma autónoma durante más de una semana, ensambló datos de células individuales de 138 especies y diseñó y entrenó de forma autónoma un modelo de aprendizaje automático miniatura personalizado.
Este modelo miniatura, entrenado por IA y 100 veces más pequeño en volumen, superó directamente los últimos resultados de investigación publicados recientemente en la revista "Science".
Después de pedir que se detenga la investigación en IA, las "capacidades peligrosas" parecen convertirse en mecanismos de producto
Lo más interesante de esta vez probablemente sea la red de seguridad que Anthropic ha puesto a Fable 5.
Para ser precisos, Fable 5 tiene detrás un conjunto de clasificadores independientes.
Estos clasificadores detectan si una solicitud del usuario involucra ataques de ciberseguridad, riesgos biológicos y químicos, o destilación de modelos.
Una vez que se activan, Fable 5 se niega a responder por sí mismo y en su lugar redirige automáticamente la solicitud a Claude Opus 4.8, informando al usuario de la degradación.
Interesante, ¿eh?
En el pasado, los modelos grandes en el ámbito de la seguridad solían hacer que el modelo se negara, diciendo cosas como "Lo siento, no puedo ayudarte", "Disculpa, no puedo responder" o "Lo siento, no puedo entender lo que dices", etc.
Fable 5 adopta un enfoque diferente.
Ya no se limita a rechazar, sino que realiza un enrutamiento de modelos.
Las preguntas normales son manejadas por Fable 5, pero una vez que se identifica una pregunta de alto riesgo, el modelo cambia inmediatamente a Opus 4.8.
La idea de Anthropic es que Opus 4.8 también es un modelo potente, y una respuesta degradada siempre es mejor que un rechazo directo, ¿verdad?~
Este diseño separa en la práctica la capacidad de la seguridad.
Lo que usas a diario es la capacidad de nivel Mythos.
Pero cuando te enfrentas a preguntas sensibles, ofensivas o que intentan evadir restricciones, Anthropic cambia sin problemas a un modelo anterior para servirte, haciendo que la herramienta que tienes a mano de repente no sea tan efectiva.
(Principalmente para protegerse de ciertos problemas en ciberseguridad, áreas bioquímicas y destilación de modelos).
Anthropic proporciona datos:
La buena noticia es que más del 95% de las sesiones con Fable 5 no activan la degradación.
Es decir, para la gran mayoría de tareas de escritura, código, análisis, investigación y oficina, la experiencia del usuario se acerca básicamente a la de Mythos 5.
Pero el resto, menos del 5% de las solicitudes, tomarán una ruta de seguridad más estricta.
El sitio web indica que hay principalmente tres áreas de alto riesgo.
La primera es la ciberseguridad, la segunda la biología y química, y la tercera la destilación de modelos.
Detrás de este mecanismo hay un cambio en la forma del producto de los modelos de vanguardia.
La seguridad ya no es solo una declaración de exención de responsabilidad antes de que el modelo responda, ni solo una descripción de política escrita en la tarjeta del sistema.
Se convierte en una arquitectura de producto compuesta por clasificadores, enrutamiento de modelos, niveles de permiso, retención de datos y pruebas de equipo rojo (red team).
Por supuesto, también hay un costo.
Los clasificadores de Fable 5 están ajustados de manera conservadora, por lo que solicitudes normales también pueden ser bloqueadas por error.
Por ejemplo, biólogos que estudian virus o ingenieros de seguridad que realizan ejercicios de ataque autorizados pueden desencadenar una degradación en tareas legítimas.
Anthropic mismo admite que las salvaguardias actuales son más estrictas de lo ideal y que reducirán la tasa de falsos positivos en el futuro.
Otro costo es la retención de datos.
A partir de Fable 5, Mythos 5 y los modelos posteriores del mismo nivel, Anthropic requiere que todo el tráfico de los modelos de nivel Mythos se retenga durante 30 días, cubriendo escenarios de uso de primera y tercera parte.
La empresa enfatiza que estos datos no se usarán para entrenamiento, solo para monitoreo de seguridad, incluyendo la identificación de ataques complejos, nuevas formas de evasión y ataques entre solicitudes.
Para los usuarios comunes, esto puede ser solo una línea en los términos y condiciones.
Pero para los clientes empresariales, es un problema de gobernanza de datos muy real.
Si quieres la capacidad más potente, debes aceptar un mayor nivel de revisión de seguridad y retención de datos.
Inevitablemente, el costo de los modelos de vanguardia no solo se refleja en la factura de la API.
En cuanto al precio, Fable 5 y Mythos 5 tienen un precio unificado de 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida.
Ciertamente, es más barato que Claude Mythos Preview, pero sigue siendo un modelo de alto precio.
En pocas palabras, Fable 5 es realmente potente, pero no es tan barato como para usarlo sin control.
Esto también explica por qué Anthropic enfatiza simultáneamente la capacidad, la seguridad y la eficiencia de tokens.
La experiencia de un investigador de IA en la prueba interna: Cuanto más fuerte es la IA, más se parece el humano al cliente
El famoso académico de IA y profesor de la Escuela de Negocios Wharton, Ethan Mollick, después de obtener acceso prioritario a las pruebas, escribió un artículo extenso.
Su lógica ataca directamente la naturaleza central de esta revolución tecnológica:
El paradigma de colaboración entre humanos y modelos grandes ha sufrido un cambio fundamental e irreversible.
Le pidió a Fable 5 que creara un mapa de isocronas.
Esta tarea no suena muy complicada, pero hacerla realmente es muy laboriosa.
Implica consultar vuelos, horarios de trenes, determinar velocidades en carretera, y manejar las relaciones entre diferentes países, modos de transporte y costos de tiempo.
Fable 5 inició por sí mismo múltiples agentes para buscar información, obtuvo más de 2200 datos específicos de vuelos, extrajo datos de trenes como el TGV y el Shinkansen, e información de velocidades viales de varios países.
Finalmente, integró toda esta información en un proyecto de mapa utilizable.
Lo crucial aquí es que Fable 5 desglosó un objetivo vago en múltiples fases como investigación, recopilación de información, diseño, codificación y verificación, y las avanzó por sí mismo.
Esto es muy diferente de la experiencia pasada con modelos grandes.
Así, Mollick propone una profunda perspicacia.
En el pasado, los humanos que usaban modelos grandes eran como "magos (Wizards)". Tenías que guiarlos y controlarlos (Steer) paso a paso, perfeccionar cada prompt, "lanzar hechizos" a través de constantes diálogos con prompts, para que la IA pudiera apenas realizar un truco.
Frente a modelos de nivel Mythos, los humanos se están convirtiendo en "patrocinadores (Patrons)" o "mandantes". (Aquí siento que traducirlo como "cliente" o "parte contratante" es más apropiado, ¿no?).
El profesor Mollick, trabajando con Fable 5, sintió que ya no estaba operando una herramienta, sino más bien encargando un trabajo a un pequeño estudio.
Además, en sus pruebas reales, ya no necesitaba trabajar en el nivel más micro de las instrucciones.
Simplemente le dio a Fable 5 un documento de diseño de proyecto extremadamente complejo y largo de 15 páginas, y luego dejó una descripción macro de los requisitos.
Durante las siguientes 9 horas y más, Fable 5 funcionó en un estado completamente autónomo (Autonomous) en segundo plano.
Generó por sí mismo un flujo de trabajo de agente, programando internamente múltiples agentes pequeños para realizar investigaciones, redactar esquemas, revisarse mutuamente, descartar hipótesis erróneas, corregir errores y comenzar de nuevo.
El humano ni siquiera necesitó intervenir en este flujo de trabajo ni una sola vez.
Nueve horas después, un producto final de muy alta calidad fue entregado directamente a Mollick.
Esta es la llamada metáfora del "estudio (Studio)".
Antes, usar un modelo grande era como contratar a un freelance temporal que requería comunicación constante; ahora, usar Fable 5 es como, por unos pocos centavos en tokens, contratar instantáneamente todo un estudio de diseño de nivel Hollywood, o un instituto de investigación de primer nivel.
No necesitas preocuparte por cuántas decisiones micro toma dentro de la caja negra, solo necesitas desempeñar el papel del "cliente" que firma el producto final.
Esta combinación de contexto de texto largo (Context) y lógica autónoma en los modelos grandes hace que el Context ya no sea solo un "contenedor de contenido", sino que se consolida completamente en un "nuevo sistema operativo inteligente" capaz de razonar de forma autónoma y ejecutar tareas largas.
En otras palabras, cuanto más se parece la IA a un contratista, más se parece el humano a un cliente que necesita capacidad de verificación y aceptación.
Como interludio, para mostrar de manera más intuitiva y divertida, el profesor también le pidió que generara una serie de juegos para que la gente probara.
Estos juegos se basaron en un prompt inicial de Claude Code, y Fable 5 necesitaba generar algunos programas viables basándose en mis indicaciones vagas. Luego yo daría algunas indicaciones adicionales y ofrecería algún estímulo (como "hazlo mejor") o retroalimentación.
Dado que Claude Code no puede generar imágenes, todos los elementos artísticos u objetos 3D se generaron completamente mediante operaciones matemáticas, sin usar recursos externos.
Aquí hay una demo de un juego de lanzamiento de moneda:
Después de probar Fable 5 antes del lanzamiento, el profesor finalmente dijo que "el resultado final es impresionante".
Pero, especialmente al abordar proyectos más serios, el profesor a menudo sentía que usar esta herramienta era a la vez placentero e inquietante.
Lo placentero es que solo tengo que pedirlo, y lo hace. Lo inquietante también es que solo tengo que pedirlo, y lo hace.
En efecto.
Volviendo al lanzamiento de Anthropic.
Algunos piensan que lo más importante es que Mythos finalmente se ha revelado a medias, otros creen que lo más importante es que los productos de IA de vanguardia están entrando en una nueva forma.
Un modelo más potente ha llegado a la mesa.
Pero Anthropic primero le pone el cinturón de seguridad, y luego le da las llaves a todos.
Algunos vitorean, otros están ansiosos, otros pasan la noche depurando código, solo para intentar seguir la curva de inteligencia que corre frenéticamente hacia adelante, y que incluso ha comenzado a despegarse de la vista microscópica humana.
Tres Cosas Más
1. Presten atención al período de ventana. Desde hoy hasta el 22 de junio, los usuarios de las versiones Pro, Max, Team y Enterprise pueden usar Fable 5 de forma gratuita.
Pero a partir del 23 de junio, si quieren seguir usando Fable 5, tendrán que comprar créditos de uso adicionales.
2. Anthropic dice que, una vez que la capacidad de producción alcance el nivel adecuado, Fable 5 volverá a incluirse como estándar en las suscripciones.
Los clientes de API y los clientes empresariales de pago por uso no se ven afectados por este calendario; pueden comenzar a llamar al modelo con normalidad desde hoy.
Referencias:
[1]https://www.anthropic.com/news/claude-fable-5-mythos-5
[2]https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos
[3]https://www.biorxiv.org/content/10.64898/2026.03.12.711259v1
Este artículo proviene del WeChat Official Account "Quantum Bit", autor: Heng Yu



















