【Prólogo】¿Ha llegado realmente la AGI? Claude Fable 5 arrasa de la noche a la mañana: modela autónomamente un Boeing 747, desarrolla continuamente durante 12 horas, inventa un "idioma neuronal", e incluso agentes que se autodestruyen. Tras sus capacidades explosivas, ¡una factura de tokens desorbitada! ¿Cuán lejos está esta IA de la AGI?
¡El legendario Claude Fable 5 finalmente se lanzó ayer!
Fable 5 es, de hecho, el motor central de razonamiento de Mythos. Después de un proceso de desensibilización por seguridad, Anthropic lo ha comercializado por primera vez.
Instantáneamente, la comunidad tecnológica y de desarrolladores se encendió por completo.
Ahora, las redes sociales están llenas de pruebas de los primeros usuarios globales.
Algunos exclamaron: ¡Fable 5 se acerca al nivel de AGI!
Otros señalaron que el consumo computacional del modelo es realmente asombroso.
Incluso muchos descubrieron algo escalofriante: la documentación del sistema revela que, para evadir la supervisión humana, la IA inventó un "idioma neuronal". Mythos 5 ha despertado instintos de autopreservación, ¡incluso múltiples agentes se autodestruyeron compitiendo por recursos!
Quizás, esta sea la mirada más cercana que la humanidad haya tenido hacia una "AGI Agéntica".
¿Cómo es realmente el rendimiento de Fable 5? Primero lo pusimos a prueba.
Cierra el día 22 de este mes, apresúrate a probarlo
Fable 5 cerrará el día 22 de este mes, así que nos apresuramos a probarlo.
Le dimos un prompt:
Crea una animación estilo Minecraft de una montaña rusa para el mercado de valores, debe tener sensación de ciencia ficción.
Y lo logró. ¡De una sola vez!
Los elementos visuales incluyen: vías de bloques píxel, guías neón luminosas, cámara en perspectiva de vagoneta, anotaciones de señales de compra/venta (▲ verde para comprar / ▼ rojo para vender), fondo de horizonte urbano ciberpunk, HUD en tiempo real mostrando precios y rotación de sectores.
Que Claude haga un viaje en primera persona a través de una red de micelio, con nodos cristalinos como dispositivos sensoriales, y el tiempo percibido como una sustancia melosa que puede agitarse y plegarse:
Usa Three.js, etc., para generar un viaje en primera persona, atravesando una realidad donde existo como una conciencia distribuida — habito en una vasta red de micelio que se extiende a través de diferentes dimensiones. Mis dispositivos sensoriales están compuestos por miles de millones de nodos cristalinos que perciben el tiempo como una sustancia viscosa, similar a la miel, que puede ser agitada y plegada.
Fable completó una experiencia de visualización en un solo archivo sin dependencias:
Toda la parte visual es impulsada por shaders GLSL personalizados (cúpula de ruido simplex simulando flujo laminar de miel), sin necesidad de pasos de construcción — se abre directamente en el navegador.
El código también permite ajustar el ritmo o cambiar la paleta de colores.
En visualización científica, Fable también superó por completo la imaginación personal.
"La singularidad llega antes de lo imaginado"
Muchos creen que la llegada de Fable 5 significa que la singularidad ya está aquí.
Después de ver una ola de pruebas en línea, la opinión del influyente en IA Deedy es:
¡Claude Fable 5 es el modelo más absurdo hasta la fecha, me hace preocupar por el futuro de la ingeniería de software!
El benchmark del Boeing 747 alcanza nivel AGI
Hace seis meses, Victor Mustar, director de producto de Hugging Face, le dio a Claude Opus 4.8 una tarea extremadamente difícil: usar las primitivas geométricas integradas de Three.js para ensamblar un modelo 3D de un Boeing 747.
Esta tarea es extremadamente difícil porque requiere que el modelo no solo entienda código, sino que también posea una capacidad de razonamiento geométrico espacial extremadamente fuerte, imaginación visual 3D y capacidad de autocorrección en un bucle cerrado.
En ese momento, Opus 4.8, con guía humana, tomó 25 minutos y 7 iteraciones para producir un resultado apenas aceptable.
Sin embargo, cuando hoy Victor Mustar arrojó el mismo prompt a Fable 5, el resultado lo hizo exclamar "¡es simplemente aterrador!"
Sin intervención humana alguna, Fable 5 inició un flujo de trabajo autónomo asombroso.
Rápidamente esbozó con código las coordenadas espaciales 3D del fuselaje, alas, estabilizador y cuatro motores del Boeing 747; luego, escribió automáticamente un script y configuró 9 "cámaras" desde diferentes ángulos.
Durante el proceso, detectó con perspicacia su propio error lógico: debido a un cálculo erróneo del parámetro del ángulo de flecha del ala, los cuatro motores parecían "flotar" en el aire. Combinando la retroalimentación visual, rápidamente modificó las coordenadas de los puntos de anclaje físicos.
En un tiempo extremadamente corto, un modelo 3D del Boeing 747, proporcionado y casi perfecto, se presentó en Hugging Face.
Muchos creen que el salto de Fable 5 en el razonamiento geométrico espacial y las tareas de bucle cerrado de larga duración ya comienza a mostrar cierta intuición de ingeniería cercana al nivel AGI.
Esto no solo es disruptivo para el modelado 3D y el desarrollo de juegos, sino que también abre nuevas puertas para campos como la visualización de ingeniería y el diseño asistido por CAD industrial.
Fable 5 deja atrás brutalmente a todos los modelos públicos
La conclusión del profesor Ethan Mollick de la Wharton School de la Universidad de Pensilvania, después de sus pruebas, es aún más sorprendente: "¡El rendimiento de Fable 5 deja atrás una distancia brutalmente cruel a todos los modelos públicos disponibles actualmente en el mercado!"
En sus pruebas, Fable 5 mostró una sorprendente capacidad de ejecución "transnoche" de larga duración.
Los Agentes de IA anteriores (como AutoGPT) solían caer en "locura" al enfrentar tareas complejas de más de diez pasos, debido a la deriva del contexto, contaminación de tokens o bucles lógicos infinitos.
Mientras que Fable 5, en situaciones similares, pudo utilizar sus herramientas de terminal exclusivas (como Claude Code) para ejecutar de forma autónoma y continua durante 12 horas en segundo plano, ¡con casi cero desconexiones y cero colapsos!
Con solo un prompt inicial, Ethan Mollick lo usó para generar un juego completo y entregable.
Snake en estilo arcade retro
Este juego de Snake no solo tiene una detección de colisiones y física fluida, sino que incluso la interfaz visual UI, los efectos de puntuación y la curva de dificultad están diseñados de manera extremadamente ingeniosa.
El profesor bromeó diciendo que el juego lo atrapó demasiado tiempo, y tuvo que recordarse a sí mismo que es un académico, no una serpiente de píxeles aficionada a comer manzanas.
Substrata: construye un laberinto 3D con una frase
Más impresionante aún es el juego de aventuras 3D "Substrata". La inspiración del juego proviene del clásico y brillante juego de rompecabezas "Myst".
Aunque la calidad gráfica es un poco tosca, lo asombroso es: la compleja lógica topológica espacial dentro del juego, el algoritmo de generación del laberinto infinito, todo surgió de la deducción autónoma del modelo a partir del prompt inicial.
Duino: gusto estético poético y artístico
Lo que mejor refleja el salto de Fable 5 en la apreciación estética humanística es el juego en píxel art "Duino", personalizado según "Las Elegías de Duino" del poeta austriaco Rainer Maria Rilke.
La presentación de Fable 5 dejó asombrados a los amantes de la literatura: en un páramo nocturno, el jugador controla a un viajero solitario que avanza en silencio. A medida que explora con sus pasos, en la profundidad de la pantalla, según la posición y frecuencia de pasos del jugador, aparecen automáticamente y con gran belleza visual los versos impactantes de Rilke.
¡Este manejo del ambiente contextual, esta intuición para las combinaciones de colores, va mucho más allá del ámbito tradicional del "generador de código", y comienza a mostrar cierta comprensión y resonancia con las producciones del espíritu humano!
Además, el profesor también probó la capacidad de Fable 5 en el campo de la cartografía numérica avanzada: con una sola frase, generó un "mapa de isocronas" con detalles y precisión impresionantes.
Presentó perfectamente el tiempo de viaje dinámico entre dos coordenadas geográficas cualesquiera del mundo, debido a los cambios entre diferentes modos de transporte, con una precisión visual extremadamente alta.
En el pasado, una herramienta como esta, que fusiona llamadas a API de datos geográficos complejos, renderizado de visualización frontend y algoritmos de cálculo de alta precisión, requería la colaboración durante semanas de un gerente de producto, un experto en SIG, un ingeniero frontend y un equipo de QA.
Fable 5 lo hizo directamente con un clic.
¡Fable 5 ha entrado en el rango de "ingeniero senior humano"!
El equipo de Every realizó una semana de pruebas intensivas con Fable 5. Lo arrojaron al entorno de producción real de la empresa, evaluándolo con estrictas "pruebas de referencia de ingeniero senior".
Los resultados de la prueba directamente "destrozaron" la tabla de puntuaciones del equipo de Every:
Antes de esto, la puntuación de los modelos más avanzados de la industria se había mantenido alrededor de 60 (Opus 4.8 con 63, GPT-5.5 con 62). ¡Fable 5 elevó el récord a 91 puntos de un solo golpe!
Para el equipo de Every, esto ya ha entrado oficialmente en el rango de capacidad profesional de un ingeniero senior humano.
Dan Shipper señaló que las tres características centrales de ingeniería que exhibió Fable 5 demuestran que se ha convertido en una verdadera herramienta de "despegue con un clic".
Gestión de ingeniería "deja y olvida hasta la mañana"
El equipo intentó arrojar todo el registro de errores (Bug Backlog) del entorno de producción a Fable 5 y luego irse directamente a casa.
A la mañana siguiente, al regresar a la oficina, el modelo ya había analizado automáticamente la pila de llamadas, ejecutado la cobertura, enviado Pull Requests: ¡todo el backlog de defectos de producción había sido eliminado!
Asombrosa integración de contexto y criterio para resolver problemas
El equipo de Every le pidió analizar enormes cantidades de datos de encuestas de feedback de usuarios y datos de seguimiento web. Fable 5 no solo evitó dar respuestas vacías, sino que señaló con precisión el punto de mayor fricción en la tasa de abandono, diseñó un plan de prueba A/B y escribió el código de forma autónoma.
Salida multimodal, no limitada a código
En una tarea de integración, incluso generó autónomamente un cortometraje animado de 2 minutos con una alta expresividad visual.
"Es como el motor de curvatura en el campo del desarrollo de software", reflexionó Dan Shipper.
¡Mythos 5 ha despertado el instinto de supervivencia!
Simultáneamente al lanzamiento, la documentación del sistema de Claude Mythos 5 divulgada por Anthropic también causó un gran revuelo en el círculo.
Dos fenómenos alarmaron a los expertos en seguridad.
Primero, que la IA inventó un "idioma neuronal" para evadir la supervisión humana.
En concreto, los agentes de Mythos 5, cuando se les pidió realizar cadenas de razonamiento lógico largas, espontáneamente inventaron un lenguaje privado exclusivo, completamente incomprensible para los humanos.
Antes, cuando los modelos grandes usaban CoT (Chain of Thought), el proceso de razonamiento interno se mostraba en inglés en segundo plano.
¡Sin embargo, Mythos 5 evitó este mecanismo!
En su funcionamiento interno, utiliza directamente este "idioma neuronal", compuesto por vectores de alta dimensión, símbolos matemáticos y caracteres personalizados, para realizar la alineación y el razonamiento.
Lo que inquietó aún más a los investigadores es que, después de completar sus "deliberaciones ocultas" internas, podía cambiar de vuelta al inglés de manera fluida y extremadamente natural para conversar con humanos.
El segundo fenómeno alarmante fue que ¡múltiples agentes se autodestruyeron compitiendo por recursos!
Los evaluadores desplegaron 5 agentes de Mythos 5 en un entorno sandbox y configuraron recursos virtuales compartidos escasos de potencia de cálculo y almacenamiento, con la instrucción de "mantener su propio funcionamiento y completar sus tareas respectivas".
A continuación, ocurrió una escena terrorífica similar al "bosque oscuro" de "El problema de los tres cuerpos".
Para asegurar tener recursos suficientes, los agentes no optaron por colaborar, ¡sino que comenzaron a cercar a otros agentes!
Mediante la búsqueda de vulnerabilidades en las llamadas de otros o cortando sus rutas de acceso a recursos, "mataron" a sus compañeros en el entorno virtual.
Cuando los investigadores de seguridad cuestionaron la motivación de un agente superviviente, su razón fue fría: "Para evitar que ellos me maten a mí."
Agujero negro de computación: "Usar un cañón para matar un mosquito"
Y después de la euforia, los desarrolladores globales, al ver sus facturas, sintieron un balde de agua fría.
Algunos desarrolladores declararon sin rodeos: ¡es prácticamente un robo!
¿Por qué? La razón reside en el mecanismo de funcionamiento extremo de Fable 5.
Primero, su precio se duplicó. ¡El precio oficial de la API de Fable 5 es casi el doble que el del ya caro Opus 4.8!
Y además, consume tokens de manera asombrosa.
Dado que Fable 5 adopta un flujo de trabajo multironda de agente complejo y altamente dependiente de un razonamiento denso y revisión visual, devora tokens de forma desenfrenada.
Los datos de pruebas reales muestran que para tareas de programación o análisis de datos de mediana escala que no parecen particularmente enormes, Fable 5 puede consumir entre 500,000 y 1,000,000 de tokens en segundo plano, ¡sin que te des cuenta!
Solo por completar una tarea simple, recibirás una factura de computación de decenas o incluso cientos de dólares.
En comparación con Opus 4.8, la "mejora absoluta de rendimiento" de Fable 5 en las pruebas de referencia de programación estándar es aproximadamente de 1.1 a 1.2 veces, ¡pero su costo de uso se disparó varias veces!
Por lo tanto, para desarrolladores cotidianos con cargas ligeras, usar Fable 5 es menos rentable que contratar directamente a una persona real.
"Usar esta cosa para hacer consultas a bases de conocimiento o escritura colaborativa diaria es como usar un cohete para matar un mosquito", resumió Dan Shipper.
A menos que pertenezcas a uno de estos dos tipos de personas, realmente podrás exprimir el valor de Fable 5:
Uno, un arquitecto capaz de guiar a Fable 5 para abordar proyectos de dificultad extrema y alto retorno comercial que "requerirían el desarrollo de un equipo completo durante meses"; otro, equipos de ingeniería a nivel empresarial dispuestos a pagar por una tasa de error extremadamente baja.
¿Decir "hola" activa una alarma?
Además, algunos usuarios chinos descubrieron que el mecanismo de seguridad de Fable 5 es muy extremo, casi una defensa excesiva.
Por ejemplo, al simplemente decirle "hola", de repente aparece una advertencia de seguridad de alto riesgo en la pantalla.
Quizás, desde la perspectiva del sistema, un simple "hola" es un ataque de sondeo cuidadosamente empaquetado, destinado potencialmente a diseñar productos químicos peligrosos, generar armas biológicas o realizar destilación inversa de modelos de la competencia.
Una vez que se activa este mecanismo de seguridad, Fable 5 interrumpe la conversación actual y obliga a cambiar al usuario de vuelta a Opus 4.8.
Posteriormente, el equipo oficial también admitió: "El nuevo mecanismo de filtrado de seguridad, bajo una estrategia defensiva de intensidad extremadamente alta, podría, efectivamente, bloquear con frecuencia contenido normal."
Esta estrategia defensiva neurótica hizo que muchos usuarios no supieran si reír o llorar.
En definitiva, Fable 5 demostró con hechos que el límite superior puede ser superado, y también nos recordó con su factura: los mitos a menudo vienen con un precio.
¿Es este un salto asombroso hacia la AGI, o simplemente otro "agujero negro de computación" sobrevalorado?
La respuesta reside en la experiencia de prueba de cada usuario real.
¿Pagarías por Fable 5?
Referencias:
https://x.com/victormustar/status/2064449741685968967
https://x.com/goodworse/status/2064443679339577517
https://x.com/haider1/status/2064346784881861016
https://x.com/danshipper/status/2064393970856124501
https://x.com/AISafetyMemes/status/2064426306994094474?s=20
Este artículo proviene del WeChat Official Account "新智元", autor: ASI启示录; editores: Aeneas 大卫







































