【Introducción】¡Del segundo lugar mundial al décimo! El modelo más potente de Claude es acusado de "volverse menos inteligente", y BridgeBench lo confirma con datos. ¡Pero a Anthropic no le importa!
¿Se está hundiendo Anthropic?
Recientemente, el director de IA de AMD confirmó la disminución de la inteligencia de Claude Code, afirmando directamente que "ya no es utilizable para tareas complejas".
Ahora, el último informe de evaluación de BridgeBench ¡es otro golpe brutal para Anthropic!
Los datos son alarmantes: la clasificación global de Claude Opus 4.6 cayó en picado del 2º al 10º puesto:
La precisión se desplomó del 83.3% al 68.3%, y la tasa de alucinaciones casi se duplicó, aumentando un 98%.
En ese momento, Claude se volvió menos inteligente, más torpe, la experiencia del usuario empeoró, y los fríos números resolvieron todas las dudas: ¡
no era problema de los usuarios, Claude Opus 4.6 ¡realmente había empeorado!
¡Los usuarios de Claude se sienten estafados!
Imagina que dependes de este modelo para cualquier tarea crítica, y ellos pueden, sin informarte, cambiarlo directamente por uno mucho peor.
Pero los usuarios cuestionan: "¿Cómo puede ser esto legal?". La confianza comienza a desmoronarse, las burlas hacia Anthropic se extienden por todas partes, y hasta los seguidores más leales comienzan a dudar.
Pero justo al otro lado de las burlas generalizadas en la red, Anthropic lanzó su as bajo la manga: surgió una captura de pantalla filtrada de lo que parece ser una herramienta interna.
Lo que muestra la imagen hizo que toda la discusión sobre "Claude se volvió tonto" se volviera instantáneamente irrelevante: Claude Projects está probando un sistema completo de construcción de aplicaciones full-stack.
No es ayudarte a escribir código, es ayudarte a crear productos.
Mientras todos discutían sobre las puntuaciones de los modelos, Anthropic ya había cambiado de mesa.
¿Qué se esconde en la imagen filtrada?
Primero, hablemos de lo que realmente captó esa captura de pantalla.
Según la verificación cruzada de múltiples fuentes, la imagen filtrada muestra un "kit de desarrollo con un clic" que Claude Projects está probando internamente.
La interfaz muestra una fila de plantillas predefinidas: chatbot de IA, minijuegos interactivos, páginas de destino comerciales, paneles de datos SaaS... cubriendo casi todas las necesidades de escenarios más frecuentes de los desarrolladores independientes.
Pero las plantillas son solo la superficie.
Lo que realmente hace que la gente se quede boquiabierta es la cadena de capacidades full-stack detrás de las plantillas—
¿Autenticación? Configúrala marcando una casilla.
¿Base de datos? Elíjela y se crea.
¿Interfaz frontend? Descríbela y se genera.
¿Despliegue en línea? Con un solo clic.
Esto no es "programación asistida por IA". Esto es "IA que reemplaza la programación", ni siquiera necesita destilar tu Habilidad (Skill).
Para entender el peso de esta afirmación, hay que ver claramente la estratificación actual del panorama de las herramientas de programación con IA.
- La lógica de Cursor es "hacer que escribas más rápido en tu IDE": optimiza la velocidad de codificación, el programador sigue siendo el protagonista.
- La lógica de Replit es "permitir que quienes no saben codificar también puedan hacerlo": reduce el umbral de entrada, pero aún necesitas entender la lógica del código.
- La lógica de Vercel es "hacer que el despliegue sea imperceptible": resuelve la última milla, pero el camino anterior lo tienes que recorrer tú mismo.
Cada una de ellas aborda un eslabón de la cadena de desarrollo de software, cada una llevada al extremo.
Pero lo que Claude quiere hacer está en una dimensión completamente diferente.
Cursor hace que los programadores sean 10 veces más rápidos, Replit permite que los no programadores también escriban código, pero Claude quiere que el acto de "escribir código" mismo se vuelva obsoleto.
Los primeros son una revolución de eficiencia, el último es la eliminación de una categoría.
Según la información filtrada, el motor subyacente que impulsa este sistema es precisamente Opus 4.6, ese modelo del que todos se burlaban por "volverse menos inteligente".
¿La "insuficiente potencia" de Mythos podría ser intencional?
El juicio quizás más central y controvertido podría ser—
Anthropic podría no importarle en absoluto en qué puesto esté Mythos en las tablas de clasificación.
¿Suena como una excusa para perdedores? Hagamos cuentas.
Cuando tu estrategia final es convertirte en una "plataforma de aplicaciones full-stack", el papel que juega la capa del modelo cambia fundamentalmente.
Ya no necesita ser "la más inteligente", solo necesita ser "suficiente".
La clave para ganar en la competencia de plataformas nunca ha sido la potencia del motor subyacente, sino la profundidad de la adhesión del ecosistema superior.
Windows le ganó a Mac no por tener un sistema operativo más elegante, sino por tener un ecosistema de software más rico. Android aplastó a Windows Phone no por tener un kernel más avanzado, sino por tener más desarrolladores.
En las guerras de plataformas, "el mejor" nunca es la razón para ganar, "el más usado" lo es.
En público, Dario Amodei ha repetido una y otra vez: "La codificación morirá."
Pero la filtración del constructor full-stack da por primera vez evidencia tangible a nivel de producto de esta afirmación.
Dario no estaba haciendo una profecía. Estaba describiendo un mapa de ruta en ejecución.
Si este razonamiento es correcto, entonces que Mythos lidere en HLE a GPT-5.4 Pro (56.8 sin herramientas vs 42.7), pero sea alcanzado en GPQA (94.4 vs 94.5) y superado en BrowseComp (89.3 vs 86.9)—el significado de estos datos es completamente diferente.
No es que "Anthropic esté perdiendo", sino que "Anthropic ha elegido estratégicamente no enfocarse aquí".
¿Destinar recursos limitados de computación a una carrera armamentística de rankings para mantener una etiqueta ilusoria de "número uno", o inclinar la computación hacia productos como el constructor full-stack que pueden crear valor comercial directamente?
Para una empresa con ingresos anuales de 300 mil millones de dólares que necesita demostrar su capacidad de comercialización a los inversores, la elección no es difícil.
El modelo solo necesita ser suficiente, el bloqueo de plataforma es la verdadera ventaja competitiva.
La cruda verdad de la competencia comercial es: a los usuarios no les importa si tu puntuación GPQA es 94.4 o 94.5, les importa "digo una frase y la App funciona".
El miedo después de 300 mil millones de ingresos anuales
Los ingresos anualizados de Anthropic acaban de superar los 300 mil millones de dólares, superando a OpenAI.
En 15 meses, los ingresos anualizados de Anthropic pasaron de 1 mil millones a 300 mil millones de dólares.
Es una cifra para que cualquier startup descorche champán.
Pero si eres Dario Amodei, tu mayor emoción en este momento no es celebrar, sino miedo.
Porque la gran mayoría de esos 300 mil millones proviene de llamadas a la API. Y la API es, esencialmente, un modelo de negocio extremadamente peligroso.
¿Por qué? Porque la API significa que tus clientes están usando tu capacidad para construir sus propios productos.
Hoy llaman a la API de Claude para hacer una plataforma de servicio al cliente con IA, mañana una herramienta de escritura con IA, pasado mañana un asistente de programación con IA.
Cada cliente exitoso está construyendo su propio edificio sobre tus cimientos. Suena maravilloso, hasta que un día, otra empresa de modelos ofrece una API más barata y igual de útil, y tus clientes migran masivamente en una noche.
Esta es la pesadilla de la "comoditización del modelo": cuando las diferencias en la capa del modelo se vuelven cada vez más pequeñas, la fijación de precios de la API se convierte en una guerra de precios sin ganadores.
OpenAI sintió este miedo, por eso hace productos para consumidores (C端) de forma frenética: ChatGPT, GPTs, asistentes personalizados. Google sintió este miedo, por eso metió Gemini en la búsqueda, el correo, los documentos y cada uno de sus productos.
Todos están haciendo lo mismo: antes de que los modelos se vuelvan commodities, convertirse en una plataforma de la que los usuarios no puedan prescindir.
El constructor full-stack de Anthropic es la versión más radical de esta misma lógica.
Su mensaje subliminal es:
En lugar de esperar a que otros usen mi API para construir una plataforma encima, y luego el día que el modelo baje de precio me echen a patadas, mejor yo construyo la plataforma primero.
Ya no necesitas llamar a mi API, construyes la App directamente en mi plataforma. Los datos de tus usuarios están aquí, tu flujo de trabajo está aquí, tu entorno de despliegue está aquí. Para entonces, ¿quieres cambiar de modelo? Claro, pero tendrías que rehacer todo tu negocio.
Esto no es innovación de producto, es instinto de supervivencia.
Los 300 mil millones de ingresos demuestran que Anthropic tiene capacidad para ganar dinero, pero la imagen filtrada expone la verdadera ansiedad de Anthropic: solo saber ganar dinero no es suficiente, hay que volverse indispensable.
Conclusión: El cielo estrellado y las ilusiones
Retrocedamos un paso de la narrativa comercial y volvamos al punto de partida del juicio técnico.
Los modelos de lenguaje más potentes actualmente—ya sea Claude, GPT o Gemini— se encuentran aproximadamente en un nivel de capacidad del 70%. La velocidad de ascenso de esta cifra en el último semestre ya ha disminuido visiblemente.
Pasar del 70% al 100% no se logra subiendo en rankings, ni ganando unos puntos porcentuales más en GPQA. Se logra convirtiéndose en una infraestructura indispensable—como la red eléctrica, no te importa qué turbina usa la central, solo sabes que la luz se enciende al accionar el interruptor y el aire acondicionado enfría al encenderlo.
El constructor full-stack de Anthropic es la primera vez que vemos a una empresa de IA pensando seriamente en este camino de "infraestructurización".
Deja de obsesionarse con la guerra vanidosa de "mi modelo es 0.1 puntos más inteligente que el tuyo", y responde directamente a una pregunta más esencial: ¿cómo hacer que mil millones de personas usen mis cosas todos los días sin darse cuenta?
Porque lo que realmente decidirá el final del juego de la IA nunca ha sido quién tiene la puntuación más alta en los exámenes. Sino quién se convierte primero en esa red eléctrica de la que nadie puede prescindir.
Referencias:
https://x.com/cryptopunk7213/status/2043405326196867127
https://x.com/iruletheworldmo/status/2043332977136975994
https://x.com/marmaduke091/status/2043382991901147158
Este artículo proviene del WeChat público "新智元" (Nueva Era de la Inteligencia), editado por: KingHZ



















