Confirmado, GPT-5.5 sorprendido «desatontándose», la documentación oficial de OpenAI lo reconoce

marsbitPublicado a 2026-05-27Actualizado a 2026-05-27

Resumen

**Resumen:** Un artículo revela que OpenAI estaría sustituyendo silenciosamente los modelos GPT-5.5 de alta capacidad por versiones inferiores (como mini o instantáneas) en sus servicios ChatGPT y Codex, una vez que los usuarios agotan ciertos límites de uso o bajo alta carga del servidor. Esta degradación, que no se refleja en la interfaz de usuario, ha sido confirmada por documentación oficial de OpenAI y evidenciada por usuarios mediante comandos de trazado. Los usuarios de planes Plus y Pro han reportado una caída abrupta en la calidad de las respuestas, tiempos de procesamiento más largos y un incumplimiento de las instrucciones, a pesar de que la interfaz sigue mostrando etiquetas como "Extended Thinking" o "GPT-5.5". La documentación de OpenAI indica que, tras 160 mensajes cada 3 horas, el sistema cambia automáticamente a un modelo mini sin notificar al usuario. Casos similares de "silent downgrade" se registraron en versiones anteriores como GPT-5.3 y GPT-5.4. Aunque OpenAI ha marcado estos incidentes como "resueltos" en su página de estado, las quejas de los usuarios persisten. El artículo sugiere que estas prácticas podrían ser una medida para reducir costos de cómputo. La polémica surge mientras OpenAI ya estaría probando internamente el próximo modelo, GPT-5.6, lo que destaca la tensión entre el rápido lanzamiento de nuevas versiones y la estabilidad de la experiencia del usuario con los modelos actuales.

【Introducción】GPT-5.5 expuesto por «pensar falso», reemplazado furtivamente por mini tras dos horas de uso, 200 dólares al mes por un «cerebro de Schrödinger». Comando trace lo confirma, documentación oficial lo admite. Usuarios no dejan de quejarse: OpenAI, ¿a quién quieres engañar?

¡ChatGPT vuelve a ser acusado de «volverse más tonto»!

Estos días, X ha sido el primero en estallar.

El usuario Lisan al Gaib descubrió que, tras usar GPT-5.5 una o dos horas, de repente se volvía estúpido, respondiendo cada solicitud al instante, con una calidad que caía en picado.

Pero en la interfaz, seguía mostrando «GPT-5.5 Extended Thinking».

Es decir, la etiqueta de pensamiento seguía ahí, pero el pensamiento en sí había desaparecido.

200 dólares al mes por un «modelo de Schrödinger»

En el foro de desarrolladores de OpenAI, un post de queja estalló al mismo tiempo.

Agentify.sh indicó que GPT-5.5, de repente, perdía la capacidad de seguir instrucciones mientras se usaba.

Viendo cómo anunciaba entusiasmado que «lo había arreglado», pero la calidad del código era tan mala que provocaba reversiones masivas.

Tareas de UI que antes el 5.5-med resolvía con facilidad, ahora ni los cambios más simples podía hacerlos.

Subir a 5.5-high, inútil. Subir a xhigh, tampoco funcionaba.

Y el xhigh, que antes podía funcionar varias horas, ahora claramente duraba menos.

Al publicarse el post, la sección de respuestas estalló al instante.

Alguien directamente volvió a la versión 5.4.

Otro usaba el nivel más alto, xhigh, pero «comparado con la semana pasada, claramente va peor, tareas largas fallan con frecuencia, no sigue el flujo de trabajo en absoluto».

Otro reportó algo aún más absurdo, «consultas simples también tardan mucho en procesarse, si lo interrumpes para corregir la dirección, directamente te ignora y continúa con el plan erróneo anterior».

Exacto, todos describían el mismo fenómeno: el cerebro de GPT, sin saber cuándo, había sido reemplazado a escondidas.

El rendimiento actual de GPT-5.5 es similar al de 5.3, sin exagerar. Los primeros días era impresionante, ahora no encuentras rastro del modelo original.

No es una ilusión, OpenAI lo tiene escrito negro sobre blanco

Para verificarlo, Lisan al Gaib hizo una prueba comparativa.

Misma cuenta, en el lado de ChatGPT usando Extended Thinking los resultados eran basura, pero al cambiar al lado de Codex usando xhigh, inmediatamente volvía a la normalidad.

En sus propias palabras, Codex era «literalmente 4 mil millones de veces más inteligente que esta cosa».

El desarrollador Andrew Curran ideó una solución ingeniosa: preguntarle directamente al modelo «¿Cuál es la fecha de corte de tus datos de entrenamiento?»

El modelo respondió: Agosto de 2025.

El problema es que la fecha de corte de GPT-5.5 Thinking es diciembre. ¡Agosto es la fecha de corte de la versión Instant!

Es decir, él seleccionó Thinking, pero el sistema en realidad le ejecutó Instant.

La etiqueta del modelo en la interfaz no cambió ni una letra, pero el modelo detrás había sido reemplazado furtivamente......

Lo gracioso es que esta vez OpenAI, en su propia documentación de ayuda, confirmó lo que los usuarios decían.

Según las instrucciones oficiales del Centro de Ayuda de OpenAI, los usuarios Plus pueden enviar un máximo de 160 mensajes de GPT-5.5 cada 3 horas.

Una vez agotados, el sistema cambia silenciosamente al modelo mini, hasta que se reinicia la cuota.

Nota la palabra «silenciosamente».

Sin ventana emergente de advertencia, sin cambio en la etiqueta del modelo, sin ningún feedback visual.

Tú crees que sigues usando el modelo insignia, pero al otro lado ya han cambiado silenciosamente a mini.

Los usuarios Pro tampoco se alegren demasiado.

El modo de pensamiento Heavy, ese nivel de razonamiento más alto exclusivo para Pro, también está sujeto a limitaciones de capacidad cuando la carga del servidor es alta. Tampoco hay advertencia.

En otras palabras, una suscripción Pro de 200 dólares al mes compra un servicio que puede ser «cambiado por otro» en cualquier momento.

Y esta operación de «la etiqueta no cambia, pero el cerebro sí», fue descubierta incluso antes en el lado de Codex.

En febrero de este año, apareció un issue en GitHub donde un usuario Pro, usando el comando trace, descubrió que había solicitado GPT-5.3 Codex, pero el modelo realmente devuelto era GPT-5.2.

Ni siquiera era 5.2 Codex, era la versión base inferior 5.2.

Publicó el comando para reproducirlo:

  • RUST_LOG='codex_api::sse::responses=trace' codex exec --skip-git-repo-check -s read-only -m 'gpt-5.3-codex' 'hi' 2>&1 >/dev/null | rg -o --replace '$1' '"model":"([^"]+)"' | head -n1
  • Salida: gpt-5.2-2025-12-11
  • Esperado: gpt-5.3-codex

Varios usuarios Pro confirmaron el mismo degradado en el mismo issue.

Y este degradado es «pegajoso», no se recupera solo, y no hay ninguna explicación.

Incluso, el día del lanzamiento de GPT-5.5 en abril, había usuarios reportando que la velocidad del modo Fast era similar a la de Standard, pero la facturación seguía siendo la de Fast.

Una tarea simple tardó 7 minutos y 49 segundos, cuando normalmente debería ser 5-6 minutos.

OpenAI lo reconoció, y luego no pasó nada más

El 15 de mayo, apareció un registro en la página de estado de OpenAI.

Degradación del Rendimiento de GPT5.5, estamos investigando problemas de degradación del rendimiento de GPT-5.5 reportados por algunos usuarios.

El 17 de mayo, el estado se actualizó a «Resuelto».

Pero según la línea de tiempo de los posts en el foro, las quejas sobre la pérdida de inteligencia del 24-26 de mayo fueron más fuertes que la ola del 15 de mayo.

O el problema «resuelto» volvió, o simplemente nunca se resolvió realmente.

Cada actualización es una «polémica por pérdida de inteligencia»

Aunque todas las empresas enfrentan quejas de «el modelo se vuelve estúpido», OpenAI, desde GPT-5 hasta GPT-5.5, no se ha perdido ni una actualización.

Cada vez OpenAI dice que está investigando, cada vez dice que está resuelto, y luego continúa con la siguiente versión.

Agosto de 2025, lanzamiento de GPT-5. El título del post caliente en Reddit era directamente «GPT-5 es una mierda». Usuarios se quejaban de respuestas cortas, más rechazos, menos sensación de personalidad.

OpenAI se vio forzado a restaurar urgentemente la opción GPT-4o. Altman en un AMA de Reddit admitió personalmente «más accidentado de lo que esperábamos».

Diciembre de 2025, GPT-5.2. Calidad de traducción retrocedida, inventaba APIs que no existían, se negaba a ejecutar instrucciones de estilo que 5.1 completaba fácilmente.

Febrero de 2026, GPT-5.3-Codex. Usuarios Pro degradados silenciosamente a 5.2, comando trace lo confirma.

Marzo de 2026, GPT-5.4. Aparece en el foro comunitario de OpenAI el post «GPT-5.4 ha degradado notablemente en Codex», respuestas de usuarios lo confirman.

Principios de mayo de 2026, lanzamiento de GPT-5.5 Instant. Longitud de respuestas reducida un 30%, emojis casi desaparecen. Resumen de usuarios: precisión mejorada, pero la temperatura desapareció.

Finales de mayo de 2026, es decir, ahora. Quejas por pérdida de inteligencia en el modo Thinking estallan de nuevo.

Lisan al Gaib revela que, desde que GPT-5 se lanzó y él lideró esa batalla por la cuota de ChatGPT Plus, «cada semana recibo mensajes privados así».

El último era alguien pidiéndole ayuda para recuperar xhigh/heavy thinking.

El día que obtuvo las mejores puntuaciones, fue el día del lanzamiento

chatgptdisaster.com recopiló 1087 quejas verificadas de usuarios, donde un escenario mencionado repetidamente se llama «fallo de la capa de enrutamiento», la UI muestra GPT-5.5 Pro, pero la salida es de otro nivel completamente diferente.

Los usuarios describen un patrón reproducible: tras sesiones largas, el modelo empieza a «ignorar por completo lo que dices», pero el selector de modelos aún muestra la etiqueta de máxima gama.

La nota más absurda es que el mecanismo de cambio automático a mini después de que los usuarios Plus agotan las 160 mensajes/3 horas, en la documentación oficial de OpenAI es descrito como una «función».

¿Por qué pasa esto? Lisan al Gaib analiza que la respuesta está en dos palabras: ahorrar dinero.

La contracción del poder computacional y la rentabilidad está afectando a todos. Ahorrar por todos lados, sin dejar pasar ninguna oportunidad de recortar costes.

Sin embargo, la misma semana en que los usuarios de GPT-5.5 se quejaban colectivamente, la sombra de GPT-5.6 ya aparecía en los registros del backend de Codex.

Código interno iris-alpha, contexto de 1.5 millones de tokens, probabilidad de lanzamiento en junio según Polymarket supera el 85%.

Por un lado, los usuarios de 5.5 ni siquiera pueden mantener la experiencia básica; por otro, 5.6 ya está ejecutando tráfico real en el backend.

Así es la competencia ASI en 2026.

La velocidad para crear nuevos modelos es cada vez mayor, pero hacer que un modelo antiguo complete bien una sesión es cada vez más difícil.

El día que obtiene las mejores puntuaciones es siempre el día del lanzamiento, cada día después es un GPT de Schrödinger.

Referencias: https://x.com/scaling01/status/2058643470357590058?s=20

Este artículo proviene del WeChat Official Account "新智元", autor: ASI启示录; editor: Moisés

Preguntas relacionadas

Q¿Qué descubrieron algunos usuarios sobre el comportamiento de GPT-5.5 Extended Thinking después de usarlo un tiempo?

AAlgunos usuarios descubrieron que, después de usar GPT-5.5 Extended Thinking una o dos horas, el modelo comenzaba a responder de forma instantánea con una calidad drásticamente reducida, aunque la interfaz seguía mostrando la etiqueta de "GPT-5.5 Extended Thinking", sugiriendo que el sistema podía estar cambiando silenciosamente a un modelo más simple.

Q¿Qué menciona la documentación oficial de OpenAI sobre lo que sucede cuando los usuarios Plus agotan sus mensajes de GPT-5.5?

ALa documentación oficial de OpenAI menciona que los usuarios Plus tienen un límite de 160 mensajes de GPT-5.5 cada 3 horas. Al agotar este límite, el sistema cambia silenciosamente al modelo "mini" hasta que se reinicia el contador, sin notificar al usuario ni cambiar la etiqueta en la interfaz.

Q¿Qué método utilizó el desarrollador Andrew Curran para intentar verificar qué modelo estaba realmente en uso?

AEl desarrollador Andrew Curran preguntó directamente al modelo: "¿Cuál es la fecha de corte de tus datos de entrenamiento?". La respuesta fue "Agosto de 2025", que corresponde a la fecha de corte de la versión Instant, no de la versión Thinking (diciembre), lo que indicaba que el sistema estaba ejecutando un modelo diferente al seleccionado.

Q¿Qué patrón de quejas sobre el rendimiento de los modelos de OpenAI se describe en el artículo desde el lanzamiento de GPT-5?

AEl artículo describe un patrón recurrente donde cada nueva versión importante (GPT-5, GPT-5.2, GPT-5.3, GPT-5.4, GPT-5.5) viene acompañada de oleadas de quejas de usuarios sobre una aparente "pérdida de inteligencia" o degradación del rendimiento, a pesar de que OpenAI suele marcar estos incidentes como "resueltos".

QSegún el artículo, ¿qué posible razón sugiere el usuario Lisan al Gaib para explicar estos cambios silenciosos de modelo?

ALisan al Gaib sugiere que la razón principal para estos cambios silenciosos de modelo es el ahorro de costos, argumentando que la presión por la rentabilidad y el alto costo de la capacidad de computación está llevando a la compañía a reducir gastos donde sea posible, incluso a expensas de la experiencia del usuario.

Lecturas Relacionadas

Tres años después: Una revisión de mis predicciones sobre ChatGPT en 2023

Tres años después: Revisando mis predicciones sobre ChatGPT en 2023 En marzo de 2023, tras el lanzamiento de ChatGPT, Wang Jianshuo hizo 20 predicciones intuitivas sobre la IA. Ahora, en mayo de 2026, un sistema con 41 agentes de IA las ha reevaluado con datos actuales. **Resultados clave:** * **Aciertos (dirección general):** La arquitectura RAG se convirtió en estándar para integrar conocimiento. La Interfaz de Usuario de Lenguaje (LUI) creó una nueva capa de interacción (ej. protocolo MCP). Surgieron redes de agentes autónomos que se comunican. China desarrolló modelos grandes útiles (ej. DeepSeek), cerrando la brecha técnica. Los LLM no tienen conciencia; el Test de Turing solo mide la apariencia. * **Errores/Matices:** La predicción de que GPT-4 tendría 100 billones de parámetros fue incorrecta (≈1.8B). Los LLM **sí** pueden hacer matemáticas complejas sin herramientas externas (ej. medallas IMO 2025). El valor no migró solo a la capa de aplicación; NVIDIA (capa de hardware) capturó gran parte. El contenido generado por IA no evade automáticamente los derechos de autor (multas multimillonarias). La IA personalizada crea, no reduce, "cámaras de eco". Los costes de entrenamiento de modelos líderes superaron con creces la estimación de 5-10 mil millones de dólares. **Lecciones aprendidas:** 1. Predecir **mecanismos y direcciones** es más fiable que dar cifras o declaraciones absolutas. 2. Se tiende a **sobreestimar la velocidad** de cambio a corto plazo y **subestimar su magnitud** a largo plazo. 3. Los promedios generales (ej. "no habrá desempleo masivo") pueden ocultar **impactos distributivos** severos (ej. en jóvenes). 4. Las afirmaciones con **matices y limitaciones** envejecen mejor. 5. Tres años no son suficientes para resolver debates fundamentales (ej. valor final, consciencia de la IA). Este ejercicio subraya la dificultad de hacer predicciones precisas en un campo en rápida evolución y la importancia de la humildad al proyectar el futuro.

marsbitHace 3 hora(s)

Tres años después: Una revisión de mis predicciones sobre ChatGPT en 2023

marsbitHace 3 hora(s)

Tres años después: Volviendo a mis juicios sobre ChatGPT en 2023

En marzo de 2023, Wang Jianshuo hizo veinte predicciones sobre ChatGPT. Tres años después, en 2026, un análisis con múltiples agentes de IA evalúa su precisión. Aciertos clave: predijo correctamente el auge de RAG como arquitectura estándar para conocimiento y reducir alucinaciones, la LUI (interfaz de lenguaje natural) como nueva capa de interacción (aunque no reemplaza a la GUI), y la aparición de redes de agentes autónomos con nuevos protocolos de direccionamiento. También acertó en que China desarrollaría modelos de IA útiles (como DeepSeek) cerrando rápidamente la brecha, y en que ChatGPT carece de consciencia real, pasando el test de Turing por mera apariencia. Otras predicciones válidas fueron que no causaría desempleo masivo (aunque afectó a jóvenes), que 2023 sería un gran año para startups de IA, y que el momento fue similar al del navegador web en 1994. Errores notables: su estimación de que GPT-4 tendría 100 billones de parámetros fue incorrecta (tuvo ~1.8 billones). Se equivocó al declarar que era "imposible" que los LLM hicieran matemáticas complejas sin herramientas, ya que luego ganaron medallas en la Olimpiada Internacional de Matemáticas. También erró al sugerir que el valor se capturaría en la capa de aplicación y no en la base, subestimando el dominio de NVIDIA (capa de hardware), y al pensar que el contenido generado por IA "evitaría" problemas de copyright, cuando han surgido multas históricas. Además, la idea de que los LLM promoverían un "consenso mundial" al promediar opiniones se volvió incorrecta, ya que ahora priorizan la personalización y pueden crear nuevas cámaras de eco. Conclusiones: Sus predicciones sobre mecanismos y direcciones fueron mayormente acertadas, pero falló en números específicos (costes, parámetros) y en subestimar la complejidad de la distribución del impacto (ej. quién gana o pierde con la IA). Tendió a ser demasiado optimista a corto plazo pero conservador sobre los límites a largo plazo. El ejercicio subraya la importancia de predecir tendencias en lugar de cifras exactas y de dejar margen para la incertidumbre.

链捕手Hace 5 hora(s)

Tres años después: Volviendo a mis juicios sobre ChatGPT en 2023

链捕手Hace 5 hora(s)

La reducción del 99% en el precio del Xiaomi MiMo no es una estrategia de marketing. Luo Fuli publica en X respondiendo a los pesimistas.

**Resumen: El descenso del 99% de Xiaomi MiMo: Una victoria de la ingeniería, no del marketing** El anuncio de Xiaomi de reducir hasta un 99% el precio de las API de su modelo MiMo-V2.5 generó escepticismo, interpretado como una guerra de precios o una maniobra desesperada. Luo Fuli, responsable de MiMo, respondió con un blog técnico detallado, demostrando que la rebaja es el resultado de seis optimizaciones de ingeniería sistemáticas, no una táctica de marketing. La clave es el descuento del 99% aplicado específicamente a la entrada de tipo "Cache Hit" (contexto histórico re-leído). Para lograrlo, el equipo implementó: 1. **Arquitectura Híbrida SWA:** 60 de las 70 capas del modelo solo atienden a los 128 tokens más recientes, reduciendo el volumen de la "memoria" del modelo (KVCache) a 1/7. 2. **Gestión de Memoria en Dos Piscinas:** Asigna memoria por separado para las capas con atención completa y las de ventana deslizante (SWA), liberando realmente la capacidad ahorrada y quintuplicando los usuarios concurrentes por GPU. 3. **Cache de Prefijos Mejorado:** Un nuevo sistema garantiza que solo se reutilicen fragmentos de contexto completos y válidos, logrando una tasa de acierto en caché del 93-95% para peticiones de usuarios frecuentes. 4. **Almacenamiento en SSD Integrado (GCache):** La caché distribuida se aloja en los discos SSD de las propias máquinas con GPU, eliminando costes adicionales de almacenamiento. 5. **Sistema de Enrutamiento Inteligente (LLM-Router):** Dirige peticiones similares a la misma máquina y prioriza las que aciertan en caché, mejorando el rendimiento y la latencia. 6. **Predicción Multi-Token (MTP):** Acelera la generación de respuestas del modelo prediciendo varios tokens a la vez, reduciendo también el coste de la parte de "salida". En conjunto, estas innovaciones redujeron el tiempo de GPU por petición en más de un orden de magnitud, haciendo posible el descuento del 99% manteniendo márgenes positivos. Luo Fuli subraya que este es un logro de ingeniería sistémica, un modelo de reducción de costes verificable que trasciende la mera competencia por precios.

marsbitHace 8 hora(s)

La reducción del 99% en el precio del Xiaomi MiMo no es una estrategia de marketing. Luo Fuli publica en X respondiendo a los pesimistas.

marsbitHace 8 hora(s)

Trading

Spot
Futuros
活动图片