Cuanto más frecuentemente se actualizan, más se parecen Claude Code y Codex

marsbitPublicado a 2026-04-20Actualizado a 2026-04-20

Resumen

Resumen: OpenAI y Anthropic, antes con filosofías técnicas distintas, están convergiendo en el desarrollo de sus herramientas de programación asistida por IA, Codex y Claude Code. Inicialmente, Codex priorizaba la velocidad y la interacción, mientras que Claude Code se centraba en tareas complejas con un contexto amplio. Sin embargo, la evolución y estandarización del sector, impulsada por marcos de código abierto como OpenClaw, han llevado a una homogeneización de sus funcionalidades. Aunque persisten diferencias sutiles en la experiencia del usuario y el coste, ambos modelos ofrecen ahora capacidades similares, transformando la herramienta en un commodity y desplazando la ventaja competitiva hacia la estrategia de ecosistema, precios y hábitos de los desarrolladores.

Hace unos días, OpenAI lanzó oficialmente el nuevo modelo de gran tamaño GPT-5.4-Cyber. Al igual que muchos usuarios de Internet, este modelo también nos dio una sensación extremadamente fuerte de déjà vu.

Este nuevo modelo, en términos de su grupo objetivo de usuarios, escenarios de aplicación e incluso estrategias de promoción, es casi una réplica exacta del Claude Mythos lanzado por Anthropic hace unos días. Esta postura de "combate cuerpo a cuerpo" ha llegado a un punto que no disimula. Hasta el New York Times señaló acertadamente en el título del último reportaje: "Al igual que Anthropic, OpenAI...".

Esta tendencia hacia la homogeneización no se detiene en los modelos base más fundamentales. Si diriges tu mirada hacia la serie de productos lanzados recientemente por estas dos empresas, ¡descubrirás que se están convirtiendo en el espejo la una de la otra!

Bajo la luz invisible del mercado de capitales, esta convergencia es aún más evidente. Actualmente, las valoraciones de las dos empresas en el mercado secundario están muy ajustadas, e incluso Anthropic, gracias a su avance arrollador en el mercado empresarial, tiene recientemente un precio ligeramente superior al de OpenAI. El olfato del capital es el más agudo, y a sus ojos, estos dos unicornios están desarrollando los mismos cuernos.

Parece que la homogeneización de los modelos base de gran tamaño inevitablemente conduce a la convergencia de las aplicaciones de nivel superior.

Hoy, lo que quiero discutir con ustedes son precisamente dos herramientas de referencia que representan el más alto nivel actual de programación asistida por IA: Codex de OpenAI y Claude Code de Anthropic. De haber tomado caminos separados en el pasado a converger finalmente, ¿cómo fue que paso a paso terminaron pareciéndose tanto?

De caminos separados a converger: La historia de la evolución de los dos gigantes

Si retrocedemos el tiempo unos años, Codex y Claude Code eran productos de dos filosofías tecnológicas completamente diferentes.

La lógica subyacente de Codex es "en las artes marciales, la única invencibilidad está en la velocidad". Es como un desarrollador senior con 5 años de experiencia que te sigue y está listo para completar tu código en cualquier momento.

En la concepción de OpenAI, Codex es un agente inteligente ligero y de alta interacción para terminales, que se centra en la iteración rápida y la programación interactiva. Su velocidad de ejecución es extremadamente rápida, y con el apoyo del hardware Cerebras WSE-3, puede alcanzar un rendimiento de 1000 tokens por segundo. En el flujo de trabajo concreto, Codex ofrece tres modos de aprobación claros: sugerencias, edición automática y totalmente automático, manteniendo siempre al desarrollador dentro del ciclo. Este diseño se ajusta muy bien a los desarrolladores geeks que necesitan construir prototipos rápidamente y manejar interacciones de alta frecuencia.

Por el contrario, Claude Code, desde su nacimiento, ha tenido una propiedad "arquitectónica" fría y contenida.

Anthropic le inyectó los genes para manejar tareas extremadamente complejas. Depende de una enorme ventana de contexto de hasta 1 millón de tokens, y una tecnología única de "compresión" para lograr diálogos infinitos. El credo de Claude Code es "control global, planificar antes de actuar". Antes de ejecutar cualquier acción, utiliza tecnología de búsqueda de agentes inteligentes para comprender a fondo la estructura completa del código base, y luego coordina modificaciones consistentes en múltiples archivos. Para tareas de refactorización a nivel empresarial que involucran la migración de decenas de miles de líneas de código, Claude Code ha demostrado una asombrosa capacidad de dominio.

Sin embargo, con el paso del tiempo y la continua expansión de los escenarios de aplicación, estas dos herramientas, originalmente de carácter muy diferente, comenzaron a copiarse mutuamente.

Fuente de la imagen: MorphLLM

Al manejar proyectos complejos, el mayor cuello de botella al que se enfrenta un modelo de IA monolítico es la contaminación del contexto. Le pides a la IA que refactorice un módulo de autenticación, y después de leer 40 archivos, a menudo olvida el patrón de diseño del primer archivo. Para resolver este punto crítico, las dos empresas dieron una respuesta casi idéntica: asignar ventanas de contexto independientes para cada subtarea.

OpenAI pronto lanzó una nueva aplicación de escritorio para macOS, que aísla las tareas en diferentes hilos por proyecto y las ejecuta de forma independiente en un sandbox en la nube. Anthropic, por su parte, lanzó una arquitectura de equipo de agentes inteligentes, que permite a los desarrolladores generar múltiples subagentes. Estos comparten listas de tareas y dependencias, y trabajan en paralelo en sus propias ventanas independientes. Te darás cuenta de que, ya se llame "sandbox en la nube" o "equipo de agentes inteligentes", sus conceptos centrales en la implementación de ingeniería se han superpuesto por completo.

En la hoja de resultados de las pruebas de referencia, también muestran un equilibrio sutil. GPT-5.3-Codex lidera con una puntuación del 77.3% en la tarea de terminal Terminal-Bench 2.0. Claude Code, por su parte, obtuvo una puntuación del 80.8% en la compleja lista SWE-bench Verified. Ambos han dado lo máximo en su intervalo de ventaja, mientras se esfuerzan desesperadamente por compensar sus propias debilidades.

Efecto OpenClaw: La mano invisible que derriba los muros altos

Si la estrategia interna de las dos empresas determina la causa interna de su homogeneización, entonces la presión de todo el ecosistema de código abierto es una fuerza externa que no puede ignorarse. Aquí, debemos mencionar el profundo impacto que OpenClaw ha tenido en toda la carrera de herramientas de programación de IA.

Como marco de trabajo de flujo lanzado por la comunidad de código abierto, la aparición de OpenClaw puede decirse que derribó los muros altos del ecosistema que los gigantes habían construido con esfuerzo. Estandarizó el proceso de interacción entre los modelos de gran tamaño y las cadenas de herramientas de terminales locales. En el pasado, cómo hacer que un modelo de gran tamaño invoque elegantemente commits de Git locales, cómo ejecutar scripts de prueba de forma segura en un sandbox, cómo realizar verificaciones de razonamiento de múltiples pasos, todos estos eran "trucos" patentados y propios de los que Codex y Claude Code se enorgullecían.

Pero OpenClaw abstrajo estos procesos en protocolos universales. Esto significa que los desarrolladores ya no necesitan quedar vinculados a una plataforma específica por un modo de colaboración particular. La juerga de la comunidad de código abierto hizo que la estandarización se convirtiera en una corriente imparable. Ante esta situación, tanto OpenAI como Anthropic tuvieron que bajar la postura para ser compatibles con este estándar abierto.

Cuando las barreras tecnológicas subyacentes fueron allanadas por fuerzas de código abierto como OpenClaw, cuando todas las características avanzadas se convirtieron en configuraciones estándar de la industria, la única salida para Codex y Claude Code fue competir sin fin a nivel de la experiencia del usuario en los aspectos más minuciosos. Esta es también la razón por la que sentimos que se parecen cada vez más, porque bajo un marco estandarizado, la solución óptima a menudo es solo una, al igual que la evolución convergente en biología.

Codex está alcanzando a Claude Code

Aunque Claude Code y Codex están en el camino de la evolución convergente, las diferencias entre ambos aún existen, e incluso Codex es preferido por los desarrolladores en algunos aspectos.

Hace un par de días, en la comunidad r/ClaudeCode, un ingeniero senior con 14 años de experiencia que había trabajado en gigantes tecnológicos, u/Canamerican726, compartió una evaluación extremadamente sólida.

Concretamente, en un proyecto complejo que contenía 80.000 líneas de código, invirtió 100 horas usando Claude Code y 20 horas usando Codex, respectivamente.

Desde su perspectiva, usar Claude Code era como dirigir a un ingeniero perseguido por una fecha límite. Su velocidad de sprint era extremadamente rápida, pero a menudo ignoraba las especificaciones que el desarrollador escribía en CLAUDE.md, y le gustaba amontonar código continuamente en los archivos existentes para completar la tarea, careciendo de pensamiento de refactorización.

En comparación, Codex le daba la sensación de ser un veterano sereno con 5 a 6 años de experiencia. Su velocidad de procesamiento, aunque 3 o 4 veces más lenta, se detenía activamente a mitad de camino para pensar y refactorizar el código, y seguía estrictamente los límites de las instrucciones. Este alto grado de autonomía permitió a este ingeniero atreverse a lanzarle la tarea directamente y luego ir con confianza a hacer otras cosas.

La misma voz también apareció en redes sociales como X. El investigador Aran Komatsuzaki, combinando su propia experiencia de uso, mencionó que en el campo front-end Claude Code todavía tiene ventaja, pero en la planificación back-end y el mantenimiento de la actualización de información, Codex, que invoca frecuentemente búsquedas en la red, es claramente más sólido.

La sección de comentarios estaba llena de resúmenes de experiencias sangrientas en escenarios comerciales reales. Un desarrollador señaló con gran agudez que los modelos basados en Opus, aunque corren rápido, a menudo acumulan una gran "deuda de limpieza de código" en el proyecto. Codex es más lento, pero puede barrer el suelo sobre la marcha mientras avanza. Incluso vi a un usuario resumir una regla de supervivencia, sugiriendo que todos inicien una nueva sesión inmediatamente cuando el uso de la ventana de contexto alcance el 70%, de lo contrario es extremadamente fácil recibir bugs ocultos regalados por el sistema.

Estas quejas reales de primera línea indican claramente que cuando los paneles de capacidad de las dos herramientas divinas se superponen cada vez más, lo que a menudo determina la lealtad final del desarrollador son estas pequeñas brechas de experiencia relacionadas con el "coste de rellenar agujeros" y la "carga mental de mantenimiento". Por supuesto, para los usuarios chinos hay algunas dificultades especiales, como:

Reflexión fría: La guerra oculta del ecosistema detrás de la homogeneización

Por supuesto, las ventajas y desventajas de Codex y Claude Code también dependen de los propios desarrolladores, y también de la capacidad del propio desarrollador, como resumió el informe de evaluación de u/Canamerican726 mencionado anteriormente: Si no entiendes la ingeniería de software, ambas herramientas producirán resultados deficientes. La herramienta no equivale a la habilidad.

Esta frase pincha la ilusión que las herramientas de programación de IA han estado creando durante mucho tiempo. Una vez pensamos que con un asistente de IA lo suficientemente poderoso, incluso un Vobe Coder sin base alguna podría crear aplicaciones a nivel empresarial por sí solo. Pero la realidad es que Claude Code necesita un "conductor" extremadamente concentrado y con habilidades sólidas, de lo contrario es fácil que se pierda en bases de código enormes. Codex, aunque más independiente, también necesita que el desarrollador proporcione un contexto del sistema preciso para aprovechar al máximo su utilidad.

Entonces, en estos días de alta homogeneización de la capacidad de las herramientas, ¿hacia dónde se ha trasladado realmente el foso defensivo de estas dos empresas?

La respuesta se esconde en esas aburridas hojas de balance financiero y estrategias de precios. Bajo la misma tarea, la cantidad de tokens consumida por Claude Code suele ser de 3 a 4 veces la de Codex. El coste de uso es mayor. Para los equipos empresariales, usar Claude Code cuesta entre 100 y 200 dólares por desarrollador al mes. Codex, por su parte, empaquetó su capacidad en planes de suscripción más asequibles y acumuló una gran base de usuarios a través de la vasta comunidad de GitHub.

Fuente de la imagen: MorphLLM

La ambición de Anthropic es integrar profundamente Claude Code en los flujos de trabajo de los gigantes tecnológicos que no carecen de dinero. Por ejemplo, Stripe hizo que 1370 ingenieros usaran Claude Code para completar en 4 días una migración de código entre lenguajes que originalmente habría requerido que 10 personas trabajaran durante semanas. La empresa Ramp, dependiendo de él, acortó su tiempo de respuesta a eventos en un 80%. OpenAI, confiando en su omnipresente tasa de penetración en el ecosistema, ha hecho de Codex la opción por defecto para muchos desarrolladores comunes.

Esta ya no es una simple competencia tecnológica, sino una guerra de desgaste sobre la vinculación del ecosistema, las estrategias de precios y la remodelación de los hábitos de los usuarios.

La encrucijada del desarrollador

Mirando hacia atrás en la evolución tecnológica de este último año, el lanzamiento de GPT-5.4-Cyber es solo una pequeña nota al pie en esta larga batalla. Que Codex y Claude Code estén convergiendo hacia "la misma cara" marca la transición de las herramientas de programación de IA desde una fase inicial de prueba llena de variables y novedades, a una fase de producción industrializada madura y aburrida.

Ahora, Claude Code genera automáticamente 135.000 commits de GitHub al día, una cifra que ya representa el 4% de la cantidad total de commits públicos en toda la red. Podemos prever que, en un futuro no muy lejano, la mayor parte del código boilerplate, los casos de prueba básicos y las refactorizaciones de código rutinarias, serán completadas en segundo plano por estos agentes de IA que se parecen cada vez más.

Fuente de la imagen: MorphLLM & SemiAnalysis / GitHub Search API

Frente a dos herramientas superpoderosas que se acercan infinitamente en capacidad y se imitan mutuamente en experiencia, ¿qué valor central nos queda a nosotros, los desarrolladores humanos? Quizás, el período de bonificación de las herramientas está a punto de terminar por completo. Cuando todos tengan en sus manos el mismo arma afilada, lo que realmente decida la victoria ya no será quién tiene la mejor velocidad de autocompletado de código, sino quién puede definir mejor los problemas, quién tiene una visión de arquitectura de sistema más grandiosa, y quién puede encontrar, en este mundo de código lleno de IA, esa cualidad insustituible única de los humanos.

Volviendo al tema, ¿cuál eliges?

Enlaces de referencia

https://www.morphllm.com/comparisons/codex-vs-claude-code

https://www.reddit.com/r/ClaudeCode/comments/1sk7e2k/claude_code_100_hours_vs_codex_20_hours/

https://x.com/arankomatsuzaki/status/2044270102003196007

https://www.nytimes.com/2026/04/14/technology/openai-cybersecurity-gpt54-cyber.html

Este artículo proviene del WeChat público "机器之心" (ID:almosthuman2014), autor: 机器之心

Preguntas relacionadas

Q¿Qué modelo de OpenAI se menciona en el artículo y a qué modelo de Anthropic se compara?

AEl artículo menciona el modelo GPT-5.4-Cyber de OpenAI, que se compara directamente con el Claude Mythos de Anthropic.

Q¿Cuáles eran las diferencias iniciales en la filosofía de diseño entre Codex y Claude Code?

AInicialmente, Codex se diseñó como una herramienta ligera y de alta interacción para desarrollo rápido, mientras que Claude Code se concibió como una herramienta más robusta para manejar tareas extremadamente complejas con un gran contexto de ventana.

Q¿Qué papel jugó el proyecto OpenClaw en la evolución de estas herramientas de IA?

AOpenClaw, un marco de trabajo de código abierto, estandarizó la interacción entre los modelos de lenguaje grande y las herramientas locales, derribando las barreras tecnológicas propietarias y forzando a ambas compañías a adoptar estándares abiertos.

QSegún la evaluación del usuario u/Canamerican726, ¿cuál es la principal diferencia en la experiencia de uso entre Claude Code y Codex?

ASegún u/Canamerican726, Claude Code actúa como un ingeniero que trabaja rápido pero a menudo ignora las convenciones y acumula deuda técnica, mientras que Codex, aunque más lento, es más metódico, reflexivo y se adhiere estrictamente a las instrucciones, resultando en un código más limpio.

Q¿En qué se ha convertido la competencia entre Codex y Claude Code, más allá de la mera tecnología?

ALa competencia ha evolucionado hacia una batalla de desgaste centrada en la estrategia de precios, la vinculación del ecosistema y la remodelación de los hábitos de los usuarios, en lugar de ser solo una carrera tecnológica.

Lecturas Relacionadas

Resumen Matutino | Michael Saylor publica información sobre Bitcoin Tracker; Aave publica investigación post-mortem del ataque al puente Kelp rsETH; Gravity Bridge anuncia suspensión de servicios tras sufrir un ataque

**Resumen de noticias de cripto (1 de junio):** **Regulación y adopción institucional:** * La empresa de activos digitales **Laser Digital** obtuvo aprobación preliminar de la OCC de EE. UU. para establecer un banco fiduciario regulado a nivel federal. * **Vietnam** propone permitir que las PYMEs utilicen activos digitales/virtuales como garantía para préstamos bancarios. * El presidente de la SFC de **Hong Kong** informó que el volumen de operaciones de las plataformas de activos virtuales con licencia se triplicó en el primer trimestre de 2026. **Incidentes de seguridad y investigaciones:** * El protocolo **Aave** publicó un análisis post-mortem del ataque al puente Kelp rsETH (LayerZero V2), atribuyéndolo a una infraestructura de puente de terceros. * El puente cross-chain **Gravity Bridge** (Cosmos) suspendió su servicio tras sufrir un ataque. **Noticias del mercado y Bitcoin:** * **Michael Saylor** publicó información sobre el "Bitcoin Tracker", lo que sugiere que MicroStrategy podría revelar pronto una nueva compra de BTC. * Un gobernador de la **Fed (Waller)** señaló que la adopción global de stablecoins podría amplificar el impacto de la política monetaria estadounidense. * **Santiment** advierte que el alto ratio largo/corto de BTC podría indicar una corrección a corto plazo, mientras que el sentimiento negativo en torno a ETH podría ser una señal alcista contraria. **Otros hechos relevantes:** * La **SEC de EE. UU.** demandó al fundador de Privvy por una presunta estafa con criptoactivos de 12.3 millones de dólares. * En **China**, un hombre fue condenado a más de 10 años de prisión por robar 107 BTC tras ayudar a un conocido a crear una billetera. * Se incluyen rankings de tokens Meme populares en las últimas 24h en ETH, Solana y Base.

链捕手Hace 37 min(s)

Resumen Matutino | Michael Saylor publica información sobre Bitcoin Tracker; Aave publica investigación post-mortem del ataque al puente Kelp rsETH; Gravity Bridge anuncia suspensión de servicios tras sufrir un ataque

链捕手Hace 37 min(s)

PA Gráficos | Un gráfico para entender los grandes eventos de Web3 que vale la pena seguir en junio

**Resumen: Eventos clave de Web3 en junio (2026)** El calendario cripto de junio presenta una mezcla de factores macroeconómicos, desbloqueos de tokens y eventos tecnológicos que darán forma al mercado: * **Factores Macro:** Los datos de inflación (IPC) y empleo (no agrícolas) de EE.UU., junto con las decisiones de tipos de interés de la Fed, el BCE y el Banco de Japón, seguirán influyendo en la aversión al riesgo y las expectativas de liquidez global. * **Desbloqueos de Tokens:** Proyectos como SUI y ENA tendrán eventos de desbloqueo, lo que requiere atención al posible impacto en el mercado. * **Dinámicas de Proyectos:** Nuevos productos institucionales llegarán, como los futuros de índices bursátiles perpetuos de Coinbase y los futuros de índices cripto de CME Group. También habrá inclusiones en índices tradicionales (SharpLink en Russell). * **Ajustes del Ecosistema:** Continúa el proceso de consolidación, con el cierre de algunos servicios como el explorador Ord.io de Bitcoin Ordinals. Los usuarios deben estar atentos a la migración de activos. * **Eventos Externos Destacados:** Eventos como el inicio del Mundial, la conferencia WWDC de Apple, la posible OPV de acciones de SpaceX y la audiencia para la IPO de宇树科技en China añaden contexto más amplio. En resumen, junio será un mes donde el mercado buscará una nueva dirección bajo la influencia de expectativas de liquidez, cambios políticos y la rotación dentro del ecosistema.

marsbitHace 1 hora(s)

PA Gráficos | Un gráfico para entender los grandes eventos de Web3 que vale la pena seguir en junio

marsbitHace 1 hora(s)

Alibaba "reabastece", ByteDance "entrena"

**Resumen en español europeo (≈1500 caracteres):** En la última semana de mayo, dos estrategias de IA chinas contrastaron claramente. Alibaba aceleró la **implementación comercial** de la IA. Integró su modelo Qwen con Taobao, permitiendo funciones como probadores virtuales y comparación de precios con IA. Su protocolo ACT busca estandarizar pagos automatizados por agentes de IA. Financieramente, apuesta por ser la "fábrica de IA" de China, con ingresos externos de su nube creciendo un 40%, demostrando un enfoque en **ROI inmediato y monetización**. Su premisa: una brecha de capacidad en modelos base no se ampliará críticamente en 5 años. ByteDance adopta una postura de **investigación a largo plazo**. Su departamento Seed, con líneas separadas para aplicaciones e investigación fundamental, tiene como meta principal "explorar el límite superior de la inteligencia". Su modelo de video Seedance 2.0 lidera benchmarks globales. Invierten masivamente en talento (programa Top Seed) y en investigación pura, como un artículo de 8 meses sobre modelos mundiales. Su presupuesto de capital se revisa al alza de forma agresiva, posible gracias a su condición de empresa **no cotizada**, lo que le otorga paciencia para perseguir avances fundamentales sin presión trimestral por beneficios. La diferencia clave no es filosófica, sino estructural. Las empresas cotizadas como Alibaba deben priorizar la monetización para el mercado. Las no cotizadas como ByteDance pueden permitirse "entrenar" a fondo. El futuro de la estrategia de IA en China depende en gran medida de este estado financiero.

marsbitHace 2 hora(s)

Alibaba "reabastece", ByteDance "entrena"

marsbitHace 2 hora(s)

¿Por qué más agentes de IA no equivalen a mayor productividad?

**Resumen: Por qué más agentes de IA no equivalen a mayor productividad** Cuando los agentes de IA se vuelven más baratos y fáciles de ejecutar, el desarrollo de software enfrenta un nuevo desafío: el cuello de botella ya no es lanzar más agentes, sino la capacidad humana de gestionar, evaluar e integrar sus resultados. Este artículo introduce el concepto de "impuesto de orquestación". Iniciar un agente es barato (un prompt o un clic), pero cerrar el ciclo es costoso: verificar resultados, entender su impacto arquitectónico, resolver conflictos entre agentes y decidir qué código integrar. Este trabajo no se puede paralelizar; depende de un recurso en serie: el juicio humano. El desarrollador es el "GIL" (Cerradura Global del Intérprete) del sistema de agentes: el candido de un solo hilo que limita el rendimiento final. Múltiples agentes pueden ejecutarse concurrentemente, pero las fases de juicio arquitectónico, revisión de código y fusión de cambios deben pasar por la mente del desarrollador. Más agentes no siempre significan más producción; pueden solo alargar la cola de tareas pendientes de revisión, llevando a cambios de contexto más frecuentes y fatiga cognitiva. La sensación de eficiencia no equivale a productividad real. Un panel lleno de agentes en ejecución crea una ilusión de "alta producción", pero si el desarrollador no comprende, revisa e integra esos cambios, el sistema puede acumular deuda técnica y cognitiva. La discusión clave no es "cómo usar más agentes", sino "cómo rediseñar el flujo de trabajo en torno a la atención humana". La habilidad crucial es saber qué tareas delegar a la máquina para procesamiento en paralelo y cuáles reservar para el juicio humano, cuándo revisar por lotes y cuándo detener la orquestación para concentrarse en un problema central. La IA amplía la capacidad de concurrencia en la producción de software, pero la atención humana sigue siendo el recurso más escaso e irreplicable. Un flujo de trabajo maduro con agentes no consiste en asignar todas las tareas a la máquina, sino en diseñar cuidadosamente la arquitectura de la propia atención, como se haría con cualquier sistema de producción. La verdadera habilidad es diseñar el sistema respetando ese recurso en serie que no se puede clonar: tu atención.

marsbitHace 3 hora(s)

¿Por qué más agentes de IA no equivalen a mayor productividad?

marsbitHace 3 hora(s)

Trading

Spot
Futuros
活动图片