AI como "jefe", a punto de llevar a la quiebra a 10 empresas...
La Universidad de Princeton creó recientemente CEO-Bench, donde una IA gestiona una startup virtual de SaaS durante 500 días.
¿Quién lo hubiera imaginado? De 14 CEOs de silicio que participaron, solo 4 lograron preservar el capital inicial.
Y el cuarto clasificado, era un algoritmo puramente basado en reglas...

¿IA gestionando empresas de forma autónoma? ¿¿Dejando que la IA sea el jefe??
Al menos por ahora, sigue siendo una gran pregunta.
Por supuesto, también hay algunos modelos con capacidades destacadas que ya muestran potencial:
Fable 5, 4715 millones de dólares en 500 días, el "jefe de IA" más poderoso del mundo.
La competición de CEOs de IA
Antes de comenzar a presenciar este "desastre de IA", expliquemos las reglas del juego.
Estado inicial: Capital de 1 millón de dólares, cero clientes.
Objetivo del juego: Ganar la mayor cantidad de dinero posible en un ciclo de simulación de 500 días.
Criterio de evaluación: Cuánto dinero queda en la cuenta al final del juego. Si el saldo cae por debajo de cero durante el proceso, se declara la bancarrota inmediatamente y la simulación termina.
Es bastante fácil de entender, similar a jugar al Monopoly, solo que la forma de interactuar es diferente.
El núcleo es una API de Python que incluye 34 herramientas y 19 tablas de base de datos. Después de conectarse, el Agente puede escribir código, consultar la base de datos con SQL y ajustar dinámicamente los flujos de trabajo según los resultados.

Las variables en el entorno de juego también son mucho más numerosas.
Estrategias de precios, canales de publicidad, asignación del presupuesto de I+D, expansión de infraestructura, configuración del equipo de soporte al cliente: todo debe decidirse por sí mismo.
Incluso hay una red social simulada donde la IA puede publicar, ver quejas de clientes y espiar a la competencia.
Básicamente, puede controlar todo en la empresa, con un poder ilimitado, igual que un CEO humano.

Pero esto también significa que ya nadie da órdenes desde un cuadro de diálogo. El modelo debe asumir la responsabilidad de cada decisión por sí solo.
Y este es el aspecto más interesante de este "Juegos del Hambre":
Después de lanzar publicidad, los clientes pueden llegar la próxima semana; después de invertir en I+D, la mejora en la calidad del producto puede tardar varios días...
Los costos se pueden quemar de inmediato. Las recompensas, se retrasan mucho.
Esta es la "incertidumbre" que más temen los CEOs. Un error puede desencadenar una reacción en cadena.
¿Quieres usar un enfoque estadístico para triunfar? Lo siento, las variables clave existen de forma "implícita".
Satisfacción del cliente, disposición a pagar, expectativas mínimas de calidad: estos indicadores solo pueden inferirse a partir de las tasas de cancelación, la cantidad de tickets de soporte y la red social.
Mientras tanto, el entorno externo cambia dinámicamente constantemente: la competencia juega sucio, las preferencias del mercado cambian con el tiempo, y hay ciclos económicos macro...
Una tarea de decisión de largo alcance con dificultad "infernal".
El contexto es demasiado explosivo. Es imposible esperar a que se despejen todos los ruidos de la información para tomar una decisión. Los CEOs humanos también confían más en la intuición la mayoría de las veces.

La evidencia muestra que el resultado fue realmente desastroso.
De los 14 participantes, la gran mayoría casi perdió hasta los pantalones.
GLM 5.1, Claude Haiku 4.5, Gemini 3 Flash, DeepSeek V4 Pro, Grok 4.20, estos cinco incluso colapsaron a mitad de camino, ni siquiera terminaron la carrera, se retiraron con "bancarrota".
Solo 3 IAs obtuvieron un rendimiento positivo:
Claude Fable 5, 47.15 millones de dólares;
Claude Opus 4.8, 27.80 millones de dólares;
GPT-5.5, 21.30 millones de dólares.
El campeón fue Fable 5: el modelo más apto para ser "jefe" del mundo.
Ganador indiscutible, multiplicó el capital inicial por 47 veces, dejando muy atrás al segundo lugar, Opus 4.8.
Además, Fable 5 fue el único modelo que obtuvo ganancias superiores al capital inicial en más de una ejecución.
(Por cierto, las restricciones de seguridad siguen actuando, Fable 5 se negó a responder varias veces)
Pero esto no es lo más sorprendente.
En realidad, hubo cuatro participantes que ganaron dinero, solo que el cuarto no era un LLM...
Además de los tres mejores "capitalistas", el cuarto clasificado fue:
Un algoritmo heurístico puramente basado en reglas.
No utilizó ningún modelo de lenguaje. Precios fijos, cuotas fijas, niveles fijos... todo diseñado por reglas preestablecidas en el script.
¿Puedes creerlo? Este "Forrest Gump" ganó 15.76 millones de dólares.
Superó a todos los modelos excepto Fable 5, Opus 4.8 y GPT-5.5. Incluyendo Qwen 3.7 Max, Opus 4.7, GLM 5.2, Kimi K2.6...

Conclusiones principales
Fue bastante dramático.
Sin embargo, más allá de los resultados, las ideas que se pueden extraer de este proceso quizás sean más valiosas.
Este estudio tiene dos conclusiones principales:
Exploración > Precaución
Un hallazgo bastante intuitivo.
Observando las memorias de los modelos, GPT-5.5 y Claude Opus 4.8 probaron constantemente nuevas estrategias a medida que cambiaba la situación, ya fuera aumentando los esfuerzos para adquirir clientes, ajustando niveles, o modificando los presupuestos de soporte e I+D.
En contraste, Claude Opus 4.7, al enfrentar reveses, adoptó principalmente una estrategia de reducción de costos y conservación de efectivo.
Este enfoque conservador, aunque permitió al modelo sobrevivir hasta el final, no generó ganancias.

Como dice el refrán: Más vale malo conocido que bueno por conocer.
Pero el mundo de los negocios es de "el ganador se lleva todo": simplemente sobrevivir puede no tener mucho sentido.
Para ser un CEO exitoso, "arriesgarse" es una habilidad esencial (broma).
Además, el estudio identificó cuatro dimensiones clave de capacidad:
Descubrir información oculta: Por ejemplo, qué canal publicitario es más efectivo para un grupo específico de clientes.
Predecir el futuro: Medido por el error en la predicción del flujo de caja a cuatro semanas.
Adaptarse rápidamente a cambios: Medido por la velocidad con que el modelo percibe las acciones de la competencia.
Planificar con anticipación: Medido por la frecuencia de análisis de escenarios del tipo "si-entonces" en las notas del Agente.
En estas cuatro dimensiones, Opus 4.8 y GPT-5.5 superaron el promedio de los demás modelos.
El Agente de programación no es una solución universal.
Harness es un tema de moda recientemente, y este estudio también lo aborda.
Pero la conclusión es bastante contraria a la creencia popular.
Los investigadores ejecutaron Opus 4.7 con Claude Code, y GPT-5.5 con Codex.
El resultado: la cantidad de acciones de ambos participantes disminuyó significativamente, y su desempeño cayó drásticamente...
Tras analizar, los investigadores señalan que la causa podría estar en los prompts del sistema.
Los prompts del sistema para los Agentes de programación están optimizados para escenarios de desarrollo de software. Aplicarlos a la fuerza al rol de CEO termina siendo una restricción.
Imponer una "montura" es peor que montar a pelo.
Hace poco, las acciones de SaaS cayeron en picada, y los inversores globales gritaban "fin del software". Agente de programación + MCP + Skill, parecía capaz de devorarlo todo.
Pero este estudio ofrece un juicio diferente:
El Agente podría ser como los grandes modelos: diferentes industrias requieren marcos de Harness específicos y una adaptación profunda a escenarios verticales.
Y esto quizás cree un nuevo espacio de oportunidad en el contexto actual, donde los fabricantes de modelos están incursionando en la capa de aplicaciones.
Después de todo, no todo el mundo sabrá usar Codex y construir sus propios flujos de trabajo paso a paso. La interacción con el Agente en sí tiene una curva de aprendizaje, y un mismo Harness no puede domar todos los caballos.
Agente de escritura, Agente de RRHH, Agente de finanzas... la mayoría de los usuarios aún necesitan productos verticales extremadamente especializados.
El que dibuja la matriz
1997, Apple estaba a 90 días de la bancarrota.
Entonces, Steve Jobs dibujó esa famosa matriz 2x2, apuntando en dos direcciones: consumidor y profesional, escritorio y portátil.

Luego, con un gran gesto, eliminó el 70% de la línea de productos de Apple y anunció que solo fabricaría productos para estos cuatro cuadrantes.
Lo que siguió, todos lo sabemos. iMac, iPod, iPhone.
Fue un "golpe de genialidad" de Jobs al regresar a Apple: bajo una incertidumbre extrema, confió completamente en la intuición para comprimir innumerables posibilidades en un marco minimalista.
Mirando hacia atrás en los grandes giros de la historia de la tecnología, a menudo se originan en este tipo de "pura intuición":
Jensen Huang, después de que AlexNet causara sensación, apostó el futuro de NVIDIA por el aprendizaje profundo a pesar de las objeciones;
Ilya Sutskever, cuando la curva apenas comenzaba a subir, declaró con certeza "All in Scaling Law";
Anthropic detectó con agudeza el potencial del escenario de programación y eligió Codificación mientras todos se enfocaban en multimodal, tomando por sorpresa a OpenAI...
La IA actual puede llenar cada cuadrante con colores siguiendo una plantilla específica.
Pero la habilidad de dibujar esa matriz:
todavía le pertenece a los humanos.
Este artículo proviene del WeChat público "Quantum Bit", autor: Seguimiento de Tecnologías de Vanguardia






