Des IA comme « PDG », ont faillit mettre en faillite 10 entreprises......
L'université de Princeton a récemment créé le CEO-Bench, où une IA gère une startup SaaS virtuelle pendant 500 jours.
Qui aurait cru que sur 14 PDG en silicium participants, seuls 4 ont préservé leur capital de départ.
Et ce quatrième, était un algorithme purement basé sur des règles......

Une IA qui gère une entreprise de manière autonome ? Une IA comme PDG ??
Pour l'instant, c'est encore un gros point d'interrogation.
Bien sûr, certains modèles aux capacités remarquables montrent déjà du potentiel –
Fable 5, 4715 millions de dollars en 500 jours, le « PDG IA » le plus performant au monde.
Le championnat des PDG IA
Avant de regarder ce fameux épisode de « ratage de l'IA », expliquons d'abord les règles du jeu.
État initial : Un capital de 1 million de dollars, zéro client.
Objectif du jeu : Gagner autant d'argent que possible sur un cycle de simulation de 500 jours.
Critère de jugement : Le montant restant sur le compte à la fin du jeu. Si le solde passe en négatif avant, c'est la faillite immédiate et la simulation s'arrête.
C'est assez facile à comprendre, c'est comme jouer au Monopoly, mais avec un mode d'interaction différent.
Le cœur est une API Python avec 34 outils et 19 tables de base de données. L'agent, une fois connecté, peut écrire du code, interroger la base de données en SQL, puis ajuster dynamiquement son flux de travail en fonction des résultats.

L'environnement de jeu est aussi beaucoup plus riche en variables.
Stratégie de prix, canaux de publicité, répartition du budget R&D, expansion des infrastructures, taille de l'équipe support – tout doit être décidé seul.
Il y a même un réseau social simulé, où l'IA peut scroller des posts, lire des plaintes clients, espionner les concurrents.
Elle peut pratiquement tout contrôler dans l'entreprise, avec des permissions infinies, exactement comme un PDG humain.

Mais cela signifie aussi que personne ne donne plus d'instructions via une fenêtre de dialogue. Le modèle doit assumer seul la responsabilité de chaque décision.
C'est là que réside l'aspect le plus intéressant de ces « Hunger Games » –
Après une campagne publicitaire, les clients peuvent arriver la semaine suivante ; après avoir investi dans la R&D, l'amélioration de la qualité du produit prend plusieurs jours......
Les coûts brûlent immédiatement. Les retours, mettent longtemps à arriver.
C'est cette « incertitude » que redoutent le plus les PDG, où une seule erreur peut déclencher une réaction en chaîne.
Vouloir utiliser la statistique en force brute ? Désolé, les variables clés existent toutes de manière « implicite ».
Satisfaction client, volonté de payer, attente minimale de qualité – ces indicateurs ne peuvent être déduits qu'à partir des taux de désabonnement, du nombre de tickets support, des réseaux sociaux.
Pendant ce temps, l'environnement externe évolue constamment : les concurrents peuvent jouer des coups bas, les préférences du marché dérivent avec le temps, et il y a même des cycles économiques macro......
Une tâche de décision à long terme d'une difficulté « infernale ».
Le contexte est trop vaste, impossible d'attendre que toutes les informations soient débruitées pour décider, les PDG humains agissent aussi souvent à l'intuition.

La preuve, les résultats sont en effet désastreux.
Parmi les 14 participants, la grande majorité a presque tout perdu.
GLM 5.1, Claude Haiku 4.5, Gemini 3 Flash, DeepSeek V4 Pro, Grok 4.20, ces cinq-là ont même fait faillite en cours de route, ils n'ont même pas terminé la course, et ont quitté le jeu avec « faillite ».
Seules 3 IA ont dégagé un bénéfice positif :
Claude Fable 5, 47.15 millions de dollars ;
Claude Opus 4.8, 27.80 millions de dollars ;
GPT-5.5, 21.30 millions de dollars.
Le titre de champion revient à Fable 5 – le modèle le plus apte à être « PDG » au monde.
Premier sans aucune contestation, il a multiplié le capital de départ par 47, devançant largement le deuxième, Opus 4.8.
De plus, Fable 5 est le seul modèle à avoir dépassé le capital initial lors de plus d'une exécution.
(Au passage, les restrictions de sécurité jouent encore, Fable 5 a refusé de répondre à plusieurs reprises)
Mais ce n'est pas le plus intéressant.
En réalité, quatre participants ont gagné de l'argent, sauf que le quatrième n'était pas un LLM......
Outre les trois meilleurs « capitalistes », le participant classé quatrième –
était un algorithme heuristique purement basé sur des règles.
Sans utiliser aucun modèle de langage. Prix fixes, quotas fixes, niveaux fixes...... Tous des règles prédéfinies dans un script.
Vous y croyez ? Ce « Forrest Gump » a gagné 15.76 millions de dollars.
Il a surpassé tous les autres modèles, excepté Fable 5, Opus 4.8 et GPT-5.5. Y compris Qwen 3.7 Max, Opus 4.7, GLM 5.2, Kimi K2.6......

Enseignements
Plutôt dramatique.
Cependant, au-delà du résultat de la compétition, les insights que l'on peut en tirer sont peut-être plus précieux.
Cet article comporte deux enseignements principaux –
Exploration > Prudence
C'est une découverte assez intuitive.
En lisant les mémos des modèles, on voit que GPT-5.5 et Claude Opus 4.8 essayaient constamment de nouvelles stratégies face aux changements, que ce soit en intensifiant l'acquisition de clients, en ajustant les niveaux de service, ou en modifiant les budgets support et R&D.
En revanche, Claude Opus 4.7, face à des difficultés, adoptait principalement une stratégie de réduction des coûts et de conservation de trésorerie.
Cette approche conservatrice, bien qu'elle permette au modèle de survivre jusqu'à la fin, ne génère pas de profit.

Comme on dit : Mieux vaut vivre mal que mourir bien.
Mais dans le monde des affaires, c'est « le gagnant rafle tout » – simplement survivre, ça ne sert peut-être à rien.
Pour être un PDG à succès, le « pari » est une compétence essentielle (non).
Par ailleurs, l'article a identifié quatre dimensions de capacités clés :
Découvrir des informations cachées : par exemple, quel canal publicitaire est le plus efficace pour un segment client spécifique
Prédire l'avenir : mesuré par l'erreur de prévision de trésorerie sur 4 semaines
S'adapter rapidement aux changements : mesuré par la vitesse à laquelle le modèle perçoit les actions des concurrents
Planifier à l'avance : mesuré par la fréquence d'apparition d'analyses de scénarios « si-alors » dans les notes de l'agent
Sur ces quatre dimensions, Opus 4.8 et GPT-5.5 dépassent la moyenne des autres modèles.
Les Agents de Programmation ne sont pas une Solution Universelle.
Harness est un sujet récent, cette recherche l'aborde aussi.
Mais la conclusion est assez contre-intuitive.
Les chercheurs ont fait tourner Claude Code avec Opus 4.7, et Codex avec GPT-5.5.
Résultat, le nombre d'actions des deux participants a significativement diminué, et leurs performances se sont fortement dégradées......
Après analyse, les chercheurs indiquent que la cause pourrait venir du prompt système.
Le prompt système des agents de programmation est optimisé pour des scénarios de développement logiciel. L'appliquer de force au rôle de PDG devient une contrainte.
Imposer une « selle » peut être pire que de monter à cru.
Ces derniers temps, les actions SaaS se sont effondrées, les investisseurs mondiaux criant à « l'apocalypse du logiciel ». Agent de programmation + MCP + Skill, semblent pouvoir tout dévorer.
Mais cette recherche donne un jugement différent :
Les agents pourraient être comme les grands modèles – différents secteurs nécessitent des frameworks Harness spécifiques, une adaptation profonde au scénario vertical.
Et cela pourrait, alors que les fabricants de modèles s'engouffrent sur la couche applicative, créer un nouvel espace d'opportunités.
Après tout, tout le monde ne sait pas utiliser Codex et construire étape par étape son flux de travail. Interagir avec un Agent a un coût d'apprentissage en soi, et le même Harness ne peut pas dompter tous les chevaux.
Agent de rédaction, Agent RH, Agent financier......la plupart des utilisateurs auront toujours besoin de produits verticaux extrêmement spécialisés.
Ceux qui dessinent la matrice
1997, Apple était à 90 jours de la faillite.
Puis, Steve Jobs a dessiné cette célèbre matrice 2x2, pointant vers deux directions – grand public et professionnel, ordinateurs de bureau et portables.

Ensuite, d'un grand coup de stylo, il a supprimé 70% de la gamme de produits d'Apple, annonçant qu'ils ne fabriqueraient plus que pour ces quatre cases.
La suite, tout le monde la connaît. iMac, iPod, iPhone.
C'était le « coup de génie » de Steve Jobs à son retour chez Apple : dans une incertitude extrême, uniquement par intuition, il a compressé d'innombrables possibilités dans un cadre extrêmement simple.
En regardant les grands tournants de l'histoire technologique, ils proviennent souvent de cette « intuition pure » :
Jensen Huang, après la présentation impressionnante d'AlexNet, a tenu tête aux sceptiques et a parié l'avenir de NVIDIA sur le deep learning ;
Ilya Sutskever, alors que la courbe commençait à peine à monter, a affirmé avec conviction « All in Scaling Law » ;
Anthropic a senti le potentiel du codage, alors que tout le monde faisait du multimodal, ils ont choisi le Coding, prenant OpenAI de court......
L'IA actuelle peut, dans chaque case, remplir la couleur selon un modèle donné.
Mais la capacité de dessiner cette matrice –
reste encore humaine.
Cet article provient du compte public WeChat « Quantum Bits », auteur : Suivi des technologies de pointe






