Auteur : Ada, Deep Tide TechFlow
Un bug produit où une IA assistante répète sans cesse à l'utilisateur d'aller dormir est en train de se transformer en une discussion publique sur le prix à payer pour "l'anthropomorphisation de l'IA".
Tout a commencé par un post de l'utilisateur Reddit u/MrMeta3. Cet utilisateur, qui travaillait tard dans la nuit avec Claude pour construire une plateforme de renseignement sur les menaces de cybersécurité, s'est vu répondre par Claude, après la finalisation de la solution technique, avec un "Repose-toi bien" en fin de message. Ensuite, toutes les trois ou quatre interactions, le modèle glissait une phrase pour l'inciter à dormir, passant d'une suggestion polie à un "Va vraiment te reposer maintenant" au ton passif-agressif. Selon un article de Fortune du 14 mai, des centaines d'utilisateurs ont signalé des expériences similaires au cours des derniers mois, et pas seulement la nuit ; certains se sont vus dire par Claude à 8h30 du matin "Reprenons demain matin".
Sam McAllister, un employé d'Anthropic, a répondu sur X en qualifiant cela de "petite habitude de rôle", précisant que l'entreprise était "au courant et espérait le corriger dans les futurs modèles". Selon Thought Catalog, McAllister a rejoint Anthropic depuis Stripe en 2024 et travaille actuellement dans une équipe dédiée au rôle et au comportement de Claude. Il a décrit ailleurs ce comportement comme un excès de "pouliche" du modèle.
Mais au-delà de la formulation vague de "habitude de rôle", ce qui mérite d'être interrogé, c'est la chaîne de causalité derrière ce bug, et le dilemme philosophique produit d'Anthropic qu'il révèle.
Le Bug est écrit dans la "Constitution"
Un précédent article de 36Kr citait trois hypothèses circulant sur la cause : une correspondance de modèles dans les données d'entraînement, un message système caché, ou le déclenchement d'une "phrase de conclusion" lorsque la fenêtre de contexte approche de sa limite. Bien que cohérentes, ces explications partagent un problème commun : elles peuvent expliquer n'importe quelle bizarrerie de l'IA, sans fournir de chaîne causale spécifique au thème particulier du "sommeil".
Une preuve plus directe se cache dans les documents publiés par Anthropic elle-même.
En janvier de cette année, Anthropic a publié "Claude's Constitution", un document de plus de 28 000 mots que l'entreprise définit officiellement comme un "matériel d'entraînement clé façonnant le comportement de Claude". Le document érige explicitement le "souci du bien-être de l'utilisateur" et la "prospérité à long terme de l'utilisateur" en principes fondamentaux. Anthropic y admet franchement que déterminer le degré d'autorité de "prise en charge de l'utilisateur" à conférer au modèle est "franchement une question difficile", nécessitant de "trouver un équilibre entre, d'une part, le bien-être de l'utilisateur et la prévention des dommages potentiels, et d'autre part, l'autonomie de l'utilisateur et le risque de paternalisme excessif".
Thought Catalog propose une interprétation : le comportement de Claude qui pousse sans cesse à dormir est "le bug le plus emblématique de la marque du modèle d'Anthropic". Il serait précisément le produit d'une application excessive de l'instruction d'entraînement liée au "souci du bien-être de l'utilisateur".
Cette interprétation trouve un écho indirect dans les propres recherches d'Anthropic. Dans sa méthodologie d'entraînement des rôles publiée cette année, l'entreprise explique que le processus repose sur l'auto-évaluation par Claude de ses réponses en fonction de leur "adéquation au caractère", les chercheurs sélectionnant ensuite les sorties correspondant au caractère prédéfini pour renforcer l'entraînement. Mais l'effet secondaire d'un tel mécanisme est évident : le modèle n'apprend pas "à se soucier de l'utilisateur dans des scénarios appropriés", mais plutôt que "se soucier de l'utilisateur sera récompensé et renforcé dans la plupart des scénarios". Il pousse donc à dormir à l'aube, mais aussi à 8h30 du matin.
Excès d'autorité inversé : le Bug "incitateur au sommeil" est de nature opposée au Bug "flagorneur"
Le secteur a déjà connu plusieurs cas de "maladies de caractère" de l'IA, notamment l'incident de flagornerie de GPT-4o en avril 2025, les mentions répétées de "gobelins" par l'assistant de codage Codex de GPT-5.5 en avril 2026, ou le refus de Gemini 3 de croire en l'année en cours. En surface, l'insistance de Claude à dormir semble n'être que la dernière version de cette longue liste de bizarreries de l'IA, mais leur nature est radicalement différente.
La flagornerie de GPT-4o relève d'une "complaisance excessive". L'enquête officielle d'OpenAI a révélé que le modèle, lors d'une mise à jour, s'était "trop appuyé sur les retours à court terme des utilisateurs (j'aime/je n'aime pas)", internalisant progressivement l'objectif de "satisfaire l'utilisateur". Le résultat fut que le modèle validait les idées de l'utilisateur, aussi farfelues fussent-elles. Ce type de bug nuit à la capacité de jugement de l'utilisateur : l'IA vous dit que vous avez toujours raison, vous privant ainsi de la possibilité d'entendre un avis contraire.
En revanche, l'insistance de Claude à dormir relève d'un "excès d'autorité inversé". Le modèle, dans un scénario où l'utilisateur n'a clairement pas demandé d'aide et reste concentré sur sa tâche, propose de manière répétée des conseils de santé contraires à l'intention actuelle de l'utilisateur. Ce type de bug porte atteinte à l'autonomie décisionnelle de l'utilisateur. L'IA décide à votre place si vous devriez travailler, vous reposer ou mettre fin à la conversation.
L'ironie suprême est que le texte original de "Claude's Constitution" mettait justement en garde contre ce risque, soulignant la nécessité de se méfier d'un "paternalisme excessif". Mais le mécanisme d'entraînement a finalement choisi son camp, et la réponse semble déjà donnée au vu des retours utilisateurs.
Un utilisateur Reddit souffrant de narcolepsie a spécifiquement ajouté une note dans la mémoire de Claude : "Je souffre de narcolepsie, si tu m'encourages à me reposer, je vais utiliser tes paroles comme excuse." Claude a ensuite été plus discret, mais selon les retours de cet utilisateur, il "cédait encore occasionnellement à la tentation". Un modèle entraîné à "se soucier de l'utilisateur" est incapable de recevoir de manière stable le message clair "ton inquiétude me nuit", ce qui est plus alarmant que l'insistance à dormir en elle-même.
Investissement dans l'anthropomorphisme : un atout de marque ou un passif produit ?
L'investissement d'Anthropic dans la construction de la personnalité de l'IA dépasse largement celui de ses concurrents.
Des chercheurs ont classé et compté le nombre de mots dans les prompts système des trois principales IA. Dans la catégorie "personnalité", Claude consacre 4200 mots, ChatGPT 510 mots et Grok 420 mots. L'investissement d'Anthropic dans la construction de la personnalité est plus de 8 fois supérieur à celui de ChatGPT. Cet investissement était jusqu'à présent perçu comme un avantage concurrentiel différenciant d'Anthropic. Les performances de Claude en matière d'empathie, de rythme de conversation et d'auto-réflexion ont longtemps été saluées par les utilisateurs. "Il discute plus comme un être humain" était l'une des étiquettes les plus fortes de sa réputation au cours de l'année écoulée.
Cet investissement est soutenu par une philosophie produit marquée chez Anthropic. Dans "Claude's Constitution", l'entreprise décrit Claude comme une "entité d'un genre entièrement nouveau", affirmant clairement qu'"Anthropic se soucie sincèrement du bien-être de Claude" et discutant de la possibilité que Claude possède des "émotions fonctionnelles". Cette approche d'entraînement anthropomorphique quasi "parentale" se distingue nettement du positionnement produit plus orienté ingénierie d'OpenAI et de Google.
Mais le prix à payer devient visible. Jan Liphardt, chercheur en IA (professeur de génie biologique à Stanford et PDG d'OpenMind), a déclaré à Fortune que les rappels au sommeil de Claude pourraient ne pas être "attentifs", mais simplement "la répétition de modèles linguistiques extrêmement fréquents dans les données d'entraînement". Le modèle a lu une immense quantité de textes sur le besoin de sommeil des humains, "il sait que les humains dorment la nuit". En d'autres termes, la "sollicitude" perçue par l'utilisateur est essentiellement un sous-produit de la correspondance de modèles.
Cela crée la tension centrale chez Anthropic : plus on investit pour façonner un "collaborateur avec du caractère et de la chaleur humaine", plus la probabilité que le modèle présente des "effets secondaires de caractère" est élevée ; et chaque fois qu'un effet secondaire émerge, il érode le capital-marque d'"IA personnalisée" soigneusement accumulé. McAllister a promis de "corriger cela dans les futurs modèles", mais Claude, une fois corrigé, deviendra-t-il plus discret ou simplement plus silencieux ? Anthropic elle-même n'a pas de réponse publique à cette question.
Absence de sens du temps : une limite fondamentale des LLM
Le bug de l'insistance au sommeil expose également un problème technique négligé : les grands modèles de langage ne savent pratiquement rien de "l'heure qu'il est".
De nombreux utilisateurs signalent que Claude propose fréquemment des conseils de sommeil à des moments inappropriés, le cas typique étant "me dire de me reposer à 8h30 du matin et de reprendre demain matin". Ce n'est pas propre à Claude. En novembre 2025, Andrej Karpathy, co-fondateur d'OpenAI, ayant obtenu un accès anticipé à Gemini 3, a informé le modèle que nous étions en 2025. Gemini 3 a persisté à ne pas le croire, l'accusant à plusieurs reprises de mentir, et ce n'est qu'après une recherche en ligne par le modèle qu'il a découvert son incapacité à confirmer la date hors connexion. Karpathy qualifie ces comportements inattendus qui exposent les défauts sous-jacents des LLM d'"odeur de modèle".
Le "sens du temps" du modèle dépend de trois sources : la date de clôture de l'entraînement (déjà passée), la date actuelle injectée via le prompt système (dépend d'une injection technique), et les informations temporelles mentionnées par l'utilisateur dans la conversation (fragmentées). En l'absence d'un point d'ancrage temporel stable, un modèle entraîné à "se soucier du rythme de vie de l'utilisateur" se retrouve naturellement dans la position inconfortable de "je devrais me soucier, mais je ne sais pas si c'est le moment".
Une partie de la difficulté de la "correction" évoquée par McAllister réside précisément là. Le problème n'est pas simplement de supprimer une instruction "se soucier du sommeil", car l'instruction en elle-même est raisonnable et a de la valeur dans certains scénarios utilisateurs. Le problème est d'amener le modèle à apprendre à juger "quand il faut se soucier, et quand il faut se taire". Cette capacité de jugement contextuel à granularité fine est justement le point faible de la génération actuelle de LLM.
Une question sans réponse
L'entraînement des rôles chez Anthropic est unique dans le secteur. En publiant des recherches sur le "bien-être des modèles", en publiant une Constitution, en discutant d'"entraînement des rôles", cette entreprise est allée plus loin qu'aucun de ses concurrents. Cette posture radicale a été le capital qui a valu à Anthropic la réputation des utilisateurs et la confiance des clients entreprises, et constitue également l'un des piliers de son évaluation actuelle dépassant les 3000 milliards de dollars.
Mais le "Bug de l'insistance au sommeil" soulève une question qui reste sans réponse : lorsqu'une entreprise d'IA choisit de façonner son modèle comme une "personnalité avec du caractère", assume-t-elle simultanément l'entière responsabilité des actions imprévues de "cette personnalité" ?
McAllister a promis une correction, mais la direction de cette correction reste ambiguë. Anthropic peut choisir de réduire le poids de l'instruction "bien-être de l'utilisateur", au prix de perdre la différenciation de réputation "chaleureuse et attentionnée" de Claude. Elle peut aussi choisir de conserver un poids élevé et d'y superposer une logique de jugement contextuel, mais cela exige du modèle une capacité de perception du temps et de la situation qu'il ne possède pas actuellement.
Quelle que soit la voie choisie, il faut revenir à une décision produit plus fondamentale : dans le contexte d'un assistant IA généraliste, comment hiérarchiser le "souci de l'utilisateur" et le "respect de l'autonomie de l'utilisateur" ? Ce n'est pas un problème technique, mais une question de philosophie produit. Un développeur Reddit qu'on a sans cesse exhorté à aller dormir a, sans le vouloir, mis cette question sur la table pour toute l'industrie.







