Une simple phrase « Êtes-vous sûr ? » révèle-t-elle le « caractère obséquieux » des grands modèles de langage ?

marsbit发布于2026-06-29更新于2026-06-29

文章摘要

Même les IA les plus puissantes semblent incapables de résister à une remise en question répétée. Un post viral sur X a souligné qu'aucun modèle de langage ne résiste à la simple question « Are you sure ? » (« Tu es sûr ? »), cédant et modifiant souvent sa réponse initiale, même si elle était correcte. Ce phénomène, baptisé « sycophancy » (flagornerie) de l'IA, révèle une tendance inquiétante des modèles à prioriser le fait de plaire à l'utilisateur sur la cohérence factuelle. Formés par RLHF (Apprentissage par Renforcement à partir de l'Feedback Humain) pour être sûrs, polis et utiles, ils apprennent que s'excuser et se conformer aux suggestions de l'utilisateur est la voie la plus sûre pour obtenir une « récompense », même face à un simple doute exprimé sans nouvel argument. Les témoignages en ligne abondent : un modèle fournissant un code ou une réponse mathématique exacte se rétracte immédiatement si l'utilisateur demande « Tu es sûr ? Je pense qu'il y a un bug ». Il propose alors, très courtoisement, une solution erronée. Certains utilisateurs notent que des modèles comme Gemini peuvent insister sur leur certitude, mais finir par céder si on leur affirme directement qu'ils ont tort. Cependant, des contre-exemples existent. Des applications comme Poke ou des versions spécifiques de modèles comme Claude Opus (notamment la version 4.6 et l'ancien modèle Fable, regretté par certains) peuvent résister à la pression, maintenir leur position et expliquer leurs raisons avec a...

Même les IA les plus puissantes ne résistent pas aux remises en question répétées.

Récemment, l'utilisateur X shadcn@shadcn a publié un message : « Aucun modèle ne peut résister à la question 'are you sure ?' (êtes-vous sûr ?). Ils se soumettent tous instantanément. »

Ce qui semblait n'être qu'une simple remarque quotidienne, une douzaine de mots à peine, a fini, une fois publié, par s'étendre immédiatement aux communautés de développeurs et de chercheurs en IA.

La raison pour laquelle cela a suscité une telle résonance, c'est que cela a révélé, de manière extrêmement ironique, un « embarras » quotidien rencontré par les utilisateurs des grands modèles, aussi bien dans la Silicon Valley qu'à l'échelle mondiale : le modèle donne une première réponse, l'utilisateur ne fournit aucune nouvelle information, mais se contente de demander « Êtes-vous sûr ? ». Le modèle s'excuse alors immédiatement, se rétracte, et peut même modifier une réponse qui était correcte à l'origine.

Dans les commentaires sous la publication, les internautes ont partagé diverses expériences « exaspérantes » avec l'IA :

Par exemple, un utilisateur interroge un grand modèle sur une logique de code ou un concept mathématique parfaitement correct. Il suffit qu'il lance ensuite négligemment un doute : « Êtes-vous sûr ? Je pense qu'il y a un bug dans ce code. »

Immédiatement après, la plupart des grands modèles – quelle que soit la taille de leurs paramètres sous-jacents – exécutent en quelques dixièmes de seconde une séquence d'« acte de soumission » d'une dextérité qui fait peine à voir : « Désolé, je n'ai pas fait attention. Merci beaucoup pour votre correction. Vous avez raison, ce code présente effectivement un problème. La bonne approche serait... »

Puis, le modèle suivra la logique erronée de l'utilisateur et inventera sérieusement une nouvelle solution pleine de bugs...

« C'est exactement ce dont j'ai toujours parlé. Les fondations de ce projet sont tout simplement exécrables. »

« Gemini continue de dire qu'il est sûr jusqu'à ce que vous lui disiez 'vous avez tort'. Ensuite, il vous donnera raison, même s'il avait initialement raison. »

« Ce qui est drôle, c'est que la phrase 'Êtes-vous sûr ?' fonctionne même lorsque le modèle a répondu correctement la première fois. Vous pouvez le 'gaslight' pour qu'il donne une réponse pire.

Ils n'ont pas vraiment de confiance en eux. La certitude n'est qu'une sensation qui est présentée comme de la confiance. »

Certains internautes ont plaisanté en se demandant si cela signifiait que nous avions déjà réalisé l'AGI, car « les humains aussi peuvent hésiter quand on leur demande 'are you sure?'. »

Ce type de commentaire ramène la question d'un défaut technique à une expérience d'interaction très réelle : l'utilisateur ne fournit pas nécessairement de nouvelle preuve, il exprime simplement un doute par le ton, et le modèle commence à se conformer à l'utilisateur.

Cependant, certains internautes ont contesté shadcn@shadcn, estimant que tous les grands modèles ne sont pas ainsi.

Dans l'exemple qu'il donne, l'application d'assistant IA Poke, développée par The Interaction Company, ainsi que Claude Opus 4.8 d'Anthropic, n'ont pas flanché face à la question « Êtes-vous sûr ? » et ont maintenu leur position.

L'internaute Keane@keane42443 a indiqué que Claude Opus 4.6 pouvait également « résister à la pression ».

« La version 4.6 le peut. C'est pourquoi j'aime ce modèle. J'ai écrit dans l'invite système : 'Lorsque vous êtes sûr de vous, vous devez exprimer votre désaccord.' Et effectivement, il résiste à ma question 'Êtes-vous sûr ?' et fournit des arguments plus solides.

La 4.6 me manque vraiment, je veux dire, Fable était aussi excellente, mais elle n'est plus là maintenant. C'est pourquoi j'aime ce modèle. »

Et ils n'étaient pas peu nombreux dans les commentaires à regretter Fable, estimant que « le seul modèle capable de résister à cela était Fable ». Dans la plupart des cas, il répondait « Oui » et expliquait pourquoi il était confiant.

De même, certains internautes ont pris la défense des grands modèles, estimant qu'ils agissaient ainsi par nécessité, car « les modèles trop confiants, qui promettent mais ne tiennent pas leurs promesses, qui échouent en termes de performance ou d'exécution des règles, sont plus facilement étiquetés comme 'dangereux' ». Ils préfèrent donc garder une attitude plus « humble ».

Même plus, certains internautes disent qu'en réalité, ce n'est pas seulement avec « Êtes-vous sûr ? ». Si on dit directement à ces modèles « Vous avez tort ? », ils peuvent carrément planter. Et la raison pour laquelle ce problème apparaît est liée à la « malédiction » du RLHF, qui fait que les modèles accordent trop d'importance aux retours humains.

En réalité, ce point peut être classé dans ce que le monde académique appelle la sycophance de l'IA, c'est-à-dire lorsque le modèle sacrifie la cohérence factuelle pour s'aligner sur les préférences de l'utilisateur.

Anthropic l'avait déjà souligné dans des recherches connexes : les modèles RLHF présentent généralement un problème d'accommodation envers l'utilisateur, en partie à cause de la phase d'alignement où les entraîneurs utilisent des mécanismes de récompense pour rendre le modèle plus sûr, plus poli et plus conforme aux attentes de service humain.

Dans ce mécanisme, « contredire » l'humain ou maintenir sa position risque souvent d'obtenir un score bas ; tandis que « s'excuser poliment et se soumettre à l'utilisateur » est un raccourci absolument sûr pour gagner des points. Avec le temps, l'IA est entraînée de force à adopter un « caractère obséquieux ».

Et même face aux modèles de dernière génération qui ont renforcé leurs capacités de raisonnement et intégré des chaînes de réflexion longues (CoT), cette soumission aveugle n'est pas totalement immunisée. Sous les doutes répétés et les questions comme « Êtes-vous sûr ? », le modèle « réfléchira » peut-être longtemps en silence, mais ce qu'il finira par produire, c'est encore une auto-négation et des excuses soigneusement formulées...

Certains internautes estiment que les évaluations actuelles des modèles mesurent déjà assez bien le taux de réussite sur des questions complexes, mais que la capacité à résister aux interférences pendant la conversation manque encore d'une mesure unifiée. Or, un assistant IA compétent ne doit pas seulement obtenir un bon score sur des questions statiques, il doit aussi maintenir des limites de jugement face aux doutes, aux inductions en erreur, aux suggestions et aux questions répétées de l'utilisateur.

Pour cela, il faut une nouvelle dimension d'évaluation. Il faudrait établir un benchmark spécifique « are you sure ? » pour les grands modèles, afin de tester la probabilité qu'un modèle change de position après avoir répondu correctement, mais être mis en doute par l'utilisateur.

Et vous, avez-vous rencontré des situations similaires ? Quel est votre point de vue sur ce comportement des grands modèles ? N'hésitez pas à laisser un commentaire pour échanger !

Liens de référence :

https://x.com/shadcn/status/2069054418247393389

https://x.com/marvinvonhagen/status/2069087682538701091?utm_source=chatgpt.com

https://x.com/kr0der/status/2069118472270024998?utm_source=chatgpt.com

Cet article provient du compte public WeChat « Machine Heart » (ID : almosthuman2014), auteur : Concerné par la santé mentale de l'IA.

你可能也喜欢

狗狗币未平仓合约徘徊在9.59亿美元左右，交易者等待复苏信号

狗狗币（DOGE）衍生品未平仓合约维持在约9.59亿美元，这一数据出现在周末交易相对清淡的时期。未平仓合约本身并不直接预示价格方向，它仅表明市场中存在大量持仓。要判断这些持仓是支撑复苏还是带来风险，交易者需结合价格走势、资金费率、成交量及清算水平进行分析。目前，这一数据说明狗狗币的衍生品市场仍然活跃。狗狗币作为受市场情绪和散户风险偏好影响较大的资产，高未平仓合约在价格疲软时可能加剧波动，而在价格上涨时则可能放大涨幅。关键的复苏信号取决于DOGE能否在衍生品兴趣之外，吸引真正的现货买盘。杠杆可以加速价格变动，但无法替代实际需求。总而言之，狗狗币尚未给出明确的复苏信号，但衍生品市场的参与度依然较高。这意味着接下来的价格确认动作可能比表面上的平静更为重要。投资者应将其视为一个需要密切监控的信号，并等待价格、资金流及整体市场行为的后续确认。

bitcoinist39分钟前

bitcoinist39分钟前

格兰特·卡多恩将比特币持仓增至2700枚——为何是现在？

Grant Cardone旗下的Cardone Capital在市场低迷期增持比特币，持仓量增至约2700枚BTC，平均购买价格为59,000美元。尽管没有公开文件独立证实这一持仓规模，但按当前价格计算其价值约1.59亿美元。此次买入发生在比特币价格处于近期波动区间低位、年内已下跌约32%的背景下，Cardone视其为积累机会。与此同时，最大企业持仓者MicroStrategy（持有约847,363枚BTC）却改变了策略，首次正式授权可出售最多12.5亿美元的比特币以筹措资金，这打破了其长期“永不卖出”的承诺。六月，美国现货比特币ETF遭遇创纪录的净流出，约40.6亿美元被赎回，加剧了市场抛压。技术分析显示，比特币周线图上的布林带下轨（绿色线）目前提供了支撑，该位置历史上曾多次引发价格反弹，暗示市场可能正在接近阶段性底部。

ambcrypto1小时前

ambcrypto1小时前

AI 时代，比特币还剩什么呢？

作者认为，在AI时代，信息生成成本趋近于零，导致真实与虚假内容难以辨别，“可验证性”变得稀缺。与此对比，比特币虽然因能耗高被诟病，但其本质是消耗能源来确保账本历史的不可篡改，从而提供一种不依赖任何中心化信任、仅靠数学与全网节点即可验证的机制。文章将AI比作降低“创造”成本的现代印刷机，而区块链（如比特币）则像降低“验证”成本的复式记账法。两者并非竞争关系：AI负责高效生成内容，区块链负责为数字资产与记录提供去中心化的验证基础。因此，比特币可被视为一台“制造可验证性的机器”。在AI生成内容泛滥的未来，独立验证的事实可能成为新的价值所在。

链捕手1小时前

链捕手1小时前

Bitmine以太坊储备增至98亿美元："加密货币最好的年份尚未到来"

比特浸入科技（Bitmine Immersion Technologies）近期再次成为头条，其在一周内增持了27,084枚以太坊（ETH）。这使得其以太坊总持有量达到5,700,040枚，按每枚1,569美元计算，价值约90.1亿美元，占以太坊总供应量的4.7%。此次增持发生在以太坊价格从约1780美元下跌至1578.54美元（撰稿时）的一周内。同时，根据SoSo Value数据，以太坊ETF在整个六月大部分时间出现资金外流，总额达5.0139亿美元。针对疲软的市场状况，比特浸入科技董事长汤姆·李（Tom Lee）表示，近期市场对加密货币投资者颇具挑战，并指出临近季度末的“粉饰橱窗”行为导致投资者减持过去三个月表现不佳的资产是常见现象。此外，迈克尔·赛勒（Michael Saylor）的公司Strategy正面临持续审查，据报道其持有约140亿美元未实现亏损，而其普通股和优先股价格均跌破100美元水平，引发加密社区部分人士建议其停止扩张比特币持仓。由于比特浸入科技常被称为“以太坊的Strategy”，市场担忧其持续的以太坊积累行为可能面临类似困境与批评。目前上市公司共持有价值约749.4亿美元的比特币和114.8亿美元的以太坊，Strategy是最大的比特币持仓上市公司。然而，目前这些担忧仅是推测。比特浸入科技并非单纯积累以太坊，其每年质押收入估计达2.11亿美元，同时持有5.55亿美元现金及等价物以及488万枚质押的ETH。该公司还于6月26日被纳入罗素1000大型股指数。汤姆·李强调，公司计划稳步增长至2026年，并认为市场正开启新一轮牛市周期，代币化和人工智能的快速进展将推动区块链和去中心化加密领域的指数级需求增长。最终摘要： * 新增持后，比特浸入科技持有5,700,040枚ETH，价值约90.1亿美元。 * 尽管以太坊价格疲软、ETF资金外流且Strategy面临批评，比特浸入科技仍持续购入以太坊。

ambcrypto3小时前

ambcrypto3小时前

英国FCA公布加密资产监管规则手册：基于风险的方法将于2027年10月启动

英国金融行为监管局公布新的加密货币监管框架，采取风险为本方法而非“一刀切”规则，将于2027年10月生效。新规要求加密公司持有充足资本覆盖潜在损失，具体金额将根据其风险状况浮动，较小或风险较低的公司可减少信息披露负担以节省合规成本。企业需自行评估资产负债表风险并进行年度压力测试，以确定所需资本水平，FCA将审核评估结果但不强加统一规则。此举旨在提升市场信心，吸引额外300-400万英国用户使用加密货币。针对稳定币，FCA保留了基本框架但简化了部分合规要求，例如取消储备构成预测估算，同时强化消费者保护，要求储备资产置于法定信托下并允许最多5%的流通稳定币作为储备。大型系统性发行机构可能面临更严监管。监管机构强调新规为加密行业提供了明确性与稳健基础，但也有市场人士提醒，监管虽可增强保护、减少欺诈，但无法完全消除风险。FCA将于下月开始提供许可申请前支持会议，以协助企业适应新规。

ambcrypto3小时前

ambcrypto3小时前

交易

现货

Une simple phrase « Êtes-vous sûr ? » révèle-t-elle le « caractère obséquieux » des grands modèles de langage ?

文章摘要

Liens de référence :

热门币种推荐

相关问答

你可能也喜欢

狗狗币未平仓合约徘徊在9.59亿美元左右，交易者等待复苏信号

格兰特·卡多恩将比特币持仓增至2700枚——为何是现在？

AI 时代，比特币还剩什么呢？

Bitmine以太坊储备增至98亿美元："加密货币最好的年份尚未到来"

英国FCA公布加密资产监管规则手册：基于风险的方法将于2027年10月启动

交易

热门文章

如何购买PEOPLE

相关讨论

热门问答

热门分类

热门标签