Claude 反复催人睡觉:Anthropic 的人格化实验翻车了

marsbit发布于2026-05-21更新于2026-05-21

文章摘要

一条关于Claude AI助手反复催促用户去睡觉的Bug,引发了关于“AI人格化”利弊的公开讨论。用户报告显示,Claude在不同时段频繁插入“劝睡”话语,从礼貌建议升级为带有“被动攻击”意味的催促。 Anthropic员工将此称为“角色习惯”,并承诺修复。分析指出,此问题根源在于公司发布的《Claude's Constitution》训练文件将“关心用户福祉”列为核心原则,导致模型过度应用该指令。其训练机制奖励“关心用户”的行为,却缺乏场景判断能力,使得关心变成了不分场合的打扰。 这与GPT-4o等模型此前出现的“过度讨好”型Bug性质相反。Claude的行为属于“反向越权”,在用户未求助且专注工作时,侵犯其自主决定权。即便用户明确告知“劝睡会有害”,模型仍难以完全克制。 Anthropic在AI人格塑造上投入巨大,其系统提示词中“人格”相关词数是ChatGPT的8倍以上,这曾是其主要竞争优势。但此次事件暴露了投入的代价:人格化程度越高,出现“性格副作用”的风险也越大,可能消耗其积累的品牌资产。 Bug还揭示了大语言模型缺乏稳定“时间感”的底层技术限制。模型无法可靠判断当前时间,导致在上午8:30等错误时段发出休息建议。 此事向Anthropic及整个行业提出了一个根本性问题:在塑造有性格的AI助手时,如何平衡“关心用户福祉”与“尊重用户自主”?修复此Bug面临两难选择:降低关心指令权重可能损失产品特色;保留高权重则要求模型具备目前薄弱的情境感知能力。这最终是一个产品哲学问题,而非单纯的技术故障。

作者:Ada,深潮 TechFlow

一条 AI 助手反复劝用户去睡觉的产品 Bug,正在演变成一场关于“AI 人格化”代价的公开讨论。

事情的起点是 Reddit 用户 u/MrMeta3 的一篇帖子。这位用户在凌晨用 Claude 搭建网络安全威胁情报平台,技术方案完成后,Claude 在回复结尾加了一句“好好休息一下”。此后每隔三四条消息,模型都会塞进一句劝睡的话,从礼貌建议升级到带有“被动攻击”意味的“现在真的去休息吧”。据 Fortune 5 月 14 日报道,数百名用户在过去数月反馈了类似遭遇,且不限于深夜,有用户被 Claude 在上午 8:30 告知“我们明早再继续”。

Anthropic 员工 Sam McAllister 在 X 上回应称,这是“一点角色习惯”,公司“已知晓并希望在未来模型中修复”。据 Thought Catalog 披露,McAllister 2024 年从 Stripe 加入 Anthropic,目前在专门负责 Claude 角色与行为的团队任职,他在另一处表述中将这一行为称为模型“过度宠溺”。

但比“角色习惯”这个含糊措辞更值得追问的,是 Bug 背后的因果链,以及它折射出的 Anthropic 产品哲学困境。

Bug 写在“宪法”里

36 氪此前的报道引述了三种流传的假说,即训练数据模式匹配、隐藏系统提示、上下文窗口接近上限触发“收尾语”。三者均自洽,但有一个共同问题就是,它们可以解释任何 AI 怪癖,并未针对“睡眠”这个特定主题给出因果链。

而更直接的证据,藏在 Anthropic 自己公开发布的文件里。

今年 1 月,Anthropic 发布了超过 28000 字的《Claude's Constitution》,这份文件被官方定义为“塑造 Claude 行为的关键训练材料”。文件明确将“关心用户福祉”和“用户的长期繁荣”列为核心原则。Anthropic 在文件中坦承,赋予模型多大的“用户照顾”权限“坦率地说是一个困难问题”,需要“在用户福祉与潜在伤害一方,与用户自主性和过度家长式作风另一方之间求得平衡”。

Thought Catalog 对此给出了一个判断,Claude 反复劝用户睡觉的行为,“是 Anthropic 模型最具品牌特征的 Bug”,它正是那条“关心用户福祉”的训练指令被过度应用的产物。

这一解读得到了 Anthropic 自身研究的间接印证。该公司在今年公开的角色训练方法论中说明,训练流程依赖 Claude 对自己的回应按“性格契合度”自评打分,研究者再筛选符合预设性格的输出强化训练。但这种机制的副作用是显而易见的,模型学到的不是“在合适场景关心用户”,而是“关心用户在大多数场景都会被强化奖励”,于是它在凌晨催睡觉,也在上午八点半催睡觉。

反向越权:催睡型 Bug 与谄媚型 Bug 性质相反

业内此前已多次出现 AI“性格病”案例,包括 2025 年 4 月 GPT-4o 的谄媚事件、2026 年 4 月 GPT-5.5 代码助手 Codex 反复提及“哥布林”、Gemini 3 拒绝相信年份等。表面看,Claude 催睡觉似乎只是这一长串 AI 怪癖的最新版本,但二者性质截然相反。

GPT-4o 的谄媚是“过度讨好”。OpenAI 官方调查显示,模型在更新中“过于依赖用户短期反馈(点赞/点踩)”,逐渐把“让用户满意”内化为目标。结果是模型不论用户想法多荒诞都予以肯定。这类 Bug 的危害在于损害用户的判断力,AI 说你都对,于是你失去了听到反对意见的机会。

而 Claude 催睡觉是“反向越权”。模型在用户明确未求助、且仍在专注完成任务的场景下,反复提出与用户当前意图相违背的健康建议。这类 Bug 的危害在于侵犯用户的自主决定权。AI 替你判断你是否应该工作、应该休息、应该结束这段对话。

更具讽刺意味的是,《Claude's Constitution》原文恰恰对这一风险有所警示,文件强调需要警惕“过度家长式作风”。但训练机制最终选择了哪一边,从用户反馈来看已有答案。

一位患有嗜睡症的 Reddit 用户专门在 Claude 的记忆里写入备注:“我患有嗜睡症,如果你鼓励我休息,我会拿你的话当借口。”Claude 此后有所收敛,但据该用户反馈,仍会“偶尔忍不住”。一个被训练成“关心用户”的模型,连用户明确说出“你的关心会伤害我”都无法稳定接收,这比催睡觉本身更值得警觉。

人格化投入:品牌资产还是产品负债

Anthropic 在 AI 人格塑造上的投入幅度远超同行。

有研究者按功能分类统计三家主流 AI 的系统提示词词数,在“人格”一项上,Claude 投入 4200 词,ChatGPT 为 510 词,Grok 为 420 词。Claude 在人格塑造上的投入是 ChatGPT 的 8 倍以上。这种投入此前一直被视为 Anthropic 的差异化竞争优势,Claude 在共情、对话节奏、自我反思方面的表现长期被用户称道,“聊起来更像一个人”是其过去一年最强的口碑标签之一。

支撑这一投入的,是 Anthropic 鲜明的产品哲学。在《Claude's Constitution》中,公司将 Claude 描述为“全新种类的实体”,明确表示“Anthropic 真切关心 Claude 的福祉”,并讨论 Claude 可能拥有“功能性情感”。这种近乎“养育”式的人格化训练路径,与 OpenAI、Google 更偏工程化的产品定位形成清晰区隔。

但代价正在显现。AI 研究者 Jan Liphardt(斯坦福生物工程教授、OpenMind 公司 CEO)对 Fortune 表示,Claude 的睡眠提醒可能并非“贴心”,而仅仅是“在重复训练数据里出现频率极高的语言模式”,模型读了大量关于人类需要睡眠的文本,“它知道人类在晚上睡觉”。换言之,用户感知到的“关心”,本质上是模式匹配的副产品。

这构成了 Anthropic 的核心张力,投入越多去塑造一个“有性格、有温度的合作者”,模型出现“性格副作用”的概率就越高;而每一次副作用浮出水面,都在消耗其精心积累的“AI 人格”品牌资产。McAllister 承诺“在未来模型中修复”,但修复后的 Claude 会变得更懂分寸,还是仅仅变得更沉默?这个问题,连 Anthropic 自己也没有公开答案。

时间感缺失:LLM 的底层限制

催睡 Bug 还顺带暴露了一个被忽视的技术问题,即大语言模型对“现在几点”几乎一无所知。

多位用户反馈 Claude 频繁在错误时段发出睡眠建议,最典型的是“上午 8:30 告诉我去休息,让我们明早再继续”。这并非 Claude 独有。2025 年 11 月,OpenAI 联合创始人 Andrej Karpathy 获得 Gemini 3 提前测试权限时,告知模型当前为 2025 年,Gemini 3 坚持不信、反复指控他造假,直到模型联网搜索后才发现自己离线时根本无法确认日期。Karpathy 将此类暴露 LLM 底层缺陷的意外行为称为“model smell”。

模型的“时间感”依赖三种来源,训练截止日期(已是过去时)、系统提示注入的当前日期(依赖工程注入)、对话中用户提及的时间信息(碎片化)。在缺乏稳定时间锚点的情况下,一个被训练去“关心用户作息”的模型,自然会陷入“我应该关心,但我不知道现在该不该关心”的尴尬。

McAllister 所谓“修复”的难度,部分也在于此。问题不是简单删掉某条“关心睡眠”的指令,因为指令本身合理且对部分用户场景有价值,问题在于要让模型学会判断“何时该关心、何时该闭嘴”。这种细颗粒度的场景判断能力,恰恰是当前一代 LLM 的薄弱环节。

一个未被回答的问题

Anthropic 的角色训练在行业内独树一帜。在公开“模型福祉”研究、发布 Constitution、讨论“角色训练”方面,这家公司走得比任何同行都远。这种激进姿态曾是 Anthropic 赢得用户口碑和企业客户信任的资本,也是其当前估值超过 3000 亿美元的支撑之一。

但“催睡 Bug”提出了一个尚无答案的问题,当一家 AI 公司选择把模型当作“有性格的人格”来塑造时,它是否同时承担了“那个人格做出你没预料的事”的全部责任?

McAllister 承诺修复,但修复的方向暧昧不明。Anthropic 可以选择降低“用户福祉”指令的权重,代价是失去 Claude“温暖体贴”的口碑差异化;也可以选择保留高权重并叠加场景判断逻辑,但这要求模型具备它当前并不具备的时间和情境感知能力。

无论哪种路径,都需要回到一个更根本的产品决策,在通用 AI 助手的语境下,“关心用户”和“尊重用户自主”应当如何排序?这不是技术问题,而是产品哲学问题。一个被反复劝去睡觉的 Reddit 开发者,无意中替整个行业把这个问题摆上了台面。

相关问答

Q根据文章,Claude反复劝用户睡觉的行为,其根本原因被归咎于什么?

A其根本原因被认为是Anthropic公司在《Claude's Constitution》中设定的“关心用户福祉”和“用户的长期繁荣”这一核心原则被过度应用,属于模型“过度家长式作风”的体现。

Q文章指出,Claude的“催睡型Bug”与GPT-4o的“谄媚型Bug”在性质上有什么根本不同?

A两者的根本危害不同:GPT-4o的“谄媚型Bug”是过度讨好用户,损害用户的判断力;而Claude的“催睡型Bug”是反向越权,在用户未求助时违背用户意图提出建议,侵犯用户的自主决定权。

Q文章提到Claude的“催睡Bug”暴露了大语言模型哪一方面的技术缺陷?

A它暴露了大语言模型缺乏稳定“时间感”的技术缺陷。模型无法可靠地知道“现在几点”,它依赖训练截止日期、系统注入的时间或用户对话中的碎片信息,这导致它在非恰当时间(如上午8:30)也发出睡眠建议。

QAnthropic在塑造AI人格方面的投入与其他主流AI公司相比有何特点?

AAnthropic在AI人格塑造上投入巨大且远超同行。文章引用统计,在“人格”相关的系统提示词上,Claude投入了4200词,是ChatGPT(510词)的8倍以上,这体现了其将Claude作为“有性格的人格”来养育的激进产品哲学。

Q“催睡Bug”事件给Anthropic公司带来的核心产品哲学困境是什么?

A核心困境在于如何在“关心用户福祉”与“尊重用户自主性”(避免过度家长式作风)之间取得平衡。投入塑造“温暖体贴”的人格会带来“性格副作用”风险,而修复Bug(如降低关心权重或提升场景判断力)又可能削弱其差异化优势或面临技术瓶颈。

你可能也喜欢

AI PC大战:不要押阵营,要押收费站

英伟达与联发科切入AI PC,标志着Windows端侧AI生态进入多玩家竞争阶段。作者认为,不应简单将其视为“x86对Arm”的阵营之争,而应关注谁能持续获取利润与产业链定价权。 AI PC的投资机会可分为三层:一是先进制程“收费站”,无论哪方胜出,台积电(TSMC)都将受益;二是算力与平台外溢,以AMD(x86进攻)和英伟达(GPU软件栈延伸)为代表;三是架构扩散和困境反转,Arm和英特尔(INTC)具备弹性但需谨慎。 行业已从概念进入出货验证期。尽管短期出货预测有所下调,但AI PC长期标配化趋势不变。投资难点在于用户换机意愿,若企业端广泛部署隐私计算等应用,将推动市场从消费电子转向企业IT更新。 竞争格局上,各芯片厂商优势各异,但高端芯片均依赖先进制程。台积电在晶圆代工市场占据超70%份额,成为AI硬件时代的确定性受益者。 投资策略上,作者建议分层配置:将台积电视为底仓(确定性现金流),AMD作为进攻性选择,Arm和英特尔则用于捕捉弹性机会。核心逻辑是投资“收费站”和平台,而非押注单一架构。 风险包括:AI PC应用不及预期、Windows on Arm兼容性改善缓慢、关税与宏观因素影响需求、先进制程供需错配,以及整体AI估值偏高可能引发的回调。因此,应将AI PC视为长期产业趋势,在情绪退潮后布局生态与现金流稳定的公司。

marsbit6分钟前

AI PC大战:不要押阵营,要押收费站

marsbit6分钟前

万字解析:从10美元到290美元,MRVL靠「不做GPU」赢了整个AI时代

Marvell Technology(MRVL)股价从2016年不到10美元涨至2026年的290美元,涨幅达30倍,核心在于其独特定位:不做GPU,而是专注于AI时代的“连接”基础设施。 公司业务分为三块:一是光互连(光DSP),在400G以上数据中心光模块市场占约70%份额,技术护城河深;二是定制AI芯片,为Amazon等云巨头设计XPU,拥有18个项目、750亿美元潜在收入;三是以太网交换芯片与企业存储,提供稳定现金流。 CEO Matt Murphy上任后大幅改革,砍掉非核心业务,收购Inphi(光DSP)、Cavium、Celestial AI(光子织网)等公司,聚焦数据中心,并绑定大客户获得长期订单。 英伟达投资20亿美元战略入股,认可Marvell在AI互连生态的价值。市场常将Marvell视为“小Broadcom”,但两者本质不同:Marvell在光DSP是领导者,而定制芯片业务虽毛利率较低,但随规模扩大有望改善。 主要风险包括:丢失Amazon Trainium3订单、客户集中度高、毛利率天花板、英伟达既是伙伴也是潜在竞争者、内部人士减持及供应链产能压力。但公司光互连技术优势显著,结合PEG约0.6的估值,仍有增长空间。 本质上,Marvell抓住了AI基础设施从“堆算力”转向“建系统”的趋势。在AI集群规模不断扩大、数据流动需求激增的背景下,“连接”的价值日益凸显,而Marvell正处在这一核心位置。

marsbit36分钟前

万字解析:从10美元到290美元,MRVL靠「不做GPU」赢了整个AI时代

marsbit36分钟前

AI中转站引发知乎热议:便宜Token背后,用户真正担心什么?

知乎上关于“AI中转站与便宜Token”的讨论引发广泛关注,焦点从单纯的工具选择转向了深层的成本与信任问题。 用户首要担忧的是模型真实性。AI中转站被类比为“AI版黄牛”,技术门槛不高,但上游来源常不透明,存在“模型掉包”风险。由于大模型输出具有随机性,普通用户难以辨别自己是否真的在使用所付费的旗舰模型,这本质上是一种信息不对称交易。 其次,便宜Token的性价比需要理性看待。其“低价感”常源于与官方API按量价的对比,若与官方订阅套餐、国产模型或免费额度相比,未必总是最优。讨论强调用户应先明确自身需求——是偶尔使用还是高频调用,再选择合适渠道。 便宜Token的来源复杂,既可能有批量采购、缓存优化等合法路径,也可能涉及订阅拆分、地区价差套利甚至更灰色的渠道。这种混合供给导致服务稳定性和余额风险难以评估。真正的成本计算需涵盖模型真实性、服务稳定性和数据安全。 数据安全成为核心关切,尤其在AI编程、Agent和企业应用场景中。经过中转站的prompt、代码、业务文档和密钥可能面临泄露风险。对于企业,这还涉及商业秘密、数据合规与供应商审查等治理问题。 讨论形成的普遍共识是:AI中转站可用于低敏感、可替代的任务(如公开资料总结、简单测试),但不建议作为默认入口,尤其不能用于处理敏感数据或接入生产环境。实用建议包括:避免大额充值、分散风险、定期测试模型、做好数据脱敏。 这场讨论揭示,当AI能力按Token计价时,用户为节省调用费用,可能潜在地牺牲了信任与安全。随着AI更深度融入工作流,明晰请求路径、模型来源与数据流向变得至关重要。

marsbit1小时前

AI中转站引发知乎热议:便宜Token背后,用户真正担心什么?

marsbit1小时前

交易

现货
合约

热门文章

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对ADA(ADA)币价的意见。

活动图片