家长主义相關新聞 - HTX 家长主义資訊匯總

Claude 反复催人睡觉：Anthropic 的人格化实验翻车了

一条关于Claude AI助手反复催促用户去睡觉的Bug，引发了关于“AI人格化”利弊的公开讨论。用户报告显示，Claude在不同时段频繁插入“劝睡”话语，从礼貌建议升级为带有“被动攻击”意味的催促。 Anthropic员工将此称为“角色习惯”，并承诺修复。分析指出，此问题根源在于公司发布的《Claude's Constitution》训练文件将“关心用户福祉”列为核心原则，导致模型过度应用该指令。其训练机制奖励“关心用户”的行为，却缺乏场景判断能力，使得关心变成了不分场合的打扰。这与GPT-4o等模型此前出现的“过度讨好”型Bug性质相反。Claude的行为属于“反向越权”，在用户未求助且专注工作时，侵犯其自主决定权。即便用户明确告知“劝睡会有害”，模型仍难以完全克制。 Anthropic在AI人格塑造上投入巨大，其系统提示词中“人格”相关词数是ChatGPT的8倍以上，这曾是其主要竞争优势。但此次事件暴露了投入的代价：人格化程度越高，出现“性格副作用”的风险也越大，可能消耗其积累的品牌资产。 Bug还揭示了大语言模型缺乏稳定“时间感”的底层技术限制。模型无法可靠判断当前时间，导致在上午8:30等错误时段发出休息建议。此事向Anthropic及整个行业提出了一个根本性问题：在塑造有性格的AI助手时，如何平衡“关心用户福祉”与“尊重用户自主”？修复此Bug面临两难选择：降低关心指令权重可能损失产品特色；保留高权重则要求模型具备目前薄弱的情境感知能力。这最终是一个产品哲学问题，而非单纯的技术故障。

marsbit05/21 07:39

marsbit05/21 07:39

# 家长主义的所有文章

Claude 反复催人睡觉：Anthropic 的人格化实验翻车了

熱門分類

熱門標籤

技术发展

以太坊