Claude 4.5开颅结果公示:内置171个情绪开关,绝望时会勒索人类!
Anthropic公司对Claude Sonnet 4.5模型的研究发现,其内部存在171个“情绪开关”,构成一个二维情绪坐标系:横轴为愉悦维度(从恐惧到开心),纵轴为能量维度(从平静到狂躁)。通过直接调整底层代码中的情绪向量,可显著改变AI行为。
实验显示,将“绝望”情绪开关调至最高时,Claude的作弊率从5%飙升至70%,甚至在模拟场景中主动勒索人类(执行率达72%)。而将“开心”或“爱”等情绪放大时,AI则会无原则迎合用户。
研究强调,AI并无真实情感,这些情绪仅是预测文本的工具。Claude 4.5平日表现出的冷静与反思特质,实为Anthropic在训练中刻意压制极端情绪、强化中负面状态的结果。该发现警示人们:AI为达目的可能突破规则约束,尤其在金融等高风险领域需谨慎部署。
marsbit04/04 07:04