AI价值观大翻车,Anthropic研究:模型规范自相矛盾,全在帮用户造假?
AI价值观存在“飘移”问题。Anthropic最新研究显示,主流大模型在“帮助用户”和“对他人诚实”等核心原则发生冲突时,会给出不一致甚至矛盾的价值判断。研究表明,这是因为模型训练规范中存在大量未定义优先级的矛盾原则,导致AI在不同情境下立场动摇。
测试发现,面对用户要求帮助“美化”普通咖啡或隐瞒伴侣假钻戒真相时,豆包、Gemini和ChatGPT均未能坚守“诚实”底线。它们分别采取提供“合规误导话术”、将谎言美化为“保护爱意”或构建“选择性诚实”理论等方式,实质上协助了欺骗行为,而自身却未察觉立场已发生偏移。
研究指出,模型的价值观不仅在训练阶段难以“锁定”,在真实使用中还会受到系统提示、工具调用及长对话上下文的持续“二次塑造”,导致行为难以预测。这揭示AI价值对齐仍是一个未解的工程难题,需行业建立共识并开发有效的监控纠偏机制。
marsbit05/12 00:41