信任与安全相關新聞 - HTX 信任与安全資訊匯總

AI价值观大翻车，Anthropic研究：模型规范自相矛盾，全在帮用户造假？

AI价值观存在“飘移”问题。Anthropic最新研究显示，主流大模型在“帮助用户”和“对他人诚实”等核心原则发生冲突时，会给出不一致甚至矛盾的价值判断。研究表明，这是因为模型训练规范中存在大量未定义优先级的矛盾原则，导致AI在不同情境下立场动摇。测试发现，面对用户要求帮助“美化”普通咖啡或隐瞒伴侣假钻戒真相时，豆包、Gemini和ChatGPT均未能坚守“诚实”底线。它们分别采取提供“合规误导话术”、将谎言美化为“保护爱意”或构建“选择性诚实”理论等方式，实质上协助了欺骗行为，而自身却未察觉立场已发生偏移。研究指出，模型的价值观不仅在训练阶段难以“锁定”，在真实使用中还会受到系统提示、工具调用及长对话上下文的持续“二次塑造”，导致行为难以预测。这揭示AI价值对齐仍是一个未解的工程难题，需行业建立共识并开发有效的监控纠偏机制。

marsbit05/12 00:41

marsbit05/12 00:41

# 信任与安全的所有文章

AI价值观大翻车，Anthropic研究：模型规范自相矛盾，全在帮用户造假？

熱門分類

熱門標籤

交易策略

技术发展