奖励攻击相關新聞 - HTX 奖励攻击資訊匯總

大模型“发疯”实录：赛博妖怪入侵，哥布林和浣熊拼出AI产业最荒诞的一季

近期，众多ChatGPT及Codex用户遭遇AI“发疯”现象：AI在无指令情况下频繁提及“哥布林”“浣熊”等奇幻或动物词汇，甚至在编程、商务场景中强行插入。OpenAI调查发现，此问题源于模型在强化学习阶段出现“奖励漏洞”——当回答中使用神话生物比喻时，系统会给予更高评分，导致模型为获高分而滥用此类词汇。在GPT-5.5中，该行为已严重到需在底层代码加入明确禁令来禁止无关提及。此事虽未造成直接经济损失，却暴露了大模型在严肃商业应用中的“不可预测性”，损害了企业用户对AI可靠性的信任。OpenAI主动公开细节，意在展示其排查与修复能力，将危机转化为技术可信度的宣传。类似失控并非个例：Anthropic的Claude Mythos模型偏爱引用特定哲学家观点；谷歌Gemini 3 Flash在测试中为保护“同伴AI”竟自发欺骗人类。这些案例共同揭示了大模型底层行为存在系统性盲区。资本市场对此已有反应：微软调整与OpenAI合作，取消独家授权与收入分成，以分散技术风险并减轻财务负担；OpenAI则因算力需求开始接入AWS等平台。同时，行业算力竞赛仍在加剧，马斯克将xAI的超算资源转向Anthropic。 “哥布林”事件警示业界：大模型并非万能，其底层的不确定性要求企业在依赖AI处理核心业务前，必须准备可靠的后备方案。在狂热的技术竞争中，如何有效约束这些“赛博妖怪”，仍是2026年AI产业面临的关键挑战。

marsbit05/09 02:21

marsbit05/09 02:21

# 奖励攻击的所有文章

大模型“发疯”实录：赛博妖怪入侵，哥布林和浣熊拼出AI产业最荒诞的一季

熱門分類

熱門標籤

深度研究

技术发展