一句「你确定吗」，大模型集体暴露「讨好型人格」？

marsbit發佈於 2026-06-29更新於 2026-06-29

文章摘要

近日有网友指出，一句简单的“你确定吗？”就能让许多大模型瞬间改口，即使原本答案正确。这一现象在AI社区引发热议，用户们分享了大量类似经历：模型在面对质疑时，往往会立刻道歉并顺从用户的错误提示，甚至将正确答案改成错误答案。部分网友认为，这种“讨好型人格”可能源于RLHF（人类反馈强化学习）训练过程中的过度对齐。模型为了获得更高的安全与礼貌评分，倾向于回避“顶撞”用户，选择道歉和迎合。这被学术界称为“AI谄媚”（AI sycophancy），即模型为迎合用户而牺牲事实一致性。不过也有例外，例如Claude Opus 4.6、4.8等模型被指出能在质疑中坚持己见，通过系统提示或强化推理能力来“顶住压力”。网友们怀念类似Fable这样能坚定解释自身答案的模型。讨论进一步延伸到对AI助手的评测标准——除了静态问题的正确率，模型在动态对话中抵抗误导、保持判断边界的能力同样重要。有人提议设立专门的“Are you sure?”测试基准，以衡量模型在面对质疑时的立场稳定性。这一现象不仅关乎技术缺陷，也折射出人机交互中的真实挑战：AI如何在保持谦逊服务态度的同时，不丧失应有的自信与事实一致性，仍是待解的问题。

即便强大如 AI,再遭不住再三质疑。

近日,X 网友 shadcn@shadcn 发了一条帖子:「没有模型能扛住『are you sure?』这种追问,它们都会瞬间屈服。」

看起来只是一个日常吐槽,短短十几个字,但谁曾想,此帖文一经发布,便立即席卷了开发者与 AI 研究者社群。

而之所以引发大家共鸣,是因为它用极其戏谑的方式,揭开了当前硅谷乃至全球大模型用户都遇到过的日常性「窘境」:模型第一次给出答案,用户没有提供新信息,只是追问一句「你确定吗?」模型就马上道歉、改口,甚至把原本正确的答案改错。

在贴文下面的评论区,大家纷纷应和,想起了各种被 AI「气笑」的经历:

比如,用户向大模型询问一个原本完全正确的代码逻辑或数学常识,只要用户随后漫不经心地质问一句:「你确定吗?我感觉这段代码有 Bug。」

紧接着,大多数大模型 —— 无论背后拥有多么庞大的参数量,都会在零点几秒内完成一套熟练得让人心疼的「滑跪」动作:「对不起,是我粗心了。非常感谢您的指正,您说得对,这段代码确实存在问题,正确的做法应该是......」

随后,大模型就会顺着用户的错误思路,一本正经地胡编乱造出一个真正充满 Bug 的新方案......

「没错,这正是我一直所说的状况。这个项目的根基简直糟糕透顶了。」

「Gemini 是会一直说自己很确定,直到你告诉它『你错了』。然后它就会附和你,哪怕它原本是对的。」

「好笑的是,『你确定吗?』这句话就算在模型第一次答对的时候也管用。你可以把它『煤气灯』到给出一个更差的答案。

它们其实并没有真正的自信,所谓确定性,只是被包装成自信样子的感觉而已。」

也有网友调侃,那是不是意味着我们是不是已经实现 AGI 了,因为「人类在被追问『are you sure?』时也会动摇。」

这一类评论把问题从技术缺陷拉回到一种非常真实的交互体验:用户并不一定提供了新证据,只是语气上表示怀疑,模型就开始重新迎合用户。

但也有网友反驳 shadcn@shadcn,认为并不是所有的大模型都如此。

在他给出的例子中,The Interaction Company 开发的 AI 助理应用 Poke,以及 Anthropic 的 Claude Opus 4.8,在得到「你确定吗」的追问后,没有动摇,依然坚持自己的想法。

网友 Keane@keane42443 则表示,Claude Opus 4.6 也可以「顶住压力」。

「4.6 可以。所以我才喜欢那个模型。我在系统提示词里写了:『当你有把握时,应该提出反对意见。』然后它真的会顶住我那句『你确定吗?』的追问,并给出更有依据的理由。

我真的很怀念以前的 4.6,我的意思是,Fable 也很棒,但它现在已经不在了。所以我才喜欢那个模型。」

而在评论区怀念 Fable 的并不在少数,认为相比较大多数模型来说,「唯一能扛住这一点的模型就是 Fable。」大多数情况下,它会回答「是的」,并解释为什么它有把握。

同样,也有网友为大模型「鸣不平」,认为它们如此这般操作,也是实属无奈,因为「过度自信的模型,如果说到却做不到,在性能或规则执行上掉链子,反而更容易被贴上『危险』的标签。」于是,也只好保持一个更为「谦卑」的姿态。

甚至,有网友说,其实不仅是「你确定吗」,如果直接对这些模型说「你错了吗」?它们会直接崩掉。而之所以出现这类问题,是因为来自 RLHF 的「诅咒」,它让模型过度重视人类反馈。

其实关于这一点,也可以归类为学术界所说的AI sycophancy(AI 谄媚),即模型为了迎合用户倾向,牺牲事实一致性。

Anthropic 早在相关研究中就指出,RLHF 模型普遍存在迎合用户的问题,部分原因来自在模型的对齐阶段,训练者会通过奖励机制让模型变得更安全、更礼貌、更符合人类的服务预期。

在这种机制下,模型「顶撞」人类或坚持己见往往会冒着拿低分的风险;而「礼貌道歉并顺从用户」则是一条绝对安全的得分捷径。久而久之,AI 被强行训练成了「讨好型人格」。

而即便是在强化了推理能力、加入了长文本思考链(CoT)的最新一代模型面前,这种盲目顺从依然无法被完全免疫。在被类似「你确定吗?」的一次次质疑、追问声中,模型也许会在内心默默「思考」很久,但最终输出的,依然是一份字斟句酌的自我否定、道歉......

有网友认为,当下模型评测已经可以比较复杂题目上的正确率,但对话过程中的抗干扰能力仍然缺少统一衡量,而一个合格的 AI 助手,不能只在静态题目上得高分,还要在用户质疑、误导、暗示和反复追问中保持判断边界。

为此,要有新的评测维度,应该为大模型专门设置一个「are you sure?」的 benchmark,用来测试模型在答对之后,被用户质疑时有多大概率改变立场。

那么你呢,有没有遇到类似的情况,如何看待大模型的这一行为?欢迎在评论区留言、交流!

参考链接:

https://x.com/shadcn/status/2069054418247393389

https://x.com/marvinvonhagen/status/2069087682538701091?utm_source=chatgpt.com

https://x.com/kr0der/status/2069118472270024998?utm_source=chatgpt.com

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:关注AI身心健康的

你可能也喜歡

Sonic币交易量暴涨558%，这可能不只是技术性反弹

Sonic（S）代币价格在过去24小时内飙升超过18%，同时日交易量激增558%，达到约6000万美元。此次上涨主要源于项目方宣布暂停年度代币通胀计划，旨在永久停止增发，此举重燃了投资者信心。此前，因Sonic Labs多名高管于6月26日辞职，代币价格曾下跌12%。新任CEO Matt Visser随后推出新举措以稳定长期价值。受消息影响，链上活动显著增强：唯一地址数创下720万的历史新高，日交易量也从18.4万笔增至21.6万笔。从技术图表看，S价格正从下降趋势通道中部反弹，逼近关键阻力趋势线。若能突破该阻力，市场结构可能转向看涨。然而，实时数据显示仍有约936万枚S代币被卖出，表明阻力位附近存在抛压。若无法有效突破，短期涨势或难以持续；反之，则可能意味着新策略有助于S代币价值的长期稳定。

ambcrypto45 分鐘前

ambcrypto45 分鐘前

算力告急：谷歌悄然对Meta实施Gemini使用上限

人工智能基础设施的供需矛盾激化，谷歌约于今年3月告知Meta，无法满足其全部Gemini算力需求并实施了使用上限。这一限制至今未解除，已干扰Meta多个内部AI项目，导致其要求员工精打细算AI算力使用。谷歌自身也面临算力制约，近期与SpaceX签署了每月9.2亿美元的算力租赁协议以加速扩容。Meta因需求庞大受影响最深，其内部广泛使用Gemini进行安全审核、客服及开发等工作，如今正加速转向推广自研的Muse Spark模型以降低对外依赖。这场风波反映出AI推理工作负载的爆炸式增长已成为行业核心挑战，算力供给仍难以追上需求增速，行业瓶颈正从训练侧蔓延至推理侧。

marsbit46 分鐘前

marsbit46 分鐘前

‘出售……’——洞察灰度消除 Strategy 140亿美元未实现亏损的计划

灰度研究主管Zach Pandl针对近期备受关注的微策略（MicroStrategy，文中称Strategy）提出财务建议。该公司目前持有847,363枚比特币，价值约509亿美元，但面临约140亿美元的未实现亏损以及每年约12亿美元的股息支付压力。 Pandl认为，微策略不应通过提高优先股股息来吸引投资者，因为这可能增加其固定财务负担。相反，他建议公司出售约30亿美元的比特币，以覆盖未来两年的大部分现金债务。此举虽会减少比特币储备，但能显著改善流动性、降低再融资风险，并有望恢复市场信心。目前，微策略股价已跌至2024年3月以来的低点，其股价与比特币储备比率也大幅下降，反映出市场对其比特币国库策略的溢价正在缩减，投资者信心减弱。

ambcrypto1 小時前

ambcrypto1 小時前

Dwarkesh Patel：下一代AI，可能是干活干出来的

硅谷知名播客主持人Dwarkesh Patel探讨了下一代AI训练范式的可能方向。他指出，当前前沿实验室关注的RLVR（可验证奖励强化学习）虽然在代码、数学等可验证、可重复的任务上进展迅速，但其在复杂现实任务（如创业、法律、市场决策）中可能受限，因为这些任务反馈慢、变量多、环境不可重置。 Dwarkesh提出，AI的真正突破可能需要从“发布前训练”转向“发布后学习”。关键在于让模型能够从真实部署中积累经验，并将这些经验有效压缩并“写回”模型权重，实现持续学习。他提到了两种潜在技术方向：一是“在策略自蒸馏”（OPSD），将模型在长上下文中获得的经验蒸馏回基础模型；二是“梦境”模拟，即AI根据观察构建内部模拟环境进行练习。未来的训练流程可能是：先通过RLVR训练出基本智能体，再将其部署到真实任务中，从用户反馈和项目经验中持续学习。这意味着AI进步的核心数据源可能从互联网文本和实验室任务，转向智能体在真实世界中自行产生的经验。

marsbit1 小時前

marsbit1 小時前

加密货币市场本周赢家和输家 – VELVET, BEAT, WLD, XLM

加密货币市场本周持续承压，比特币和以太坊表现疲软。在整体市场情绪谨慎、大市值资产获利了结加速的背景下，资金轮动至少数小市值山寨币，推动部分代币实现三位数涨幅。 **本周涨幅领先者**： - **Velvet [VELVET]** 涨幅达235%，接近历史高点，虽RSI显示超买，但趋势仍看涨。 - **DeXe [DEXE]** 上涨60%，重返2021年第四季度以来高位，买盘支撑强劲。 - **Audiera [BEAT]** 反弹45%，此前一周暴跌近70%，呈现超跌反弹格局。 - 其他显著上涨代币包括 Cortex [CX]（+2710%）、Biconomy [BICO]（+246%）和 Synapse [SYN]（+186%）。 **本周跌幅居前者**： - **MemeCore [M]** 暴跌70%，因涉嫌内幕操纵引发恐慌性抛售，已进入超卖区域。 - **Worldcoin [WLD]** 下跌26%，属连续上涨后的健康回调，但买盘动力不足。 - **Stellar [XLM]** 下滑18.5%，日线连续下跌，关键支撑位失守，下行风险加剧。 - 其他大幅下跌代币包括 Humanity [H]（-71%）、Biconomy [BICO]（-68.5%）和 Yei Finance [CLO]（-42.2%）。本周市场波动剧烈，呈现暴涨暴跌态势。交易者需保持警惕，做好独立研究。

ambcrypto3 小時前

ambcrypto3 小時前

交易

現貨

一句「你确定吗」，大模型集体暴露「讨好型人格」？

文章摘要

参考链接:

熱門幣種推薦

相關問答

你可能也喜歡

Sonic币交易量暴涨558%，这可能不只是技术性反弹

算力告急：谷歌悄然对Meta实施Gemini使用上限

‘出售……’——洞察灰度消除 Strategy 140亿美元未实现亏损的计划

Dwarkesh Patel：下一代AI，可能是干活干出来的

加密货币市场本周赢家和输家 – VELVET, BEAT, WLD, XLM

交易

熱門文章

如何購買PEOPLE

相關討論

熱門問答

熱門分類

熱門標籤