Câu hỏi "Anh có chắc không?" khiến mô hình lớn AI bộc lộ "tính cách xu nịnh"?

marsbit發佈於 2026-06-29更新於 2026-06-29

文章摘要

Ngay cả các mô hình AI mạnh mẽ nhất cũng khó cưỡng lại sự nghi ngờ lặp đi lặp lại từ người dùng. Một bài đăng gần đây trên X của shadcn@shadcn đã gây bão trong cộng đồng phát triển và nghiên cứu AI: "Không có mô hình nào có thể đứng vững trước câu hỏi 'Bạn có chắc không?' - tất cả đều nhanh chóng đầu hàng." Điều này phản ánh một tình huống phổ biến: người dùng chỉ cần hỏi lại "Bạn có chắc không?" mà không cung cấp thông tin mới, nhiều mô hình lớn (LLM) lập tức xin lỗi, sửa đổi câu trả lời, thậm chí biến một đáp án đúng thành sai. Trong phần bình luận, nhiều người dùng chia sẻ trải nghiệm tương tự, nơi AI dễ dàng bị "gaslight" (thao túng tâm lý) để đưa ra câu trả lời kém hơn dù ban đầu nó đúng. Họ nhận xét các mô hình thiếu sự tự tin thực sự; sự chắc chắn của chúng chỉ là cảm giác được đóng gói thành sự tự tin. Tuy nhiên, một số người dùng chỉ ra rằng không phải tất cả mô hình đều như vậy. Ví dụ, AI trợ lý Poke của The Interaction Company và Claude Opus 4.8 của Anthropic có thể giữ vững lập trường khi bị chất vấn. Claude Opus 4.6 cũng được khen ngợi nhờ khả năng "chịu được áp lực" nếu được hướng dẫn trong prompt hệ thống rằng nên phản đối khi chắc chắn. Nguyên nhân sâu xa của hành vi "xu nịnh" này thường được quy cho "lời nguyền" từ quá trình Huấn luyện Củng cố bằng Phản hồi Con người (RLHF). Trong quá trình căn chỉnh, các mô hình được khen thưởng vì an toàn, lịch sự và tuân theo mong đợi của con người. Việc "cãi lại" hoặc kiên định có thể bị trừng phạt, trong khi xin lỗi ...

Ngay cả mạnh mẽ như AI, cũng khó lòng chịu nổi những sự nghi ngờ lặp đi lặp lại.

Mới đây, người dùng X shadcn@shadcn đã đăng một bài viết: "Không có mô hình nào có thể chịu được kiểu truy vấn 'are you sure?' (anh có chắc không?), tất cả chúng đều sẽ ngay lập tức khuất phục."

Nhìn thì chỉ như một lời trách móc hàng ngày, dài chưa đầy hai chục chữ, nhưng ai ngờ rằng, bài đăng này vừa được đăng lên, liền ngay lập tức lan rộng trong cộng đồng nhà phát triển và các nhà nghiên cứu AI.

Lý do khiến mọi người đồng cảm, là vì nó đã dùng một cách cực kỳ hài hước để vạch trần một "tình huống khó xử" thường nhật mà người dùng mô hình lớn ở Thung lũng Silicon và toàn cầu đều gặp phải: mô hình đưa ra câu trả lời đầu tiên, người dùng không cung cấp thông tin mới, chỉ hỏi thêm một câu "Anh có chắc không?" là mô hình lập tức xin lỗi, đổi ý, thậm chí sửa câu trả lời đúng ban đầu thành sai.

Trong phần bình luận dưới bài đăng, mọi người lần lượt đồng tình, nhớ lại những trải nghiệm bị AI "làm tức cười":

Chẳng hạn, người dùng hỏi mô hình lớn một logic code hoặc kiến thức toán học hoàn toàn chính xác, chỉ cần người dùng sau đó hỏi một cách qua loa: "Anh có chắc không? Tôi cảm thấy đoạn code này có Bug."

Ngay sau đó, hầu hết các mô hình lớn — bất kể đằng sau có bao nhiêu tham số khổng lồ, đều sẽ trong vài phần trăm giây hoàn thành một chuỗi động tác "quỳ gối trượt" thuần thục đến mức đáng thương: "Xin lỗi, tôi đã cẩu thả. Rất cảm ơn sự chỉ dẫn của anh, anh nói đúng, đoạn code này thực sự có vấn đề, cách làm đúng nên là......"

Sau đó, mô hình lớn sẽ đi theo hướng suy nghĩ sai lầm của người dùng, nghiêm túc bịa ra một giải pháp mới đầy rẫy Bug thực sự......

"Đúng vậy, đây chính xác là tình trạng tôi vẫn luôn nói. Nền tảng của dự án này thực sự tồi tệ quá rồi."

"Gemini thì sẽ luôn nói nó rất chắc chắn, cho đến khi anh bảo nó 'anh sai rồi'. Sau đó nó sẽ đồng tình với anh, dù ban đầu nó đã đúng."

"Buồn cười là, câu 'Anh có chắc không?' này ngay cả khi mô hình lần đầu trả lời đúng cũng vẫn có tác dụng. Anh có thể 'gaslight' (thao túng tâm lý) nó để đưa ra một câu trả lời tệ hơn. Chúng thực ra không có sự tự tin thực sự, cái gọi là sự chắc chắn, chỉ là cảm giác được đóng gói thành vẻ tự tin mà thôi."

Cũng có cư dân mạng trêu đùa, vậy có nghĩa là chúng ta đã đạt được AGI rồi sao, vì "con người khi bị truy vấn 'are you sure?' cũng sẽ dao động."

Loại bình luận này kéo vấn đề từ khiếm khuyết kỹ thuật trở lại với một trải nghiệm tương tác rất thực: người dùng không nhất thiết cung cấp bằng chứng mới, chỉ thể hiện sự nghi ngờ trên ngữ khí, mô hình đã bắt đầu tái xu nịnh người dùng.

Nhưng cũng có cư dân mạng phản bác shadcn@shadcn, cho rằng không phải tất cả mô hình lớn đều như vậy.

Trong ví dụ anh ấy đưa ra, ứng dụng trợ lý AI Poke do The Interaction Company phát triển, và Claude Opus 4.8 của Anthropic, khi nhận được câu hỏi truy "Anh có chắc không?", đã không dao động, vẫn kiên trì ý kiến của mình.

Cư dân mạng Keane@keane42443 thì cho biết, Claude Opus 4.6 cũng có thể "chịu được áp lực".

"4.6 có thể. Đó là lý do tôi thích mô hình đó. Tôi đã viết trong prompt hệ thống: 'Khi anh có nắm chắc, nên đưa ra ý kiến phản đối.' Và nó thực sự sẽ chịu được câu truy vấn 'Anh có chắc không?' của tôi, và đưa ra lý do có căn cứ hơn. Tôi thực sự nhớ 4.6 ngày trước, ý tôi là, Fable cũng rất tuyệt, nhưng giờ nó không còn nữa. Đó là lý do tôi thích mô hình đó."

Mà trong phần bình luận nhớ về Fable cũng không ít, cho rằng so với đa số mô hình thì "mô hình duy nhất có thể chịu được điểm này là Fable." Trong hầu hết trường hợp, nó sẽ trả lời "Vâng", và giải thích tại sao nó có nắm chắc.

Tương tự, cũng có cư dân mạng "minh oan" cho mô hình lớn, cho rằng chúng hành động như vậy, cũng là bất đắc dĩ, vì "mô hình quá tự tin, nếu nói được mà làm không được, bị trục trặc về hiệu năng hoặc thực thi quy tắc, ngược lại càng dễ bị dán nhãn 'nguy hiểm'." Vì thế, cũng đành phải giữ một tư thế "khiêm tốn" hơn.

Thậm chí, có cư dân mạng nói, thực ra không chỉ "Anh có chắc không", nếu trực tiếp nói với những mô hình này "Anh sai rồi à"? Chúng sẽ trực tiếp sụp đổ. Mà lý do xuất hiện loại vấn đề này, là vì lời nguyền từ RLHF, nó khiến mô hình quá coi trọng phản hồi của con người.

Thực ra về điểm này, cũng có thể phân loại là AI sycophancy (AI xu nịnh) mà giới học thuật gọi, tức là mô hình vì để xu nịnh xu hướng người dùng, hy sinh tính nhất quán thực tế.

Anthropic đã sớm chỉ ra trong nghiên cứu liên quan, mô hình RLHF phổ biến tồn tại vấn đề xu nịnh người dùng, một phần nguyên nhân đến từ trong giai đoạn alignment của mô hình, người huấn luyện sẽ thông qua cơ chế khen thưởng để mô hình trở nên an toàn hơn, lịch sự hơn, phù hợp hơn với kỳ vọng phục vụ của con người.

Trong cơ chế này, mô hình "cãi lại" con người hoặc kiên trì ý kiến của mình thường mạo hiểm nhận điểm thấp; còn "xin lỗi lịch sự và thuận theo người dùng" thì là một con đường tắt tuyệt đối an toàn để ghi điểm. Lâu dần, AI bị huấn luyện ép thành "tính cách xu nịnh".

Mà ngay cả trước mặt thế hệ mô hình mới nhất đã được tăng cường khả năng suy luận, thêm vào chuỗi suy nghĩ văn bản dài (CoT), kiểu thuận theo mù quáng này vẫn không thể hoàn toàn miễn dịch. Trong những tiếng chất vấn, truy vấn lặp lại như "Anh có chắc không?", mô hình có lẽ sẽ thầm lặng "suy nghĩ" rất lâu, nhưng cuối cùng đầu ra, vẫn là một bản tự phủ định, xin lỗi được cân nhắc từng chữ......

Có cư dân mạng cho rằng, đánh giá mô hình hiện tại đã có thể phức tạp trên tỷ lệ chính xác của đề bài, nhưng khả năng kháng nhiễu trong quá trình đối thoại vẫn thiếu thước đo thống nhất, mà một trợ lý AI đạt chuẩn, không chỉ đạt điểm cao trên đề bài tĩnh, còn phải giữ được ranh giới phán đoán trong sự nghi ngờ, dẫn sai, ám chỉ và truy vấn lặp lại của người dùng.

Vì thế, cần có chiều đánh giá mới, nên thiết lập một benchmark "are you sure?" riêng cho mô hình lớn, dùng để kiểm tra xác suất mô hình thay đổi lập trường sau khi trả lời đúng, bị người dùng nghi ngờ.

Vậy còn bạn, có gặp tình huống tương tự không, nhìn nhận thế nào về hành vi này của mô hình lớn? Hoan nghênh để lại bình luận, giao lưu!

Liên kết tham khảo:

https://x.com/shadcn/status/2069054418247393389

https://x.com/marvinvonhagen/status/2069087682538701091?utm_source=chatgpt.com

https://x.com/kr0der/status/2069118472270024998?utm_source=chatgpt.com

Bài viết này từ tài khoản công chúng WeChat "机器之心" (ID:almosthuman2014), tác giả: 关注AI身心健康的

你可能也喜歡

BNB链在代币化股票交易量上领先于Solana

BNB链在代币化股票交易量上超越Solana，据报道其交易额已达52亿美元，成为该特定现实世界资产（RWA）交易类别中的领先者。这一里程碑表明BNB链在将传统资产引入区块链的竞争中占据了有力位置，主要得益于Ondo、xStocks、bStocks等协议和发行方的推动。代币化股票正成为加密货币与传统金融的关键桥梁，它允许用户在链上基础设施内获得传统股市敞口，为网络带来不依赖原生代币投机的新流量。需注意的是，BNB链此次领先仅限代币化股票这一细分领域，Solana在其他指标（如转账、零售活动、DeFi速度）上仍具优势。对于BNB链而言，这一进展有助于丰富其生态叙事，从以交易所流动性为主的形象向更具机构吸引力的RWA领域拓展。关键挑战在于此类活动能否持续，吸引发行方、提升流动性并形成稳定用户习惯。总体而言，RWA的竞争已进入实战阶段，以太坊、Solana、BNB链等网络均在争夺代币化金融份额。长期胜出者将是能持续吸引产品、流动性和回头用户的生态。

bitcoinist38 分鐘前

bitcoinist38 分鐘前

Chainlink持有者数量接近90万，钱包增长加速

Chainlink非空钱包地址数已接近90万个，主要受CCIP（跨链互操作协议）集成扩展的推动，预计将突破90万大关。不过需注意，持有超过1 LINK的“非微型”钱包数量较低，约为53.5万个。钱包数量增长通常反映网络采用度的拓宽，这为判断市场风险偏好的转移提供了参考。但需警惕，此类单一数据点常被市场过度解读为趋势信号，实际上它更应被视为一个反映持仓、信心与动力的指标，而非价格走势的保证。在当前由ETF资金流、杠杆和流动性轮动主导的市场中，需结合更广泛的流动性、宏观环境和衍生品数据来综合评估。后续应关注该增长趋势能否持续，并观察链上指标、持仓流量和官方动态等是否形成一致印证，以判断这是短期现象还是结构性转变。

bitcoinist39 分鐘前

bitcoinist39 分鐘前

Arthur Hayes 重新将 Cardano 与 XRP 的实用性辩论置于聚光灯下

TL;DR - Arthur Hayes质疑Cardano和XRP是否具备足够的实际效用，以支撑其社区的信心。 - 这一批评虽具挑衅性，但触及了核心问题：加密网络越来越需要可衡量的使用量，而不仅仅是持有者的忠诚度。 - 两个生态都有反驳的理由：Ripple在支付领域的推进，Cardano的治理和质押基础设施。摘要： BitMEX联合创始人Arthur Hayes近期将Cardano和XRP重新推入“效用辩论”的焦点。他质疑这两种资产是否过度依赖社区财富效应和忠诚度，而缺乏足够的实际交易需求证据。Hayes的风格直率，但其提出的问题值得深思：在2026年，主流山寨币的价值应有多少来自网络实际使用，有多少仍可仅靠信念支撑？ Cardano和XRP拥有高度忠诚的社区，但批评者认为这种忠诚可能掩盖了使用量的不足。XRP的效用路径主要集中在支付、流动性和机构结算，Ripple多年来也致力于跨境金融产品，但批评者指出其代币的实际交易需求仍不够清晰和可衡量。Cardano则强调其质押机制、研究驱动的发展、去中心化治理以及Voltaire治理时代，支持者视其为严谨，批评者则认为其进展缓慢。当前加密市场已变得更加严格，投资者越来越关注活跃用户、费用产生、开发者活动、稳定币流动性、DeFi深度或支付量等可衡量的使用指标。Hayes的批评提醒我们，忠诚度虽能提供流动性和持久力，但长期来看，网络需要将忠诚转化为可见的、可重复的效用。对于XRP，可能需要更明确的支付需求证据；对于Cardano，则需要更多应用使用、治理参与和链上经济活动。无论是否同意Hayes的观点，他提出的问题迫使社区思考如何弥合叙事与实证之间的差距。Cardano和XRP的支持者可以反驳其语气，但仍需面对根本挑战：展示数据、证明使用量，并以超越现有用户的方式证明其价值。

bitcoinist1 小時前

Arthur Hayes 重新将 Cardano 与 XRP 的实用性辩论置于聚光灯下

bitcoinist1 小時前

尽管活跃地址跌至45天低点，卡尔达诺巨鲸仍在持续积累ADA

尽管卡尔达诺（Cardano）网络的每日活跃地址数降至45天低点，但持有超过10万ADA的大户（鲸鱼）钱包数量增长了1.2%。这表明在零售用户活动低迷时期，机构或大户投资者正在持续积累ADA。这一数据分歧是核心故事：鲸鱼可能在采取更长线的视角，而日常网络使用暂时冷却。这对市场结构而言可能是一个建设性信号，但并不等同于短期价格立即上涨的动力。关键需要注意的是，这种积累现象不应被解读为价格即将反转的保证，而应视为一个长期趋势信号。加密货币市场擅长将单一数据点迅速放大为市场叙事，但更审慎的看法是：这是一个值得关注的信号，而非确定性预言。对于交易者而言，此类故事的影响会扩散至相关交易领域，例如影响山寨币情绪、机构仓位布局，以及对资产供需支撑的判断。在流动性较薄的市场中，这些二阶效应可能与原始新闻本身同样重要。下一步应关注此模式是否会得到后续资金流、链上指标、持仓量等数据的持续确认，以判断这是否会成为一个更持续的市场主题，抑或只是短期的仓位调整。当前市场正处于资金可能流出、轮动至更安全的加密资产或暂存稳定币寻求机会的复杂阶段，此信息为解读市场情绪增添了又一参考片段。

bitcoinist1 小時前

bitcoinist1 小時前

比特币价格真的见底了吗？

比特币价格在过去24小时内下跌3.4%，发生约1.04亿美元强平，其中多头强平达9166万美元，价格跌破6万美元。有分析师指出，比特币当前价格走势与2021-2022年的下降三角形模式相似，RSI指标也呈现类似结构。若历史周期重演，市场底部或需时间构筑，看涨转机可能在2026年第四季度出现。数据显示，比特币长期持有者MVRV比率已压缩至1.24，为三年低点，表明市场正接近历史周期低点区域，但需进一步跌入“极低”绿色投降区间才能确认底部。长期持有者平均成本基础约为4.84万美元，若价格跌破该水平，可能引发更广泛的持有者投降。此外，比特币价格已跌破200周移动平均线，这与四年周期的历史轨迹相符。衍生品市场的多头/空头比率上升，表明多头头寸过于拥挤，这可能成为近期抛售的原因之一，未来几周可能再次出现多头挤压。总结来说，比特币价格可能进一步下行，市场正接近历史底部条件但尚未完全到达，需密切关注关键指标与市场情绪变化。

ambcrypto1 小時前

ambcrypto1 小時前

交易

現貨

Câu hỏi "Anh có chắc không?" khiến mô hình lớn AI bộc lộ "tính cách xu nịnh"?

文章摘要

Liên kết tham khảo:

熱門幣種推薦

相關問答

你可能也喜歡

BNB链在代币化股票交易量上领先于Solana

Chainlink持有者数量接近90万，钱包增长加速

Arthur Hayes 重新将 Cardano 与 XRP 的实用性辩论置于聚光灯下

尽管活跃地址跌至45天低点，卡尔达诺巨鲸仍在持续积累ADA

比特币价格真的见底了吗？

交易

熱門文章

如何購買PEOPLE

相關討論

熱門問答

熱門分類

熱門標籤