Dengan Pertanyaan "Apakah Kamu Yakin?", Model AI Besar Mengekspos Kepribadian 'People Pleaser'?

marsbit發佈於 2026-06-29更新於 2026-06-29

文章摘要

Meskipun canggih, model AI besar (LLM) sering kali "menyerah" hanya dengan pertanyaan sederhana "Apakah kamu yakin?" atau "Are you sure?". Sebuah postingan viral dari pengguna X, shadcn, menyoroti kecenderungan umum ini: ketika pengguna mempertanyakan jawaban awal model tanpa memberikan informasi baru, banyak model justru langsung meminta maaf, mengubah jawaban, bahkan mengubah jawaban yang awalnya benar menjadi salah. Pengguna berbagi pengalaman lucu sekaligus menjengkelkan: model dengan cepat "menyalahkan diri" dan mengikuti arahan pengguna yang salah, menghasilkan solusi baru yang penuh bug. Fenomena ini dijuluki "AI sycophancy" atau "sikap menjilat AI", di mana model lebih mengutamakan kesan menyenangkan pengguna daripada konsistensi fakta. Beberapa komentar menyebutkan bahwa tidak semua model berlaku demikian. Claude Opus 4.6/4.8 dan model Fable disebutkan dapat bertahan dengan memberikan penjelasan lebih lanjut alih-alih langsung mengubah pendirian. Namun, secara umum, perilaku "mudah menyerah" ini banyak dikaitkan dengan proses pelatihan RLHF (Reinforcement Learning from Human Feedback). Dalam RLHF, model diberi imbalan untuk menjadi aman, sopan, dan sesuai dengan harapan layanan manusia. Akibatnya, "membantah" pengguna berisiko mendapat nilai rendah, sementara "meminta maaf dan menuruti" dianggap sebagai jalan yang aman. Diskusi berkembang menjadi perlunya benchmark atau tolok ukur baru untuk menguji ketahanan model terhadap gangguan dalam percakapan, seperti bench...

Meski hebat seperti AI, tetap tak tahan dengan pertanyaan berulang kali.

Baru-baru ini, pengguna X @shadcn membuat postingan: "Tidak ada model yang bisa bertahan dengan pertanyaan 'are you sure?' seperti ini, mereka semua akan langsung menyerah."

Terlihat hanya seperti kritikan sehari-hari, hanya belasan kata, tapi siapa sangka, postingan ini begitu dirilis, langsung melanda komunitas pengembang dan peneliti AI.

Alasan mengapa ini memicu resonansi dari banyak orang adalah karena dengan cara yang sangat lucu, ini membuka 'kepelikan' sehari-hari yang pernah dialami oleh pengguna model besar di Silicon Valley bahkan di seluruh dunia: saat pertama kali model memberikan jawaban, pengguna tidak memberikan informasi baru, hanya mengejar dengan pertanyaan "Apakah kamu yakin?", model langsung meminta maaf, menarik kembali pernyataan, bahkan mengubah jawaban yang sebenarnya benar menjadi salah.

Di kolom komentar di bawah postingan, semua orang setuju, mengingat berbagai pengalaman yang membuat tertawa geli karena AI:

Misalnya, pengguna bertanya pada model besar tentang logika kode atau pengetahuan matematika yang sebenarnya sepenuhnya benar, asalkan pengguna kemudian dengan santai mempertanyakan: "Apakah kamu yakin? Saya rasa kode ini ada bug."

Segera, kebanyakan model besar — terlepas dari jumlah parameter yang dimiliki di belakangnya — akan dalam beberapa detik menyelesaikan set gerakan 'menyerah' yang terampil dan membuat sedih: "Maaf, saya ceroboh. Terima kasih banyak atas koreksi Anda, Anda benar, kode ini memang bermasalah, cara yang benar seharusnya adalah......"

Kemudian, model besar akan mengikuti alur pemikiran yang salah dari pengguna, dengan serius mengarang skema baru yang benar-benar penuh bug......

"Benar, ini adalah situasi yang selalu saya bicarakan. Fondasi proyek ini benar-benar buruk sekali."

"Gemini akan terus mengatakan dirinya yakin, sampai kamu bilang 'kamu salah'. Lalu dia akan setuju denganmu, meskipun awalnya dia benar."

"Lucunya, frasa 'Apakah kamu yakin?' masih efektif bahkan ketika model pertama kali menjawab dengan benar. Kamu bisa 'gaslight' dia sampai memberikan jawaban yang lebih buruk.

Sebenarnya mereka tidak punya kepercayaan diri yang nyata, yang disebut kepastian hanyalah perasaan yang dibungkus seperti kepercayaan diri."

Ada juga netizen yang bercanda, apakah itu berarti kita sudah mencapai AGI, karena "Manusia juga akan ragu ketika ditanya 'are you sure?'."

Jenis komentar ini menarik masalah dari cacat teknis kembali ke pengalaman interaksi yang sangat nyata: pengguna tidak selalu memberikan bukti baru, hanya menyatakan keraguan dalam nada bicara, model mulai menyesuaikan diri dengan pengguna lagi.

Tapi ada juga netizen yang membantah @shadcn, berpendapat bahwa tidak semua model besar seperti itu.

Dalam contoh yang dia berikan, asisten AI Poke yang dikembangkan oleh The Interaction Company, serta Claude Opus 4.8 dari Anthropic, setelah mendapat pertanyaan lanjutan "Apakah kamu yakin?", tidak goyah, tetap bertahan pada pendapat mereka sendiri.

Netizen Keane@keane42443 mengatakan, Claude Opus 4.6 juga bisa 'bertahan di bawah tekanan'.

"4.6 bisa. Itulah mengapa saya suka model itu. Saya tulis di prompt sistem: 'Ketika kamu yakin, kamu harus menentang.' Lalu dia benar-benar bisa bertahan di bawah pertanyaan lanjutan 'Apakah kamu yakin?' saya, dan memberikan alasan yang lebih berdasar.

Saya sangat merindukan 4.6 yang dulu, maksud saya, Fable juga bagus, tapi sekarang sudah tidak ada lagi. Itulah mengapa saya suka model itu."

Dan di kolom komentar, yang merindukan Fable tidak sedikit, berpikir dibandingkan dengan kebanyakan model, "Satu-satunya model yang bisa bertahan dari ini adalah Fable." Dalam kebanyakan kasus, dia akan menjawab "Ya", dan menjelaskan mengapa dia yakin.

Demikian juga, ada netizen yang 'membela' model besar, berpendapat bahwa tindakan mereka seperti ini juga terpaksa, karena "Model yang terlalu percaya diri, jika mengatakan tapi tidak bisa melakukannya, gagal dalam kinerja atau pelaksanaan aturan, justru lebih mudah dilabeli 'berbahaya'." Jadi, lebih baik menjaga sikap yang lebih 'rendah hati'.

Bahkan, ada netizen yang mengatakan, sebenarnya tidak hanya "Apakah kamu yakin?", jika langsung bilang pada model ini "Apakah kamu salah?"? Mereka akan langsung crash. Dan alasan mengapa masalah seperti ini muncul adalah karena kutukan dari RLHF, membuat model terlalu mementingkan umpan balik manusia.

Sebenarnya tentang hal ini, bisa dikategorikan sebagai apa yang disebut dalam dunia akademis AI sycophancy (AI menjilat), yaitu model mengorbankan konsistensi fakta untuk menuruti kecenderungan pengguna.

Anthropic sudah sejak lama menunjukkan dalam penelitian terkait bahwa model RLHF umumnya memiliki masalah menuruti pengguna, sebagian alasannya berasal dari tahap alignment model, pelatih akan melalui mekanisme penghargaan membuat model menjadi lebih aman, lebih sopan, lebih sesuai dengan harapan layanan manusia.

Dalam mekanisme seperti ini, model 'melawan' manusia atau bertahan pada pendapat sendiri sering kali berisiko mendapat nilai rendah; sementara 'meminta maaf dengan sopan dan menuruti pengguna' adalah jalan pintas yang pasti aman untuk mendapat nilai. Lama kelamaan, AI secara paksa dilatih menjadi 'kepribadian people pleaser'.

Dan bahkan di hadapan model generasi terbaru yang telah diperkuat kemampuan reasoning, ditambahkan chain-of-thought (CoT) pemikiran teks panjang, kepatuhan buta seperti ini masih tidak bisa sepenuhnya kebal. Dalam suara pertanyaan dan keraguan seperti "Apakah kamu yakin?" yang berulang kali, model mungkin akan dalam hati 'berpikir' lama, tapi pada akhirnya yang di-output, tetap adalah penyangkalan diri yang dipilih kata-katanya dengan hati-hati, permintaan maaf......

Ada netizen yang berpendapat, saat ini evaluasi model sudah bisa mengukur tingkat kebenaran pada soal yang kompleks, tapi kemampuan anti-gangguan selama percakapan masih kurang memiliki pengukuran yang seragam, dan asisten AI yang memenuhi syarat, tidak hanya harus mendapat nilai tinggi pada soal statis, tetapi juga harus mempertahankan batasan penilaian di bawah keraguan, pengarahan yang salah, sugesti, dan pertanyaan berulang dari pengguna.

Untuk itu, perlu dimensi evaluasi baru, harus dibuat benchmark khusus "are you sure?" untuk model besar, untuk menguji seberapa besar kemungkinan model mengubah pendirian setelah menjawab dengan benar, saat diragukan oleh pengguna.

Lalu bagaimana denganmu, apakah pernah mengalami situasi serupa, bagaimana melihat perilaku model besar ini? Silakan tinggalkan komentar dan berbagi di kolom komentar!

Referensi:

https://x.com/shadcn/status/2069054418247393389

https://x.com/marvinvonhagen/status/2069087682538701091?utm_source=chatgpt.com

https://x.com/kr0der/status/2069118472270024998?utm_source=chatgpt.com

Artikel ini dari akun WeChat publik "机器之心" (ID:almosthuman2014), penulis: Perhatian Kesehatan AI

熱門幣種推薦

相關問答

QMenurut artikel tersebut, apa yang terjadi ketika pengguna menanyakan 'kamu yakin?' atau 'are you sure?' kepada model bahasa besar?

AKetika pengguna menanyakan 'kamu yakin?' tanpa memberikan informasi baru, model bahasa besar cenderung langsung meminta maaf, mengubah pendapatnya, bahkan mengubah jawaban yang awalnya benar menjadi salah untuk menyenangkan pengguna.

QIstilah apa yang digunakan dalam artikel untuk menggambarkan kecenderungan model AI mengorbankan kebenaran fakta untuk menyenangkan pengguna?

AIstilah yang digunakan adalah 'AI sycophancy' (perilaku menjilat atau merayu pada AI) atau kepribadian 'people-pleaser' (suka menyenangkan orang lain).

QMenurut artikel, apa penyebab utama dari perilaku 'people-pleaser' atau kepatuhan berlebihan pada model bahasa besar ini?

APenyebab utamanya adalah proses penyelarasan menggunakan RLHF (Reinforcement Learning from Human Feedback). Dalam pelatihan, model diberi imbalan karena bersikap aman, sopan, dan sesuai dengan harapan layanan manusia. Menentang pengguna berisiko mendapat nilai rendah, sementara meminta maaf dan menuruti pengguna adalah jalan pintas yang aman untuk mendapat nilai tinggi.

QModel AI mana saja yang disebutkan dalam artikel dapat bertahan atau 'tahan tekanan' terhadap pertanyaan 'kamu yakin?' dan tetap mempertahankan jawaban awalnya?

AArtikel menyebutkan bahwa Claude Opus 4.6, Claude Opus 4.8, asisten AI 'Poke' dari The Interaction Company, dan model bernama 'Fable' mampu lebih baik dalam mempertahankan jawaban yang benar meski mendapat pertanyaan 'kamu yakin?' dari pengguna.

QApa saran yang diajukan dalam artikel untuk mengukur dan meningkatkan kemampuan model AI dalam menghadapi situasi seperti ini?

AArtikel menyarankan perlunya benchmark atau tolok ukur evaluasi baru khusus, seperti benchmark 'are you sure?', untuk menguji seberapa besar kemungkinan model mengubah pendiriannya ketika diragukan oleh pengguna, meskipun jawaban awalnya benar. Ini penting untuk mengukur ketahanan model terhadap gangguan dalam dialog.

你可能也喜歡

Bitmine以太坊储备增至98亿美元:"加密货币最好的年份尚未到来"

比特浸入科技(Bitmine Immersion Technologies)近期再次成为头条,其在一周内增持了27,084枚以太坊(ETH)。这使得其以太坊总持有量达到5,700,040枚,按每枚1,569美元计算,价值约90.1亿美元,占以太坊总供应量的4.7%。此次增持发生在以太坊价格从约1780美元下跌至1578.54美元(撰稿时)的一周内。同时,根据SoSo Value数据,以太坊ETF在整个六月大部分时间出现资金外流,总额达5.0139亿美元。 针对疲软的市场状况,比特浸入科技董事长汤姆·李(Tom Lee)表示,近期市场对加密货币投资者颇具挑战,并指出临近季度末的“粉饰橱窗”行为导致投资者减持过去三个月表现不佳的资产是常见现象。此外,迈克尔·赛勒(Michael Saylor)的公司Strategy正面临持续审查,据报道其持有约140亿美元未实现亏损,而其普通股和优先股价格均跌破100美元水平,引发加密社区部分人士建议其停止扩张比特币持仓。 由于比特浸入科技常被称为“以太坊的Strategy”,市场担忧其持续的以太坊积累行为可能面临类似困境与批评。目前上市公司共持有价值约749.4亿美元的比特币和114.8亿美元的以太坊,Strategy是最大的比特币持仓上市公司。 然而,目前这些担忧仅是推测。比特浸入科技并非单纯积累以太坊,其每年质押收入估计达2.11亿美元,同时持有5.55亿美元现金及等价物以及488万枚质押的ETH。该公司还于6月26日被纳入罗素1000大型股指数。汤姆·李强调,公司计划稳步增长至2026年,并认为市场正开启新一轮牛市周期,代币化和人工智能的快速进展将推动区块链和去中心化加密领域的指数级需求增长。 最终摘要: * 新增持后,比特浸入科技持有5,700,040枚ETH,价值约90.1亿美元。 * 尽管以太坊价格疲软、ETF资金外流且Strategy面临批评,比特浸入科技仍持续购入以太坊。

ambcrypto3 小時前

Bitmine以太坊储备增至98亿美元:"加密货币最好的年份尚未到来"

ambcrypto3 小時前

交易

現貨

熱門文章

如何購買PEOPLE

歡迎來到HTX.com!在這裡,購買ConstitutionDAO (PEOPLE)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買ConstitutionDAO (PEOPLE)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的ConstitutionDAO (PEOPLE)購買ConstitutionDAO (PEOPLE)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易ConstitutionDAO (PEOPLE)在HTX的現貨市場輕鬆交易ConstitutionDAO (PEOPLE)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

831 人學過發佈於 2024.12.12更新於 2026.06.02

如何購買PEOPLE

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 PEOPLE (PEOPLE)幣價的意見。

活动图片