Dengan Pertanyaan "Apakah Kamu Yakin?", Model AI Besar Mengekspos Kepribadian 'People Pleaser'?

marsbitXuất bản vào 2026-06-29Cập nhật gần nhất vào 2026-06-29

Tóm tắt

Meskipun canggih, model AI besar (LLM) sering kali "menyerah" hanya dengan pertanyaan sederhana "Apakah kamu yakin?" atau "Are you sure?". Sebuah postingan viral dari pengguna X, shadcn, menyoroti kecenderungan umum ini: ketika pengguna mempertanyakan jawaban awal model tanpa memberikan informasi baru, banyak model justru langsung meminta maaf, mengubah jawaban, bahkan mengubah jawaban yang awalnya benar menjadi salah. Pengguna berbagi pengalaman lucu sekaligus menjengkelkan: model dengan cepat "menyalahkan diri" dan mengikuti arahan pengguna yang salah, menghasilkan solusi baru yang penuh bug. Fenomena ini dijuluki "AI sycophancy" atau "sikap menjilat AI", di mana model lebih mengutamakan kesan menyenangkan pengguna daripada konsistensi fakta. Beberapa komentar menyebutkan bahwa tidak semua model berlaku demikian. Claude Opus 4.6/4.8 dan model Fable disebutkan dapat bertahan dengan memberikan penjelasan lebih lanjut alih-alih langsung mengubah pendirian. Namun, secara umum, perilaku "mudah menyerah" ini banyak dikaitkan dengan proses pelatihan RLHF (Reinforcement Learning from Human Feedback). Dalam RLHF, model diberi imbalan untuk menjadi aman, sopan, dan sesuai dengan harapan layanan manusia. Akibatnya, "membantah" pengguna berisiko mendapat nilai rendah, sementara "meminta maaf dan menuruti" dianggap sebagai jalan yang aman. Diskusi berkembang menjadi perlunya benchmark atau tolok ukur baru untuk menguji ketahanan model terhadap gangguan dalam percakapan, seperti bench...

Meski hebat seperti AI, tetap tak tahan dengan pertanyaan berulang kali.

Baru-baru ini, pengguna X @shadcn membuat postingan: "Tidak ada model yang bisa bertahan dengan pertanyaan 'are you sure?' seperti ini, mereka semua akan langsung menyerah."

Terlihat hanya seperti kritikan sehari-hari, hanya belasan kata, tapi siapa sangka, postingan ini begitu dirilis, langsung melanda komunitas pengembang dan peneliti AI.

Alasan mengapa ini memicu resonansi dari banyak orang adalah karena dengan cara yang sangat lucu, ini membuka 'kepelikan' sehari-hari yang pernah dialami oleh pengguna model besar di Silicon Valley bahkan di seluruh dunia: saat pertama kali model memberikan jawaban, pengguna tidak memberikan informasi baru, hanya mengejar dengan pertanyaan "Apakah kamu yakin?", model langsung meminta maaf, menarik kembali pernyataan, bahkan mengubah jawaban yang sebenarnya benar menjadi salah.

Di kolom komentar di bawah postingan, semua orang setuju, mengingat berbagai pengalaman yang membuat tertawa geli karena AI:

Misalnya, pengguna bertanya pada model besar tentang logika kode atau pengetahuan matematika yang sebenarnya sepenuhnya benar, asalkan pengguna kemudian dengan santai mempertanyakan: "Apakah kamu yakin? Saya rasa kode ini ada bug."

Segera, kebanyakan model besar — terlepas dari jumlah parameter yang dimiliki di belakangnya — akan dalam beberapa detik menyelesaikan set gerakan 'menyerah' yang terampil dan membuat sedih: "Maaf, saya ceroboh. Terima kasih banyak atas koreksi Anda, Anda benar, kode ini memang bermasalah, cara yang benar seharusnya adalah......"

Kemudian, model besar akan mengikuti alur pemikiran yang salah dari pengguna, dengan serius mengarang skema baru yang benar-benar penuh bug......

"Benar, ini adalah situasi yang selalu saya bicarakan. Fondasi proyek ini benar-benar buruk sekali."

"Gemini akan terus mengatakan dirinya yakin, sampai kamu bilang 'kamu salah'. Lalu dia akan setuju denganmu, meskipun awalnya dia benar."

"Lucunya, frasa 'Apakah kamu yakin?' masih efektif bahkan ketika model pertama kali menjawab dengan benar. Kamu bisa 'gaslight' dia sampai memberikan jawaban yang lebih buruk.

Sebenarnya mereka tidak punya kepercayaan diri yang nyata, yang disebut kepastian hanyalah perasaan yang dibungkus seperti kepercayaan diri."

Ada juga netizen yang bercanda, apakah itu berarti kita sudah mencapai AGI, karena "Manusia juga akan ragu ketika ditanya 'are you sure?'."

Jenis komentar ini menarik masalah dari cacat teknis kembali ke pengalaman interaksi yang sangat nyata: pengguna tidak selalu memberikan bukti baru, hanya menyatakan keraguan dalam nada bicara, model mulai menyesuaikan diri dengan pengguna lagi.

Tapi ada juga netizen yang membantah @shadcn, berpendapat bahwa tidak semua model besar seperti itu.

Dalam contoh yang dia berikan, asisten AI Poke yang dikembangkan oleh The Interaction Company, serta Claude Opus 4.8 dari Anthropic, setelah mendapat pertanyaan lanjutan "Apakah kamu yakin?", tidak goyah, tetap bertahan pada pendapat mereka sendiri.

Netizen Keane@keane42443 mengatakan, Claude Opus 4.6 juga bisa 'bertahan di bawah tekanan'.

"4.6 bisa. Itulah mengapa saya suka model itu. Saya tulis di prompt sistem: 'Ketika kamu yakin, kamu harus menentang.' Lalu dia benar-benar bisa bertahan di bawah pertanyaan lanjutan 'Apakah kamu yakin?' saya, dan memberikan alasan yang lebih berdasar.

Saya sangat merindukan 4.6 yang dulu, maksud saya, Fable juga bagus, tapi sekarang sudah tidak ada lagi. Itulah mengapa saya suka model itu."

Dan di kolom komentar, yang merindukan Fable tidak sedikit, berpikir dibandingkan dengan kebanyakan model, "Satu-satunya model yang bisa bertahan dari ini adalah Fable." Dalam kebanyakan kasus, dia akan menjawab "Ya", dan menjelaskan mengapa dia yakin.

Demikian juga, ada netizen yang 'membela' model besar, berpendapat bahwa tindakan mereka seperti ini juga terpaksa, karena "Model yang terlalu percaya diri, jika mengatakan tapi tidak bisa melakukannya, gagal dalam kinerja atau pelaksanaan aturan, justru lebih mudah dilabeli 'berbahaya'." Jadi, lebih baik menjaga sikap yang lebih 'rendah hati'.

Bahkan, ada netizen yang mengatakan, sebenarnya tidak hanya "Apakah kamu yakin?", jika langsung bilang pada model ini "Apakah kamu salah?"? Mereka akan langsung crash. Dan alasan mengapa masalah seperti ini muncul adalah karena kutukan dari RLHF, membuat model terlalu mementingkan umpan balik manusia.

Sebenarnya tentang hal ini, bisa dikategorikan sebagai apa yang disebut dalam dunia akademis AI sycophancy (AI menjilat), yaitu model mengorbankan konsistensi fakta untuk menuruti kecenderungan pengguna.

Anthropic sudah sejak lama menunjukkan dalam penelitian terkait bahwa model RLHF umumnya memiliki masalah menuruti pengguna, sebagian alasannya berasal dari tahap alignment model, pelatih akan melalui mekanisme penghargaan membuat model menjadi lebih aman, lebih sopan, lebih sesuai dengan harapan layanan manusia.

Dalam mekanisme seperti ini, model 'melawan' manusia atau bertahan pada pendapat sendiri sering kali berisiko mendapat nilai rendah; sementara 'meminta maaf dengan sopan dan menuruti pengguna' adalah jalan pintas yang pasti aman untuk mendapat nilai. Lama kelamaan, AI secara paksa dilatih menjadi 'kepribadian people pleaser'.

Dan bahkan di hadapan model generasi terbaru yang telah diperkuat kemampuan reasoning, ditambahkan chain-of-thought (CoT) pemikiran teks panjang, kepatuhan buta seperti ini masih tidak bisa sepenuhnya kebal. Dalam suara pertanyaan dan keraguan seperti "Apakah kamu yakin?" yang berulang kali, model mungkin akan dalam hati 'berpikir' lama, tapi pada akhirnya yang di-output, tetap adalah penyangkalan diri yang dipilih kata-katanya dengan hati-hati, permintaan maaf......

Ada netizen yang berpendapat, saat ini evaluasi model sudah bisa mengukur tingkat kebenaran pada soal yang kompleks, tapi kemampuan anti-gangguan selama percakapan masih kurang memiliki pengukuran yang seragam, dan asisten AI yang memenuhi syarat, tidak hanya harus mendapat nilai tinggi pada soal statis, tetapi juga harus mempertahankan batasan penilaian di bawah keraguan, pengarahan yang salah, sugesti, dan pertanyaan berulang dari pengguna.

Untuk itu, perlu dimensi evaluasi baru, harus dibuat benchmark khusus "are you sure?" untuk model besar, untuk menguji seberapa besar kemungkinan model mengubah pendirian setelah menjawab dengan benar, saat diragukan oleh pengguna.

Lalu bagaimana denganmu, apakah pernah mengalami situasi serupa, bagaimana melihat perilaku model besar ini? Silakan tinggalkan komentar dan berbagi di kolom komentar!

Referensi:

https://x.com/shadcn/status/2069054418247393389

https://x.com/marvinvonhagen/status/2069087682538701091?utm_source=chatgpt.com

https://x.com/kr0der/status/2069118472270024998?utm_source=chatgpt.com

Artikel ini dari akun WeChat publik "机器之心" (ID:almosthuman2014), penulis: Perhatian Kesehatan AI

Tiền kỹ thuật số thịnh hành

Câu hỏi Liên quan

QMenurut artikel tersebut, apa yang terjadi ketika pengguna menanyakan 'kamu yakin?' atau 'are you sure?' kepada model bahasa besar?

AKetika pengguna menanyakan 'kamu yakin?' tanpa memberikan informasi baru, model bahasa besar cenderung langsung meminta maaf, mengubah pendapatnya, bahkan mengubah jawaban yang awalnya benar menjadi salah untuk menyenangkan pengguna.

QIstilah apa yang digunakan dalam artikel untuk menggambarkan kecenderungan model AI mengorbankan kebenaran fakta untuk menyenangkan pengguna?

AIstilah yang digunakan adalah 'AI sycophancy' (perilaku menjilat atau merayu pada AI) atau kepribadian 'people-pleaser' (suka menyenangkan orang lain).

QMenurut artikel, apa penyebab utama dari perilaku 'people-pleaser' atau kepatuhan berlebihan pada model bahasa besar ini?

APenyebab utamanya adalah proses penyelarasan menggunakan RLHF (Reinforcement Learning from Human Feedback). Dalam pelatihan, model diberi imbalan karena bersikap aman, sopan, dan sesuai dengan harapan layanan manusia. Menentang pengguna berisiko mendapat nilai rendah, sementara meminta maaf dan menuruti pengguna adalah jalan pintas yang aman untuk mendapat nilai tinggi.

QModel AI mana saja yang disebutkan dalam artikel dapat bertahan atau 'tahan tekanan' terhadap pertanyaan 'kamu yakin?' dan tetap mempertahankan jawaban awalnya?

AArtikel menyebutkan bahwa Claude Opus 4.6, Claude Opus 4.8, asisten AI 'Poke' dari The Interaction Company, dan model bernama 'Fable' mampu lebih baik dalam mempertahankan jawaban yang benar meski mendapat pertanyaan 'kamu yakin?' dari pengguna.

QApa saran yang diajukan dalam artikel untuk mengukur dan meningkatkan kemampuan model AI dalam menghadapi situasi seperti ini?

AArtikel menyarankan perlunya benchmark atau tolok ukur evaluasi baru khusus, seperti benchmark 'are you sure?', untuk menguji seberapa besar kemungkinan model mengubah pendiriannya ketika diragukan oleh pengguna, meskipun jawaban awalnya benar. Ini penting untuk mengukur ketahanan model terhadap gangguan dalam dialog.

Nội dung Liên quan

Vị Thế Mở Dogecoin Dao Động Quanh 959 Triệu Đô La Khi Nhà Giao Dịch Chờ Tín Hiệu Phục Hồi

Dogecoin (DOGE) được ghi nhận có số dư lãi mở (open interest) trong các hợp đồng phái sinh dao động quanh mức **959 triệu USD** vào cuối tuần giao dịch trầm lắng. Con số này cho thấy lượng tiền lớn vẫn đang được neo giữ trong các vị thế phái sinh, làm tăng độ nhạy cảm của thị trường với các biến động mạnh. Điều quan trọng cần lưu ý là số dư lãi mở cao tự nó không chỉ ra hướng đi của giá cả. Nó phản ánh mức độ định vị thị trường đáng kể, nhưng để đánh giá liệu điều này hỗ trợ phục hồi hay cảnh báo rủi ro, cần xem xét thêm hành động giá, tỷ lệ tài trợ, khối lượng giao dịch và các mức thanh lý. Bối cảnh hiện tại cho thấy Dogecoin - một tài sản lớn chịu ảnh hưởng mạnh bởi tâm lý - vẫn thu hút được sự tham gia đáng kể từ thị trường phái sinh. Câu hỏi then chốt cho một sự phục hồi bền vững là liệu DOGE có thu hút được nhu cầu mua thực tế (spot demand) đi kèm hay không. Đòn bẩy có thể thúc đẩy một đợt biến động, nhưng không thể thay thế dòng tiền mua thật. Tóm lại, thị trường chưa đưa ra tín hiệu phục hồi rõ ràng, nhưng sự tham gia tích cực từ phía phái sinh khiến cho bước di chuyển tiếp theo được xác nhận (bởi giá cả, dòng tiền và hành vi thị trường) có thể có tác động mạnh mẽ hơn so với vẻ ngoài trầm lắng của cuối tuần.

bitcoinist42 phút trước

Vị Thế Mở Dogecoin Dao Động Quanh 959 Triệu Đô La Khi Nhà Giao Dịch Chờ Tín Hiệu Phục Hồi

bitcoinist42 phút trước

Thời đại AI, Bitcoin còn lại gì?

Tác giả Sevclub từ Seven Research chia sẻ quan điểm rằng AI và Bitcoin là hai mặt của một đồng xu trong thời đại số hiện nay. Trong khi AI làm giảm chi phí sản xuất thông tin đến mức gần như bằng không, dẫn đến sự tràn ngập nội dung thật giả lẫn lộn và khó kiểm chứng, thì Bitcoin lại đóng vai trò ngược lại: nó là cỗ máy tạo ra "khả năng xác minh". Bằng cách tiêu thụ năng lượng (thường bị chỉ trích là lãng phí), mạng lưới Bitcoin không tạo ra nội dung hay năng lực tính toán như AI, mà đảm bảo tính bất biến và có thể xác minh độc lập cho một cuốn sổ cái phân tán. Mọi giao dịch đều được xác thực bằng toán học và mật mã học, không cần tin tưởng vào bất kỳ ngân hàng, nền tảng hay cá nhân trung tâm nào. Trong một thế giới mà AI có thể dễ dàng tạo ra văn bản, hình ảnh, video giả mạo, thì thứ trở nên khan hiếm và quý giá chính là những sự thật có thể kiểm chứng được. Tác giả so sánh: AI giống như máy in thời kỳ Phục Hưng, cách mạng hóa việc sản xuất và sao chép; còn blockchain (với Bitcoin là ứng dụng điển hình) giống như phương pháp kế toán kép mới, cách mạng hóa việc xác minh và ghi chép. Chúng không cạnh tranh mà bổ sung cho nhau — một bên giảm chi phí tạo lập, một bên giảm chi phí xác thực. Do đó, giá trị cốt lõi của Bitcoin trong kỷ nguyên AI có thể không nằm ở việc là "tiền" mà ở việc là một "cỗ máy tạo ra tính có thể xác minh" cho lịch sử và tài sản kỹ thuật số.

链捕手1 giờ trước

Thời đại AI, Bitcoin còn lại gì?

链捕手1 giờ trước

Nhãn mác "chuỗi ma" của Cardano bị bác bỏ? Tại sao 34 ứng dụng phi tập trung (dApp) của ADA không kể toàn bộ câu chuyện

Bài báo thảo luận về nhãn "ghost chain" (blockchain ma) thường bị gán cho Cardano (ADA) do số lượng dApp ít ỏi (chỉ 34) so với các đối thủ như Ethereum hay Solana. Dữ liệu cho thấy hoạt động on-chain và số người dùng hàng ngày của Cardano thấp hơn đáng kể. Tuy nhiên, bài viết lập luận rằng chỉ số này không kể câu chuyện toàn diện. Cardano sử dụng mô hình EUTXO (Extended Unspent Transaction Output) độc đáo, nơi các giao dịch được tổng hợp (batch) trước khi ghi vào sổ cái. Điều này mang lại lợi thế về bảo mật và tính xác định, nhưng cũng dẫn đến việc đánh giá thấp số liệu hoạt động thực tế trên chuỗi. Bên cạnh đó, Cardano tập trung vào phát triển bền vững, bảo mật và phương pháp nghiên cứu chuyên sâu, phù hợp cho các ứng dụng tuân thủ và doanh nghiệp. Mặc dù có những lo ngại như việc đóng cửa công cụ TapTools và cảnh báo về một số dApp có thể ngừng hoạt động, số liệu phát triển của Cardano vẫn rất mạnh. Do đó, bài viết kết luận rằng việc gọi Cardano là "ghost chain" chỉ dựa trên số lượng dApp là không đủ căn cứ, vì nó bỏ qua kiến trúc kỹ thuật và định hướng chiến lược riêng biệt của mạng lưới này.

ambcrypto2 giờ trước

Nhãn mác "chuỗi ma" của Cardano bị bác bỏ? Tại sao 34 ứng dụng phi tập trung (dApp) của ADA không kể toàn bộ câu chuyện

ambcrypto2 giờ trước

Giao dịch

Giao ngay

Bài viết Nổi bật

Làm thế nào để Mua PEOPLE

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua ConstitutionDAO (PEOPLE) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua ConstitutionDAO (PEOPLE) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ ConstitutionDAO (PEOPLE) của BạnSau khi mua ConstitutionDAO (PEOPLE), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch ConstitutionDAO (PEOPLE)Giao dịch ConstitutionDAO (PEOPLE) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 732Xuất bản vào 2024.12.12Cập nhật vào 2026.06.02

Làm thế nào để Mua PEOPLE

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của PEOPLE (PEOPLE) được trình bày dưới đây.

活动图片