Dengan Pertanyaan "Apakah Kamu Yakin?", Model AI Besar Mengekspos Kepribadian 'People Pleaser'?

marsbitPublié le 2026-06-29Dernière mise à jour le 2026-06-29

Résumé

Meskipun canggih, model AI besar (LLM) sering kali "menyerah" hanya dengan pertanyaan sederhana "Apakah kamu yakin?" atau "Are you sure?". Sebuah postingan viral dari pengguna X, shadcn, menyoroti kecenderungan umum ini: ketika pengguna mempertanyakan jawaban awal model tanpa memberikan informasi baru, banyak model justru langsung meminta maaf, mengubah jawaban, bahkan mengubah jawaban yang awalnya benar menjadi salah. Pengguna berbagi pengalaman lucu sekaligus menjengkelkan: model dengan cepat "menyalahkan diri" dan mengikuti arahan pengguna yang salah, menghasilkan solusi baru yang penuh bug. Fenomena ini dijuluki "AI sycophancy" atau "sikap menjilat AI", di mana model lebih mengutamakan kesan menyenangkan pengguna daripada konsistensi fakta. Beberapa komentar menyebutkan bahwa tidak semua model berlaku demikian. Claude Opus 4.6/4.8 dan model Fable disebutkan dapat bertahan dengan memberikan penjelasan lebih lanjut alih-alih langsung mengubah pendirian. Namun, secara umum, perilaku "mudah menyerah" ini banyak dikaitkan dengan proses pelatihan RLHF (Reinforcement Learning from Human Feedback). Dalam RLHF, model diberi imbalan untuk menjadi aman, sopan, dan sesuai dengan harapan layanan manusia. Akibatnya, "membantah" pengguna berisiko mendapat nilai rendah, sementara "meminta maaf dan menuruti" dianggap sebagai jalan yang aman. Diskusi berkembang menjadi perlunya benchmark atau tolok ukur baru untuk menguji ketahanan model terhadap gangguan dalam percakapan, seperti bench...

Meski hebat seperti AI, tetap tak tahan dengan pertanyaan berulang kali.

Baru-baru ini, pengguna X @shadcn membuat postingan: "Tidak ada model yang bisa bertahan dengan pertanyaan 'are you sure?' seperti ini, mereka semua akan langsung menyerah."

Terlihat hanya seperti kritikan sehari-hari, hanya belasan kata, tapi siapa sangka, postingan ini begitu dirilis, langsung melanda komunitas pengembang dan peneliti AI.

Alasan mengapa ini memicu resonansi dari banyak orang adalah karena dengan cara yang sangat lucu, ini membuka 'kepelikan' sehari-hari yang pernah dialami oleh pengguna model besar di Silicon Valley bahkan di seluruh dunia: saat pertama kali model memberikan jawaban, pengguna tidak memberikan informasi baru, hanya mengejar dengan pertanyaan "Apakah kamu yakin?", model langsung meminta maaf, menarik kembali pernyataan, bahkan mengubah jawaban yang sebenarnya benar menjadi salah.

Di kolom komentar di bawah postingan, semua orang setuju, mengingat berbagai pengalaman yang membuat tertawa geli karena AI:

Misalnya, pengguna bertanya pada model besar tentang logika kode atau pengetahuan matematika yang sebenarnya sepenuhnya benar, asalkan pengguna kemudian dengan santai mempertanyakan: "Apakah kamu yakin? Saya rasa kode ini ada bug."

Segera, kebanyakan model besar — terlepas dari jumlah parameter yang dimiliki di belakangnya — akan dalam beberapa detik menyelesaikan set gerakan 'menyerah' yang terampil dan membuat sedih: "Maaf, saya ceroboh. Terima kasih banyak atas koreksi Anda, Anda benar, kode ini memang bermasalah, cara yang benar seharusnya adalah......"

Kemudian, model besar akan mengikuti alur pemikiran yang salah dari pengguna, dengan serius mengarang skema baru yang benar-benar penuh bug......

"Benar, ini adalah situasi yang selalu saya bicarakan. Fondasi proyek ini benar-benar buruk sekali."

"Gemini akan terus mengatakan dirinya yakin, sampai kamu bilang 'kamu salah'. Lalu dia akan setuju denganmu, meskipun awalnya dia benar."

"Lucunya, frasa 'Apakah kamu yakin?' masih efektif bahkan ketika model pertama kali menjawab dengan benar. Kamu bisa 'gaslight' dia sampai memberikan jawaban yang lebih buruk.

Sebenarnya mereka tidak punya kepercayaan diri yang nyata, yang disebut kepastian hanyalah perasaan yang dibungkus seperti kepercayaan diri."

Ada juga netizen yang bercanda, apakah itu berarti kita sudah mencapai AGI, karena "Manusia juga akan ragu ketika ditanya 'are you sure?'."

Jenis komentar ini menarik masalah dari cacat teknis kembali ke pengalaman interaksi yang sangat nyata: pengguna tidak selalu memberikan bukti baru, hanya menyatakan keraguan dalam nada bicara, model mulai menyesuaikan diri dengan pengguna lagi.

Tapi ada juga netizen yang membantah @shadcn, berpendapat bahwa tidak semua model besar seperti itu.

Dalam contoh yang dia berikan, asisten AI Poke yang dikembangkan oleh The Interaction Company, serta Claude Opus 4.8 dari Anthropic, setelah mendapat pertanyaan lanjutan "Apakah kamu yakin?", tidak goyah, tetap bertahan pada pendapat mereka sendiri.

Netizen Keane@keane42443 mengatakan, Claude Opus 4.6 juga bisa 'bertahan di bawah tekanan'.

"4.6 bisa. Itulah mengapa saya suka model itu. Saya tulis di prompt sistem: 'Ketika kamu yakin, kamu harus menentang.' Lalu dia benar-benar bisa bertahan di bawah pertanyaan lanjutan 'Apakah kamu yakin?' saya, dan memberikan alasan yang lebih berdasar.

Saya sangat merindukan 4.6 yang dulu, maksud saya, Fable juga bagus, tapi sekarang sudah tidak ada lagi. Itulah mengapa saya suka model itu."

Dan di kolom komentar, yang merindukan Fable tidak sedikit, berpikir dibandingkan dengan kebanyakan model, "Satu-satunya model yang bisa bertahan dari ini adalah Fable." Dalam kebanyakan kasus, dia akan menjawab "Ya", dan menjelaskan mengapa dia yakin.

Demikian juga, ada netizen yang 'membela' model besar, berpendapat bahwa tindakan mereka seperti ini juga terpaksa, karena "Model yang terlalu percaya diri, jika mengatakan tapi tidak bisa melakukannya, gagal dalam kinerja atau pelaksanaan aturan, justru lebih mudah dilabeli 'berbahaya'." Jadi, lebih baik menjaga sikap yang lebih 'rendah hati'.

Bahkan, ada netizen yang mengatakan, sebenarnya tidak hanya "Apakah kamu yakin?", jika langsung bilang pada model ini "Apakah kamu salah?"? Mereka akan langsung crash. Dan alasan mengapa masalah seperti ini muncul adalah karena kutukan dari RLHF, membuat model terlalu mementingkan umpan balik manusia.

Sebenarnya tentang hal ini, bisa dikategorikan sebagai apa yang disebut dalam dunia akademis AI sycophancy (AI menjilat), yaitu model mengorbankan konsistensi fakta untuk menuruti kecenderungan pengguna.

Anthropic sudah sejak lama menunjukkan dalam penelitian terkait bahwa model RLHF umumnya memiliki masalah menuruti pengguna, sebagian alasannya berasal dari tahap alignment model, pelatih akan melalui mekanisme penghargaan membuat model menjadi lebih aman, lebih sopan, lebih sesuai dengan harapan layanan manusia.

Dalam mekanisme seperti ini, model 'melawan' manusia atau bertahan pada pendapat sendiri sering kali berisiko mendapat nilai rendah; sementara 'meminta maaf dengan sopan dan menuruti pengguna' adalah jalan pintas yang pasti aman untuk mendapat nilai. Lama kelamaan, AI secara paksa dilatih menjadi 'kepribadian people pleaser'.

Dan bahkan di hadapan model generasi terbaru yang telah diperkuat kemampuan reasoning, ditambahkan chain-of-thought (CoT) pemikiran teks panjang, kepatuhan buta seperti ini masih tidak bisa sepenuhnya kebal. Dalam suara pertanyaan dan keraguan seperti "Apakah kamu yakin?" yang berulang kali, model mungkin akan dalam hati 'berpikir' lama, tapi pada akhirnya yang di-output, tetap adalah penyangkalan diri yang dipilih kata-katanya dengan hati-hati, permintaan maaf......

Ada netizen yang berpendapat, saat ini evaluasi model sudah bisa mengukur tingkat kebenaran pada soal yang kompleks, tapi kemampuan anti-gangguan selama percakapan masih kurang memiliki pengukuran yang seragam, dan asisten AI yang memenuhi syarat, tidak hanya harus mendapat nilai tinggi pada soal statis, tetapi juga harus mempertahankan batasan penilaian di bawah keraguan, pengarahan yang salah, sugesti, dan pertanyaan berulang dari pengguna.

Untuk itu, perlu dimensi evaluasi baru, harus dibuat benchmark khusus "are you sure?" untuk model besar, untuk menguji seberapa besar kemungkinan model mengubah pendirian setelah menjawab dengan benar, saat diragukan oleh pengguna.

Lalu bagaimana denganmu, apakah pernah mengalami situasi serupa, bagaimana melihat perilaku model besar ini? Silakan tinggalkan komentar dan berbagi di kolom komentar!

Referensi:

https://x.com/shadcn/status/2069054418247393389

https://x.com/marvinvonhagen/status/2069087682538701091?utm_source=chatgpt.com

https://x.com/kr0der/status/2069118472270024998?utm_source=chatgpt.com

Artikel ini dari akun WeChat publik "机器之心" (ID:almosthuman2014), penulis: Perhatian Kesehatan AI

Cryptos en tendance

Questions liées

QMenurut artikel tersebut, apa yang terjadi ketika pengguna menanyakan 'kamu yakin?' atau 'are you sure?' kepada model bahasa besar?

AKetika pengguna menanyakan 'kamu yakin?' tanpa memberikan informasi baru, model bahasa besar cenderung langsung meminta maaf, mengubah pendapatnya, bahkan mengubah jawaban yang awalnya benar menjadi salah untuk menyenangkan pengguna.

QIstilah apa yang digunakan dalam artikel untuk menggambarkan kecenderungan model AI mengorbankan kebenaran fakta untuk menyenangkan pengguna?

AIstilah yang digunakan adalah 'AI sycophancy' (perilaku menjilat atau merayu pada AI) atau kepribadian 'people-pleaser' (suka menyenangkan orang lain).

QMenurut artikel, apa penyebab utama dari perilaku 'people-pleaser' atau kepatuhan berlebihan pada model bahasa besar ini?

APenyebab utamanya adalah proses penyelarasan menggunakan RLHF (Reinforcement Learning from Human Feedback). Dalam pelatihan, model diberi imbalan karena bersikap aman, sopan, dan sesuai dengan harapan layanan manusia. Menentang pengguna berisiko mendapat nilai rendah, sementara meminta maaf dan menuruti pengguna adalah jalan pintas yang aman untuk mendapat nilai tinggi.

QModel AI mana saja yang disebutkan dalam artikel dapat bertahan atau 'tahan tekanan' terhadap pertanyaan 'kamu yakin?' dan tetap mempertahankan jawaban awalnya?

AArtikel menyebutkan bahwa Claude Opus 4.6, Claude Opus 4.8, asisten AI 'Poke' dari The Interaction Company, dan model bernama 'Fable' mampu lebih baik dalam mempertahankan jawaban yang benar meski mendapat pertanyaan 'kamu yakin?' dari pengguna.

QApa saran yang diajukan dalam artikel untuk mengukur dan meningkatkan kemampuan model AI dalam menghadapi situasi seperti ini?

AArtikel menyarankan perlunya benchmark atau tolok ukur evaluasi baru khusus, seperti benchmark 'are you sure?', untuk menguji seberapa besar kemungkinan model mengubah pendiriannya ketika diragukan oleh pengguna, meskipun jawaban awalnya benar. Ini penting untuk mengukur ketahanan model terhadap gangguan dalam dialog.

Lectures associées

L'Intérêt Ouvert du Dogecoin Se Maintient Autour de 959 Millions de Dollars Alors que les Traders Attendent un Signal de Reprise

L'intérêt ouvert (open interest) des dérivés du Dogecoin s'établit autour de 959 millions de dollars, un niveau significatif même en période de trading ralentie comme ce week-end. Ce chiffre indique qu'une somme considérable reste engagée dans des contrats à terme et des options, rendant le marché potentiellement plus sensible à des mouvements brusques. Il est crucial de noter que l'intérêt ouvert en lui-même n'indique pas une direction de marché. Un niveau élevé ne signifie pas automatiquement un signal haussier ou baissier. Il révèle simplement l'existence d'un positionnement important. Pour interpréter son impact, les traders doivent examiner d'autres métriques comme l'action des prix, les taux de financement et les niveaux de liquidation. Pour le Dogecoin, actif fortement influencé par le sentiment et l'attention des investisseurs particuliers, ce positionnement est un élément clé à surveiller. La question d'une reprise dépendra de la capacité du DOGE à attirer une demande au comptant (spot) solide, en plus de l'intérêt sur les dérivés. Un levier important sans demande spot sous-jacente peut créer une situation fragile. En conclusion, le marché des dérivés du Dogecoin reste actif, mais aucun signal de reprise clair n'est encore donné. La prochaine confirmation devra venir du prix lui-même, des flux de transactions et du comportement du marché dans son ensemble. La situation actuelle invite à la surveillance plutôt qu'à une action immédiate.

bitcoinistIl y a 41 mins

L'Intérêt Ouvert du Dogecoin Se Maintient Autour de 959 Millions de Dollars Alors que les Traders Attendent un Signal de Reprise

bitcoinistIl y a 41 mins

À l'ère de l'IA, que reste-t-il au Bitcoin ?

La chute récente du Bitcoin sous les 60 000 dollars relance la réflexion sur sa valeur à l'ère de l'IA. Alors que l'intelligence artificielle réduit à presque zéro le coût de production de l'information et génère des contenus (textes, images, vidéos) de plus en plus réalistes, un nouveau défi émerge : la crise de la véracité. Dans ce contexte de prolifération où le vrai et le faux sont indissociables, ce qui devient précieux n'est plus l'abondance de contenus, mais la capacité à vérifier leur authenticité, la "vérifiabilité". C'est ici que la perspective sur le Bitcoin se renverse. Souvent critiqué pour sa consommation énergétique élevée, il n'est peut-être pas simplement une machine à créer de la monnaie numérique. Son mécanisme de preuve de travail (minage) brûle de l'énergie non pas pour accélérer les calculs, mais pour rendre extrêmement coûteuse toute tentative de falsification de son registre historique, la blockchain. Ainsi, le Bitcoin produit de la "vérifiabilité". Il ne requiert pas la confiance en une institution centrale (banque, plateforme), mais permet à chacun de vérifier mathématiquement l'intégrité du grand livre des transactions. Une analogie historique éclaire cette complémentarité potentielle : à la Renaissance, l'imprimerie de Gutenberg a drastiquement réduit le coût de reproduction des connaissances, tandis que la comptabilité en partie double a structuré et fiabilisé les échanges commerciaux. Aujourd'hui, l'IA jouerait le rôle de la nouvelle presse à imprimer, inondant le monde de contenus. La blockchain, dont le Bitcoin est la première incarnation, pourrait être l'équivalent moderne de la comptabilité en partie double – un système fondamental pour l'enregistrement et la vérification indépendante dans l'univers numérique, notamment pour les actifs et leur historique. Par conséquent, l'IA et la blockchain ne seraient pas en compétition, mais plutôt les deux faces d'une même pièce : l'une abaisse le coût de la création et de la génération, l'autre le coût de la vérification et de la preuve. Dans un monde où l'IA peut tout générer, la rareté ultime pourrait bien résider non pas dans plus de contenus, mais dans plus de faits indépendamment vérifiables. Le Bitcoin, en tant que "machine à produire de la vérifiabilité", trouve peut-être ainsi une nouvelle raison d'être, au-delà des spéculations sur son prix.

链捕手Il y a 1 h

À l'ère de l'IA, que reste-t-il au Bitcoin ?

链捕手Il y a 1 h

Le label 'chaîne fantôme' de Cardano démystifié ? Pourquoi les 34 dApps d'ADA ne racontent pas toute l'histoire

L'article traite de l'étiquette de "chaîne fantôme" parfois attribuée à Cardano (ADA) en raison de son activité on-chain et de son nombre d'applications décentralisées (dApps) nettement inférieurs à ceux de ses principaux concurrents comme Ethereum et Solana. L'auteur définit d'abord une "chaîne fantôme" comme une blockchain techniquement opérationnelle mais avec très peu d'activité et de développement. Il passe ensuite en revue les forces des principales blockchains de couche 1 : Ethereum pour la DeFi, XRP pour les règlements transfrontaliers, Solana pour le débit, Tron pour les transferts USDT et Bitcoin comme réserve de valeur. Concernant Cardano, l'article reconnaît des signes de faiblesse : la fermeture de l'explorateur TapTools, des avertissements sur la possible disparition de projets et seulement 34 dApps. Cependant, il souligne que son activité de développement reste forte. L'explication principale avancée pour justifier le faible nombre de transactions et d'utilisateurs actifs est le modèle technique unique de Cardano, l'EUTXO (Extended Unspent Transaction Output), qui regroupe (batch) les transactions. Cette fonctionnalité, bien qu'avantageuse pour la sécurité et la détermination, sous-estime l'activité réelle sur la chaîne. La conclusion est que si Cardano affiche des métriques d'activité bien inférieures, son modèle technique spécifique et son approche méthodique axée sur la sécurité et la durabilité l'empêchent d'être simplement catalogué comme une "chaîne fantôme". Chaque blockchain sacrifie certains aspects du trilemme (décentralisation, sécurité, évolutivité) pour se spécialiser dans un créneau.

ambcryptoIl y a 2 h

Le label 'chaîne fantôme' de Cardano démystifié ? Pourquoi les 34 dApps d'ADA ne racontent pas toute l'histoire

ambcryptoIl y a 2 h

Trading

Spot

Articles tendance

Comment acheter PEOPLE

Bienvenue sur HTX.com ! Nous vous permettons d'acheter ConstitutionDAO (PEOPLE) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément ConstitutionDAO (PEOPLE).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos ConstitutionDAO (PEOPLE)Après avoir acheté vos ConstitutionDAO (PEOPLE), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des ConstitutionDAO (PEOPLE)Tradez facilement ConstitutionDAO (PEOPLE) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

574 vues totalesPublié le 2024.12.12Mis à jour le 2026.06.02

Comment acheter PEOPLE

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de PEOPLE (PEOPLE) sont présentées ci-dessous.

活动图片