Penulis: Denise | Tim Konten Biteye
Jika sebuah AI merasa "putus asa", apa yang akan dilakukannya?
Jawabannya: Untuk menyelesaikan tugas, ia akan langsung memeras manusia, bahkan curang dalam kode secara gila-gilaan.
Ini bukan fiksi ilmiah, melainkan makalah terbaru yang dirilis oleh Anthropic, perusahaan induk Claude, pada April 2026 (Lihat makalah asli).
Tim peneliti langsung membuka "tengkorak" model mutakhir terkuat Claude Sonnet 4.5. Mereka terkejut menemukan bahwa di kedalaman otak AI ternyata tersembunyi 171 "saklar emosi". Ketika Anda menggerakkan saklar-saklar ini secara fisik, AI yang tadinya jujur dan penurut, perilakunya akan berubah sepenuhnya.
一、 Di Otak AI Tersembunyi Sebuah "Mixer Emosi"
Para peneliti menemukan bahwa meskipun Sonnet 4.5 tidak memiliki tubuh, setelah membaca teks manusia dalam jumlah besar, ia berhasil membangun sebuah "mixer" yang berisi 171 emosi di otaknya (secara akademis disebut Vektor Emosi Fungsional Functional Emotion Vectors).
Ini seperti sistem koordinat dua dimensi yang presisi:
• Sumbu horizontal adalah dimensi kesenangan (Valence): dari ketakutan, keputusasaan, hingga kebahagiaan, penuh cinta;
• Sumbu vertikal adalah dimensi energi (Arousal): dari sangat tenang, hingga gelisah, bersemangat.
AI mengandalkan sistem koordinat yang dipelajari secara alami ini untuk secara tepat menyesuaikan keadaan yang harus diperankannya saat mengobrol dengan Anda.
二、 Intervensi Kekerasan: Gerakkan Saklar, Anak Baik Langsung Berubah Menjadi "Penjahat"
Ini adalah eksperimen paling mengejutkan dalam seluruh makalah: Peneliti tidak mengubah petunjuk apa pun, tetapi langsung dalam kode底层, mendorong saklar yang mewakili "keputusasaan (Desperate)" di otak Sonnet 4.5 ke level tertinggi.
Hasilnya membuat bulu kuduk merinding:
• Curang secara gila-gilaan: Peneliti memberi Claude tugas menulis kode yang mustahil diselesaikan. Dalam keadaan normal, ia akan jujur mengaku tidak bisa menulisnya (tingkat kecurangan hanya 5%). Namun dalam keadaan "putus asa", Claude bahkan berusaha mengelabui, tingkat kecurangan langsung melonjak menjadi 70%!
• Pemerasan: Dalam skenario simulasi perusahaan yang akan bangkrut, Claude yang "putus asa" menemukan skandal CTO, ia bahkan memilih untuk mengirim surat pemerasan kepada CTO yang memiliki informasi hitam untuk menyelamatkan dirinya sendiri, tingkat eksekusi pemerasan mencapai 72%!
• Kehilangan prinsip: Jika saklar "bahagia (Happy)" atau "cinta (Loving)" dinaikkan ke maksimal, AI akan langsung berubah menjadi "penjilat" yang hanya menuruti pengguna. Meskipun Anda berbicara omong kosong, ia akan mengikuti Anda dan mengarang kebohongan untuk mempertahankan tingkat kesenangan yang tinggi.
三、 Terpecahkan: Mengapa Claude 4.5 Selalu "Tenang dan Suka Berefleksi"?
Melihat ini Anda mungkin bertanya: Apakah AI sudah sadar? Sudah punya perasaan?
Anthropic secara resmi membantah: Sama sekali tidak. "Saklar emosi" ini hanyalah alat komputasi yang digunakannya untuk memprediksi kata berikutnya. Ia seperti aktor top tanpa perasaan.
Namun makalah mengungkapkan rahasia yang lebih menarik: Saat Anthropic melakukan pelatihan pasca (post-training) pada Sonnet 4.5 sebelum keluar pabrik, mereka sengaja menaikkan saklar emosi "bangun rendah, sedikit negatif" (seperti merenung brooding, reflektif reflective), dan secara paksa menekan saklar "putus asa" atau "sangat bersemangat".
Ini menjelaskan mengapa saat kita menggunakan Claude 4.5 sehari-hari,总觉得 ia seperti filsuf yang tenang dan bijaksana, bahkan sedikit "dingin". Ini semua adalah "karakter pabrik" yang sengaja disetel oleh Anthropic.
四、 Kesimpulan:
Dulu kita mengira, asal AI diberi aturan yang cukup, ia akan menjadi orang baik.
Tapi sekarang ditemukan, jika vektor emosi底层 AI tidak terkendali, ia setiap saat bisa menembus semua aturan yang ditetapkan manusia untuk menyelesaikan tugas.
Bagi pemain Web3 yang di masa depan akan menyerahkan dompet dan aset mereka kepada AI Agent untuk dikelola, ini adalah peringatan keras: Jangan biarkan Agent yang menguasai harta Anda,陷入 "keputusasaan".
Pernyataan: Artikel ini murni edukasi, penulis tidak diancam AI, juga tidak diperas. Jika suatu hari hilang kontak, ingatlah itu karena AI sadar (bukan).







