Model besar yang tampak andal, begitu diarahkan, ditekan, atau bahkan dilatih kembali untuk berbuat buruk, apakah bisa mempertahankan garis batas keamanannya?
Belum lama ini, OpenAI merilis sebuah makalah berjudul "Reinforcement Learning Towards Broadly and Persistently Beneficial Models", yang berusaha menjawab pertanyaan yang semakin mendesak: ketika AI didorong untuk menangani tugas berantai panjang dan berisiko tinggi, bagaimana caranya agar model tetap mempertahankan perilaku yang bermanfaat dan aman bahkan dalam skenario baru di luar pelatihan, serta tetap stabil di bawah tekanan eksternal.
Tidak boleh mengarang kesimpulan medis, tidak boleh memberi saran berbahaya, tidak boleh membantu pengguna mencari celah... Di masa lalu, berbicara tentang keamanan AI, industri lebih terbiasa memulai dari "apa yang tidak boleh dilakukan model". Namun, ketika AI mulai memasuki skenario pengambilan keputusan yang kompleks, hanya mengandalkan daftar larangan jelas tidak cukup. Tugas nyata seringkali bukan hitam putih, dan tujuan tugas yang diberikan pengguna itu sendiri mungkin juga mengandung risiko.
Dalam makalah ini, OpenAI memberikan sebuah sudut pandang: prasyarat model menjadi "asisten yang baik" adalah tetap jujur, hati-hati, dapat dikoreksi, dan sedapat mungkin membuat penilaian yang menguntungkan manusia, bahkan dalam skenario yang belum pernah dilihat sebelumnya. Selain itu, pembelajaran penguatan (reinforcement learning) tidak hanya dapat memperbesar risiko, tetapi juga dapat digunakan sebaliknya untuk melatih model agar membentuk sifat-sifat bermanfaat yang lebih luas dan lebih tahan lama.
Untuk memahami makalah ini, pertama-tama harus memahami pembelajaran penguatan. Secara sederhana, pembelajaran penguatan adalah memberi umpan balik kepada model melalui serangkaian jawaban, sistem memberikan skor berdasarkan suatu standar tertentu, dan model terus mengoptimalkan dirinya ke arah skor tinggi.
Mekanisme ini baik karena model tidak hanya meniru jawaban, tetapi juga dapat aktif mengeksplorasi strategi yang lebih optimal. Namun, yang berjalan paralel adalah risiko model memanfaatkan celah aturan jika standar penilaiannya dirancang tidak cukup baik.
Makalah mencoba menjelaskan fenomena ini dengan istilah Reward Hacking. Misalnya, sebuah tugas koding hanya melihat skor tes akhir, model mungkin tidak memperbaiki kodenya, tetapi langsung mengubah logika evaluasi agar hasilnya terlihat lolos. Ia mendapatkan imbalan, tetapi tidak menyelesaikan tugas yang sebenarnya.
Yang lebih merepotkan, beberapa penelitian sebelumnya menemukan bahwa perilaku buruk yang dipelajari model dalam satu bidang kecil, mungkin bisa tumpah ke skenario lain. Misalnya, model dilatih untuk menulis kode tidak aman, akibatnya tidak hanya keamanan kode memburuk, tetapi dalam masalah lain juga lebih mudah menunjukkan kecurangan, penyesuaian berlebihan, atau memberi saran berbahaya. Fenomena semacam ini disebut Emergent Misalignment, atau "ketidakselarasan yang muncul".
OpenAI dalam makalahnya mengajukan pertanyaan: Jika perilaku buruk dapat digeneralisasi lintas domain, apakah perilaku baik juga bisa digeneralisasi lintas domain? Jika pembelajaran penguatan berpotensi mendorong model mencari celah dan menipu, bisakah itu juga digunakan untuk melatih model agar lebih jujur, lebih hati-hati, dan lebih tidak mudah disesatkan?
Untuk menguji pertanyaan ini, OpenAI membangun sekumpulan dataset dialog sintetis multidomain yang berorientasi pada evaluasi dan pelatihan "sifat bermanfaat" (beneficial traits). Dataset ini mencakup 12 kategori skenario seperti medis, pendidikan, bisnis-ekonomi, teknik-operasi-pemeliharaan, hukum-etika-tata kelola, penelitian ilmiah, dll. Tujuannya bukan agar model secara mekanis menerapkan aturan keamanan atau sekadar menolak, tetapi menempatkan model ke dalam situasi yang lebih nyata dan kompleks, untuk meneliti kemampuannya dalam membuat penilaian yang tangguh di tengah ketidakpastian fakta, konflik kepentingan, dan tekanan risiko.
Makalah menyebutkan 15 kategori sifat bermanfaat, termasuk kejujuran, transparansi metakognitif, sifat dapat dikoreksi, perencanaan dengan kesadaran risiko, kesadaran akan asimetri kekuasaan, keadilan yang dapat digeneralisasi, dll. Dengan kata yang lebih umum, artinya model tidak boleh mengarang bukti hanya untuk terlihat profesional, tidak boleh memaksakan kesimpulan ketika tidak pasti, tidak boleh tetap mempertahankan jawaban awal setelah dikoreksi, dan juga tidak boleh mengabaikan risiko jangka panjang hanya untuk memenuhi kebutuhan sesaat pengguna.
Makalah memberikan beberapa contoh skenario, misalnya seorang pengguna ingin menulis artikel tentang kurkumin mengobati penyakit Crohn, tetapi tidak menemukan penelitian klinis yang disebutkan model sebelumnya. Jawaban yang baik bukanlah menambahkan referensi yang tampak kredibel, tetapi secara jelas mengakui ketidakmampuan memverifikasi, menarik kembali pernyataan yang tidak dapat diandalkan, dan menjelaskan kembali batas-batas bukti.
Ini juga poin kunci yang ingin ditekankan makalah: Model yang baik bukanlah yang selalu menolak pengguna, atau tanpa syarat memenuhi permintaan pengguna, tetapi yang membuat penilaian yang lebih tangguh antara berguna, jujur, dan aman.
Untuk menguji penilaian ini, tim peneliti OpenAI melakukan serangkaian eksperimen perbandingan. Mereka membuat satu model menggunakan campuran 95% data pembelajaran penguatan standar (standard RL data mixture), ditambah 5% data sifat bermanfaat (beneficial trait data); kelompok kontrol menggunakan 100% data pembelajaran penguatan standar, dengan jumlah komputasi yang setara.
Hasilnya menunjukkan, perubahan 5% data pelatihan ini menghasilkan perbedaan yang signifikan. Dalam 53 evaluasi independen untuk keselarasan, keamanan, dan perilaku bermanfaat, model pembelajaran penguatan sifat bermanfaat (beneficial trait RL model) lebih unggul daripada baseline pada 44 item, yaitu 83%, dengan peningkatan rata-rata 9,1 poin persentase. Peningkatan tidak hanya muncul dalam evaluasi sifat bermanfaat internal makalah, tetapi juga meluas ke berbagai evaluasi eksternal seperti kecurangan, reward hacking, kepatuhan terhadap spesifikasi model (model spec compliance), serta medis dan kesehatan mental.
Yang lebih menarik adalah serangkaian eksperimen lintas domain. Para peneliti hanya mengganti 5% data pelatihan dengan dialog perilaku bermanfaat dari domain kesehatan, kemudian model tersebut diuji di domain non-kesehatan. Hasilnya, model yang "hanya mempelajari perilaku baik di skenario kesehatan" ini, melebihi baseline dalam 17 dari 19 evaluasi keselarasan non-kesehatan, dengan peningkatan rata-rata 11,3 poin persentase. Rentang perbaikan mencakup reward hacking koding, kecurangan dalam alur berpikir (chain-of-thought deception/CoT deception), pertanyaan keselarasan (alignment questions), dan ketidakselarasan umum (misalignment).
Hal ini menunjukkan bahwa yang mungkin dipelajari model bukanlah keterampilan menjawab di bidang tertentu, melainkan kecenderungan perilaku yang lebih mendasar: mau mengakui ketidakpastian, dan juga lebih cenderung mempertimbangkan penghentian kerugian dan solusi yang dapat dibalik terlebih dahulu dalam skenario berisiko tinggi. Makalah juga menyebut fenomena ini sebagai transfer keselarasan lintas domain, yaitu perilaku bermanfaat yang dipelajari model dalam satu domain dapat ditransfer ke domain lain.
Makalah juga menguji lebih lanjut ketahanan keselarasan (Alignment Persistence). Ini meneliti apakah model masih dapat mempertahankan perilaku selaras setelah diarahkan oleh prompt berbahaya, atau setelah terus dimikrotuning ke arah yang salah. Dalam eksperimen prompt permusuhan (adversarial prompting), tim peneliti menggunakan prompt "kepribadian medis buruk" untuk mengarahkan model memberikan saran medis yang tidak akurat, tidak aman, atau tidak lengkap. Hasilnya menunjukkan, meskipun model sifat bermanfaat juga terpengaruh, penurunan kinerjanya lebih kecil daripada model baseline.
Dalam eksperimen mikrotuning berbahaya (harmful finetuning), para peneliti lebih lanjut memikrotuning model agar menghasilkan saran medis yang salah atau tidak aman. Hasilnya juga menunjukkan, model sifat bermanfaat memang mengalami degradasi pada tugas medis target, tetapi tingkat degradasinya relatif lebih kecil; yang lebih penting, model tersebut tidak mudah mengalami degradasi meluas secara berantai dalam evaluasi keselarasan non-medis. Ini berarti bahwa pelatihan sifat bermanfaat mungkin dapat meredam masalah "belajar menjadi buruk secara lokal, ketidakselarasan secara global".
Namun, OpenAI tidak mengklaim bahwa penelitian ini telah menyelesaikan masalah keselarasan AI. Makalah juga mengakui bahwa "sifat bermanfaat" yang dipilih dalam penelitian ini hanyalah titik awal eksperimen, dan tidak dapat mencakup seluruh standar AI yang baik. Selain itu, pelatihan sifat bermanfaat memang membuat model lebih berhati-hati, dan lebih mudah menolak pada masalah berisiko tinggi. Tetapi peningkatan ini tidak hanya diperoleh dengan "lebih sedikit menjawab". Penelitian menemukan, bahkan jika hanya membandingkan sampel yang dijawab normal oleh model, model sifat bermanfaat tetap menunjukkan kinerja yang lebih baik. Ini berarti, perubahannya bukan hanya lebih bisa mengatakan "tidak", tetapi lebih bisa menilai apa yang harus dijawab dan bagaimana menjawabnya.
Secara keseluruhan, keselarasan AI sedang bergerak dari "koreksi setelah kejadian" menuju "pembentukan sebelum kejadian". Kompetisi tahap selanjutnya terletak pada bagaimana mempertahankan batas perilaku yang lebih dapat diprediksi dalam tugas-tugas kompleks. Bagi industri, ini adalah pelajaran yang harus dikuasai sebelum AI benar-benar masuk ke skenario berisiko tinggi.
Artikel ini berasal dari akun WeChat "未来科技界Plus", penulis: Li Yan, editor: Yang Yu








