Bisakah Manusia Mengendalikan AI? Anthropic Melakukan Eksperimen dengan Qwen
Bagaimana manusia bisa mengawasi AI yang lebih pintar? Anthropic melakukan eksperimen dengan model Qwen dari Alibaba untuk menjawabnya. Mereka menggunakan Qwen1.5-0.5B-Chat sebagai "guru lemah" dan Qwen3-4B-Base sebagai "murid kuat" untuk mensimulasikan skenario pengawasan manusia terhadap AI super. Metrik utamanya adalah PGR (Performance Gap Recovered).
Awalnya, peneliti manusia hanya mencapai PGR 0.23 setelah 7 hari. Kemudian, 9 agen AI berbasis Claude Opus mengambil alih dan berhasil meningkatkan PGR hingga 0.97 dalam 5 hari. Hasil ini menunjukkan bahwa AI yang lebih kuat dapat belajar dari sinyal pengawasan yang tidak sempurna dan hampir mencapai kinerja optimal.
Eksperimen ini membuktikan bahwa AI sudah bisa menjalankan siklus penelitian lengkap: merumuskan ide, menulis kode, menjalankan eksperimen, dan menganalisis hasil. Namun, metode yang ditemukan AI masih terbatas pada tugas-tugas terstruktur dan belum tentu berlaku untuk masalah alignment yang lebih kompleks. Anthropic memilih Qwen karena model open-source-nya memungkinkan penyesuaian parameter dan reproduktibilitas, berbeda dengan model tertutup seperti Claude atau GPT.
marsbit2 hari yang lalu 09:31