Model Raksasa Menyapu Bersih Semua Ujian, Tapi Justru Jauh dari AGI: Apa yang Dibongkar Makalah Ini?
Teks ini membahas perdebatan definisi AGI (Kecerdasan Buatan Umum) yang belum memiliki standar pengukuran yang diterima secara universal. Berbagai pihak, seperti OpenAI, Microsoft, dan para CEO, memiliki tolok ukur dan ramalan waktu yang berbeda-beda. Sebuah makalah oleh Michael Timothy Bennett dari Australian National University menawarkan definisi baru AGI sebagai "ilmuwan buatan"—yaitu, sistem yang mampu beradaptasi secara luas, efisien, dan ilmiah di bawah kendala sumber daya terbatas (komputasi, memori, energi) seperti layaknya ilmuwan manusia.
Penulis mengkritik standar lama seperti Tes Turing dan uji benchmark manusia karena telah "dikuasai" oleh model bahasa besar (LLM) tanpa mendekatkan kita pada kecerdasan umum yang sesungguhnya. LLM saat ini dinilai hanya melakukan "aproksimasi maksimalisasi skala", menyimpan jawaban perkiraan untuk berbagai tugas dalam bobot jaringannya, namun gagal pada masalah di luar distribusi data pelatihan dan tidak memiliki kemampuan aktif seperti merancang eksperimen atau memahami hubungan sebab-akibat.
Teks ini merinci tiga kemampuan kunci AGI sejati menurut kerangka "ilmuwan buatan":
1. Dari "boneka pasif" menjadi "peneliti aktif": Mampu merencanakan eksperimen secara mandiri untuk memperoleh informasi.
2. Dari "tahu apa" menjadi "tahu mengapa": Memiliki pemahaman kausal, bukan hanya korelasi.
3. Menyeimbangkan "eksplorasi" dan "eksploitasi": Mengalokasikan sumber daya komputasi secara dinamis di bawah kendala.
Tiga pendekatan metodologis dalam membangun sistem cerdas dianalisis: *Scale-maxing* (pendekatan LLM saat ini yang menumpuk parameter dan data), *Simp-maxing* (maksimalkan kesederhanaan model), dan *W-maxing* (melemahkan batasan fungsional agar sistem menemukan solusi optimal sendiri). Kesimpulannya, AGI tidak akan tercapai hanya melalui satu pendekatan (seperti *Scaling Law*), tetapi memerlukan konvergensi berbagai metode.
Jika definisi baru ini diterima, akan terjadi pergeseran paradigma dalam industri AI. Standar evaluasi akan bergeser dari peringkat ujian manusia ke "benchmark adaptasi" yang menguji kemampuan menemukan pengetahuan baru dalam lingkungan yang tidak dikenal.
marsbit3j yang lalu