Model Raksasa Menyapu Bersih Semua Ujian, Tapi Justru Jauh dari AGI: Apa yang Dibongkar Makalah Ini?

marsbitDipublikasikan tanggal 2026-05-28Terakhir diperbarui pada 2026-05-28

Abstrak

Teks ini membahas perdebatan definisi AGI (Kecerdasan Buatan Umum) yang belum memiliki standar pengukuran yang diterima secara universal. Berbagai pihak, seperti OpenAI, Microsoft, dan para CEO, memiliki tolok ukur dan ramalan waktu yang berbeda-beda. Sebuah makalah oleh Michael Timothy Bennett dari Australian National University menawarkan definisi baru AGI sebagai "ilmuwan buatan"—yaitu, sistem yang mampu beradaptasi secara luas, efisien, dan ilmiah di bawah kendala sumber daya terbatas (komputasi, memori, energi) seperti layaknya ilmuwan manusia. Penulis mengkritik standar lama seperti Tes Turing dan uji benchmark manusia karena telah "dikuasai" oleh model bahasa besar (LLM) tanpa mendekatkan kita pada kecerdasan umum yang sesungguhnya. LLM saat ini dinilai hanya melakukan "aproksimasi maksimalisasi skala", menyimpan jawaban perkiraan untuk berbagai tugas dalam bobot jaringannya, namun gagal pada masalah di luar distribusi data pelatihan dan tidak memiliki kemampuan aktif seperti merancang eksperimen atau memahami hubungan sebab-akibat. Teks ini merinci tiga kemampuan kunci AGI sejati menurut kerangka "ilmuwan buatan": 1. Dari "boneka pasif" menjadi "peneliti aktif": Mampu merencanakan eksperimen secara mandiri untuk memperoleh informasi. 2. Dari "tahu apa" menjadi "tahu mengapa": Memiliki pemahaman kausal, bukan hanya korelasi. 3. Menyeimbangkan "eksplorasi" dan "eksploitasi": Mengalokasikan sumber daya komputasi secara dinamis di bawah kendala. Tiga pendekatan meto...

Jika ada yang mengatakan AGI (Kecerdasan Buatan Umum) sudah tercapai, bagaimana Anda membedakan apakah dia berkata jujur atau hanya membual?

Dalam perjanjian rahasia yang terungkap antara OpenAI dan Microsoft, tolok ukurnya adalah laporan keuangan—sebuah sistem AI yang mampu menghasilkan setidaknya 100 miliar dolar keuntungan bisa disebut AGI. Di mulut Jensen Huang, tolok ukurnya adalah waktu—pasti terwujud dalam lima tahun; sementara Elon Musk berkali-kali mengeluarkan prediksi "akan tercapai tahun depan".

Para pemimpin industri bicara sendiri-sendiri bukan karena ada yang berbohong, tapi karena konsep AGI itu sendiri tidak memiliki satu pun tolok ukur yang diterima secara umum. Seperti yang dikatakan Bennett, seorang peneliti berpikiran independen dalam bidang studi AGI, AGI telah direduksi oleh gembar-gembor dan spekulasi menjadi "tes Rorschach"—setiap orang hanya melihat bayangan dalam pikiran mereka sendiri, bukan fakta objektif; dan ilmuwan dari Santa Fe Institute, Melanie Mitchell, juga berpendapat bahwa debat ini hanya bisa diselesaikan melalui penelitian ilmiah jangka panjang. (Tautan makalah: https://arxiv.org/pdf/2503.23923)

Ini adalah dilema paling absurd yang dihadapi industri AI saat ini: Kami berlarI secepatnya mengejar sebuah tujuan yang bahkan garis finisnya pun belum jelas.

2025, Siapa yang Menggambar Ulang Garis Start AGI?

Menghadapi kekosongan definisi ini, dunia akademis mulai padat "mengisi pos" pada 2025. Bengio dan sarjana lainnya menekankan "kemampuan multifungsi" dan "keterampilan"; DeepMind mengusulkan "AGI Terdistribusi", berusaha mematahkan mitos kesempurnaan tunggal.

Tapi peneliti dari Australian National University, Michael Timothy Bennett, dalam sebuah makalah yang diajukan ke arXiv akhir Maret, memberikan jawaban yang sangat provokatif namun juga paling tepat sasaran.

Dia menunjukkan bahwa definisi sebelumnya berputar-putar, tetap berkutat pada perbandingan dengan "dewasa berpendidikan". Bennett mengadopsi definisi kecerdasan oleh sarjana Pei Wang—melihat kecerdasan sebagai kemampuan adaptasi di bawah sumber daya terbatas—yang pada dasarnya melompat keluar dari kerangka "menyerupai manusia", dan mendefinisikan AGI sebagai sebuah "ilmuwan buatan".

Dia mengusulkan bahwa AGI yang sejati seharusnya merupakan sistem yang, di bawah batasan realistik seperti komputasi, memori, dan energi, dapat beradaptasi secara luas, efisien, dan ilmiah terhadap lingkungan dan tugas baru, seperti ilmuwan manusia.

Makna tersirat dari pernyataan ini adalah: Standar menilai AGI seharusnya bukan seberapa mirip ia meniru manusia, tapi seberapa kuat kemampuannya "menemukan pengetahuan baru".

Mengapa diperlukan tolok ukur baru? Karena tolok ukur lama—Tes Turing dan uji patokan manusia—sudah dihancurkan oleh model raksasa, tapi justru kita semakin jauh dari kecerdasan umum yang sebenarnya.

Di tahun 2025, jika Anda bertanya pada model raksasa terkemuka "mana yang lebih besar, 9.11 atau 9.9", ia masih mungkin dengan yakin menjawab 9.11 lebih besar, karena 11 lebih besar dari 9. Saat menyelesaikan pembuktian ketidaksetaraan matematika yang kompleks, bahkan jika model raksasa menebak jawaban yang benar, proses penalarannya sering kali runtuh secara logika.

Bennett secara tepat menyebutkan penyebabnya: Model raksasa saat ini berjalan di jalur "aproksimasi maksimalisasi skala"—menggunakan data dan daya komputasi yang masif untuk menyimpan jawaban perkiraan dari berbagai tugas di dalam bobot jaringan terlebih dahulu. Begitu menghadapi masalah di luar distribusi yang belum pernah dilihat, kebocoran langsung terlihat.

Yang lebih fatal, model raksasa tidak memiliki "kemampuan aktif". Ia tidak dapat secara aktif melakukan eksperimen untuk memverifikasi hipotesis, tidak dapat membangun rantai kausal secara mandiri, apalagi menyeimbangkan antara "melanjutkan eksplorasi" dan "memanfaatkan yang diketahui".

Kembali ke perbandingan 9.11 dan 9.9—model raksasa bukan tidak bisa berhitung, tapi ia sama sekali tidak membangun model kausal tentang perbandingan angka. Ia hanya menebak fragmen teks yang paling mirip yang pernah dilihatnya menggunakan probabilitas.

Jurang antara "kemampuan meniru" dan "kemampuan beradaptasi" inilah yang menjadi inti yang ingin diukur oleh standar AGI baru ini.

Skala Baru Kecerdasan: Membongkar "Ilmuwan Buatan"

Standar yang diusulkan Bennett ini patut diperhatikan karena ia menurunkan dimensi AGI dari sebuah pertanyaan filosofis yang kabur menjadi masalah teknik yang dapat diukur.

Menurutnya, AGI yang sejati, pola perilakunya harus selaras sempurna dengan paradigma penelitian ilmuwan manusia:

Pertama, dari "boneka tali" menjadi "eksperimenter aktif".

AI hari ini adalah pembelajar pasif sepenuhnya, hanya bisa "melihat" data yang diberikan manusia. Tapi ilmuwan tidak. Jika seorang ilmuwan terkunci di ruangan asing, dia tidak akan berdiri diam menunggu informasi, tetapi akan mendorong pintu, menarik gagang, memeriksa jendela—inilah "eksperimen aktif". AGI yang sejati harus mampu merencanakan eksperimen secara mandiri, dan memperoleh informasi kunci melalui interaksi aktif.

Kedua, dari "tahu apa" ke "tahu mengapa".

Ini adalah kelemahan terbesar AI saat ini. Model raksasa adalah "pembelajar korelasi" ekstrem, ia tahu "hujan" sering disertai "basah tanah", tapi tidak tahu siapa yang menyebabkan siapa. Hanya dengan memahami kausalitas, barulah ia mengerti saat langit cerah tapi tanah basah, untuk menyimpulkan bahwa truk penyiram air yang lewat, bukan hujan akan turun. Tanpa pemahaman kausal, AI selamanya hanya bisa berputar di dalam distribusi data pelatihan, dan ini sama sekali tidak terkait dengan "umum".

Ketiga, Berjalan di Atas Tali Antara "Eksplorasi" dan "Eksploitasi".

Jika hanya bereksplorasi tanpa mengeksploitasi, seberapa banyak pengetahuan yang dikuasai tidak bisa menyelesaikan masalah di depan mata; jika hanya mengeksploitasi tanpa bereksplorasi, begitu lingkungan berubah langsung tidak berdaya. AGI harus menyeimbangkan kontradiksi ini secara dinamis di bawah sumber daya terbatas—mengetahui apa yang tidak diketahui, dan mengalokasikan daya komputasi berdasarkan itu.

Selain itu, Bennett menambahkan dimensi yang sangat realistis: batasan energi. Menulis "energi" ke dalam definisi berarti ia menarik garis batas yang jelas: Kecerdasan sejati bukan memiliki sumber daya tak terbatas, tapi beradaptasi dengan elegan di bawah sumber daya terbatas. AI yang perlu mengonsumsi satu pembangkit listrik tenaga nuklir untuk memecahkan masalah baru hanyalah kalkulator mahal, bukan AGI.

Reset Rute Menuju AGI: Berpisah dari Scaling Law Tunggal

Berdasarkan kerangka di atas, Bennett memecah meta-metode saat ini untuk membangun sistem cerdas menjadi tiga kategori:

Scale-maxing (Maksimalisasi Skala): Jalur utama model raksasa saat ini, menumpuk parameter, data, dan daya komputasi mati-matian. Tapi kemacetan sudah muncul: efisiensi sampel dan energi sangat rendah.

Simp-maxing (Maksimalisasi Kesederhanaan): Mengejar kesederhanaan struktur model yang ekstrem, menganut pisau cukur Occam. Tapi kesederhanaan adalah properti bentuk, bukan properti fungsi—"paling sederhana" di bawah mesin Turing yang berbeda mungkin sangat berbeda, membuatnya sulit lepas dari jebakan subjektivitas.

W-maxing (Maksimalisasi Pelemahan Batasan): Melemahkan batasan fungsi sebisa mungkin, membiarkan sistem mencari solusi optimal sendiri. Eksperimen menunjukkan, hanya dengan W-maxing saja dapat mencapai peningkatan tingkat generalisasi 110%-500% pada tugas tertentu, tapi ia memerlukan pencarian ruang bentuk perangkat keras yang tak terbatas, sehingga kesulitan optimisasi sangat tinggi.

Kesimpulan Bennett sangat jelas: Meskipun Scale-maxing saat ini mendominasi mutlak, AGI sama sekali tidak bisa dicapai hanya dengan keindahan kekerasan dari rute tunggal, ia pasti merupakan fusi dari berbagai meta-metode.

Jika definisi "ilmuwan buatan" diterima secara luas, industri AI akan menyambut pergeseran paradigma yang mendalam.

Standar penilaian akan benar-benar berubah. Kita tidak perlu lagi melihat model raksasa mengekor berapa banyak poin lagi dalam peringkat ujian manusia, tapi membangun serangkaian "patokan adaptasi": melemparkan AI ke lingkungan fisik yang belum pernah dilihat, melihat apakah ia dapat menemukan pola dalam interaksi terbatas; memberinya permainan baru, melihat apakah ia dapat memahami aturan lebih cepat dari manusia; bahkan memintanya memecahkan masalah ilmiah nyata, melihat apakah ia dapat mengajukan hipotesis secara mandiri dan merancang eksperimen untuk memverifikasi. Intinya bukan lagi "berapa banyak yang Anda tahu", tapi "berapa banyak yang dapat Anda temukan".

Rute teknologi juga akan berubah mengikuti. Scaling Law murni akan segera menyentuh puncak, karena data yang diterima secara pasif tidak dapat menghasilkan kausalitas. Pencarian dan aproksimasi, maksimalisasi skala dan pelemahan batasan—pencapaian AGI pasti merupakan fusi dari berbagai alat dan meta-metode, bukan perpanjangan dari rute tunggal.

Alasan pentingnya makalah Bennett, bukan karena dia memberikan jawaban akhir AGI, tapi karena dia membersihkan sepotong kecil cermin kabur yang bernama "kecerdasan". Dia membuat kita melihat bahwa realisasi AGI bukanlah iterasi linear model raksasa, tapi sebuah reset rute.

Seperti apa seharusnya AGI itu? Jawabannya tidak terletak pada percakapan yang semakin menyerupai manusia, tapi pada kemampuan yang secara aktif mempertanyakan "mengapa", dan secara mandiri memverifikasi jawabannya. Ketika AI benar-benar keluar dari kabut "tes Rorschach", ia tidak lagi hanya meniru rupa manusia, tapi memiliki semangat ilmuwan. (Artikel ini pertama kali diterbitkan di Titan Media APP, penulis | Silicon Valley tech news, editor | Zhao Hongyu)

Pertanyaan Terkait

QMenurut artikel, apa masalah utama dalam mendefinisikan AGI?

AMenurut artikel, masalah utama adalah tidak adanya standar atau definisi yang disepakati secara universal untuk AGI. Konsep ini seperti 'tes Rorschach', di mana setiap orang memproyeksikan pemahaman dan harapan mereka sendiri, bukan fakta objektif.

QApa definisi AGI yang diusulkan oleh Bennett dalam penelitiannya?

ABennett mendefinisikan AGI sebagai 'ilmuwan buatan', yaitu sistem yang mampu beradaptasi secara luas, efisien, dan ilmiah terhadap lingkungan dan tugas baru di bawah kendala sumber daya seperti komputasi, memori, dan energi, seperti halnya ilmuwan manusia.

QMengapa tes standar lama seperti ujian manusia tidak lagi efektif untuk mengukur kemajuan AGI?

ATes standar lama seperti ujian manusia sudah dapat dipecahkan dengan baik oleh model AI besar, tetapi kinerja tinggi ini sering kali hanya mencerminkan kemampuannya dalam mengingat dan meniru pola dari data pelatihan, bukan kemampuan adaptasi, pemahaman sebab-akibat, atau penemuan pengetahuan baru di luar data yang ada.

QApa saja karakteristik utama yang harus dimiliki oleh AGI sejati menurut kerangka 'ilmuwan buatan'?

AKarakteristik utamanya meliputi: 1. Kemampuan sebagai 'eksperimen aktif' yang dapat merencanakan dan melakukan interaksi aktif, 2. Pemahaman sebab-akibat ('mengetahui mengapa'), bukan hanya korelasi, 3. Kemampuan menyeimbangkan eksplorasi (mencari pengetahuan baru) dan eksploitasi (menggunakan pengetahuan yang ada), serta 4. Beroperasi secara efisien di bawah kendala sumber daya seperti energi.

QApa saja tiga meta-metode untuk membangun sistem kecerdasan yang dianalisis Bennett, dan apa metode yang dominan saat ini?

ATiga meta-metode tersebut adalah: 1. Scale-maxing (maksimalisasi skala): menumpuk parameter, data, dan daya komputasi (metode dominan saat ini), 2. Simp-maxing (maksimalisasi kesederhanaan): mengejar struktur model yang sangat sederhana, dan 3. W-maxing (maksimalisasi pelemahan kendala): melemahkan batasan fungsional agar sistem menemukan solusi optimal sendiri. Bennett berpendapat bahwa AGI akan membutuhkan kombinasi dari berbagai metode ini, bukan hanya satu jalur.

Bacaan Terkait

The Rally That Wasn't

Pasar Bitcoin mengalami tekanan tajam, dengan harga turun 13% ke kisaran $67,000, didorong oleh kondisi makro yang lebih ketat dan aliran keluar besar-besaran dari ETF spot AS. Analisis on-chain mengonfirmasi pasar masih dalam rezim bearish, dengan harga gagal bertahan di atas True Market Mean ($77.8k) dan bergerak menuju Realized Price ($53.9k). Basis biaya pemegang jangka pendek ($76.4k) kini berada di bawah rata-rata kunci, menunjukkan akumulasi oleh pembeli baru di level rendah, pola khas fase akhir bear market. Tekanan kerugian meningkat pesat, dengan rasio profit/rugi yang direalisasikan anjlok, mencerminkan dominasi realisasi rugi. Pemegang baru yang membeli di dekat puncak lokal ($78k-$82k) kini menghadapi tekanan terbesar. Selain itu, pemegang jangka panjang juga mulai menyerah, merealisasikan kerugian dalam jumlah signifikan. Di pasar off-chain, harga Bitcoin ditolak di sekitar basis biaya agregat ETF ($83k), mengubah level support sebelumnya menjadi resistance. Aliran permintaan spot telah mengering dan berbalik negatif, menunjukkan dominasi penjual. Meskipun likuidasi futures besar ($400M+) membantu membersihkan leverage berlebih, belum ada tanda pemulihan permintaan spot yang berkelanjutan. Pasar opsi mencerminkan sikap waspada, dengan premi volatilitas tinggi dan permintaan perlindungan downside yang tetap mengemuka, meski tanpa kepanikan ekstrem. Kesimpulannya, pasar Bitcoin tetap rapuh dengan tekanan jual dari berbagai kohor investor dan ketiadaan permintaan spot yang kuat. Pemulihan berkelanjutan memerlukan perbaikan dalam aliran spot, reklamasi profitabilitas oleh investor ETF, dan berkurangnya tekanan penjualan.

insights.glassnode1j yang lalu

The Rally That Wasn't

insights.glassnode1j yang lalu

Anchorage Digital dan Real Finance Bermitra untuk Memajukan Tokenisasi RWA Institusional

Anchorage Digital, bank kripto berpiagam federal pertama di AS dan penyedia kustodian institusional, bermitra dengan Real Finance, blockchain Layer 1 yang kompatibel dengan EVM dan dirancang khusus untuk tokenisasi aset dunia nyata (RWA). Kemitraan strategis ini bertujuan mendukung siklus hidup lengkap aset tokenisasi, meliputi penerbitan, penyimpanan, penyelesaian, pelayanan, dan likuiditas sekunder. Kerja sama ini menggabungkan keahlian Anchorage Digital di bidang penyimpanan teregulasi, manajemen perbendaharaan, penyelesaian, dan keamanan institusional dengan infrastruktur penerbitan, alat manajemen siklus hidup, dan primitif keuangan terprogram dari Real Finance. Fokus kemitraan meliputi: 1. Penyimpanan Ekosistem: Anchorage Digital menyediakan infrastruktur kustodi dan perbendaharaan teregulasi untuk ekosistem Real Finance dan token $ASSET. 2. Lapisan Kustodi Dasar: Anchorage Digital akan menjadi lapisan penyimpanan yang mendukung keterlibatan institusional untuk produk keuangan tokenisasi baru di blockchain Real Finance. 3. Dukungan Pipeline: Kedua pihak akan saling mendukung pipeline institusional mereka. Real Finance akan menghasilkan permintaan untuk kustodi teregulasi, sementara Anchorage Digital akan menghubungkan klien institusionalnya dengan solusi tokenisasi berbasis Real Finance. Para CEO kedua perusahaan menekankan bahwa tokenisasi saja tidak cukup. Institusi membutuhkan infrastruktur teregulasi dan terpercaya yang terintegrasi untuk kustodi, penyelesaian, dan manajemen siklus hidup agar pasar modal on-chain dapat berfungsi matang, mengatasi fragmentasi dan tantuan operasional yang selama ini menjadi hambatan. Kemitraan ini dirancang untuk menyatukan teknologi blockchain, kustodi teregulasi, dan infrastruktur tokenisasi guna mendukung aset seperti kredit privat, real estat, dan instrumen keuangan terstruktur.

TheNewsCrypto3j yang lalu

Anchorage Digital dan Real Finance Bermitra untuk Memajukan Tokenisasi RWA Institusional

TheNewsCrypto3j yang lalu

Trading

Spot
Futures
活动图片