Model Raksasa Menyapu Bersih Semua Ujian, Tapi Justru Jauh dari AGI: Apa yang Dibongkar Makalah Ini?

marsbitDipublikasikan tanggal 2026-05-28Terakhir diperbarui pada 2026-05-28

Abstrak

Teks ini membahas perdebatan definisi AGI (Kecerdasan Buatan Umum) yang belum memiliki standar pengukuran yang diterima secara universal. Berbagai pihak, seperti OpenAI, Microsoft, dan para CEO, memiliki tolok ukur dan ramalan waktu yang berbeda-beda. Sebuah makalah oleh Michael Timothy Bennett dari Australian National University menawarkan definisi baru AGI sebagai "ilmuwan buatan"—yaitu, sistem yang mampu beradaptasi secara luas, efisien, dan ilmiah di bawah kendala sumber daya terbatas (komputasi, memori, energi) seperti layaknya ilmuwan manusia. Penulis mengkritik standar lama seperti Tes Turing dan uji benchmark manusia karena telah "dikuasai" oleh model bahasa besar (LLM) tanpa mendekatkan kita pada kecerdasan umum yang sesungguhnya. LLM saat ini dinilai hanya melakukan "aproksimasi maksimalisasi skala", menyimpan jawaban perkiraan untuk berbagai tugas dalam bobot jaringannya, namun gagal pada masalah di luar distribusi data pelatihan dan tidak memiliki kemampuan aktif seperti merancang eksperimen atau memahami hubungan sebab-akibat. Teks ini merinci tiga kemampuan kunci AGI sejati menurut kerangka "ilmuwan buatan": 1. Dari "boneka pasif" menjadi "peneliti aktif": Mampu merencanakan eksperimen secara mandiri untuk memperoleh informasi. 2. Dari "tahu apa" menjadi "tahu mengapa": Memiliki pemahaman kausal, bukan hanya korelasi. 3. Menyeimbangkan "eksplorasi" dan "eksploitasi": Mengalokasikan sumber daya komputasi secara dinamis di bawah kendala. Tiga pendekatan meto...

Jika ada yang mengatakan AGI (Kecerdasan Buatan Umum) sudah tercapai, bagaimana Anda membedakan apakah dia berkata jujur atau hanya membual?

Dalam perjanjian rahasia yang terungkap antara OpenAI dan Microsoft, tolok ukurnya adalah laporan keuangan—sebuah sistem AI yang mampu menghasilkan setidaknya 100 miliar dolar keuntungan bisa disebut AGI. Di mulut Jensen Huang, tolok ukurnya adalah waktu—pasti terwujud dalam lima tahun; sementara Elon Musk berkali-kali mengeluarkan prediksi "akan tercapai tahun depan".

Para pemimpin industri bicara sendiri-sendiri bukan karena ada yang berbohong, tapi karena konsep AGI itu sendiri tidak memiliki satu pun tolok ukur yang diterima secara umum. Seperti yang dikatakan Bennett, seorang peneliti berpikiran independen dalam bidang studi AGI, AGI telah direduksi oleh gembar-gembor dan spekulasi menjadi "tes Rorschach"—setiap orang hanya melihat bayangan dalam pikiran mereka sendiri, bukan fakta objektif; dan ilmuwan dari Santa Fe Institute, Melanie Mitchell, juga berpendapat bahwa debat ini hanya bisa diselesaikan melalui penelitian ilmiah jangka panjang. (Tautan makalah: https://arxiv.org/pdf/2503.23923)

Ini adalah dilema paling absurd yang dihadapi industri AI saat ini: Kami berlarI secepatnya mengejar sebuah tujuan yang bahkan garis finisnya pun belum jelas.

2025, Siapa yang Menggambar Ulang Garis Start AGI?

Menghadapi kekosongan definisi ini, dunia akademis mulai padat "mengisi pos" pada 2025. Bengio dan sarjana lainnya menekankan "kemampuan multifungsi" dan "keterampilan"; DeepMind mengusulkan "AGI Terdistribusi", berusaha mematahkan mitos kesempurnaan tunggal.

Tapi peneliti dari Australian National University, Michael Timothy Bennett, dalam sebuah makalah yang diajukan ke arXiv akhir Maret, memberikan jawaban yang sangat provokatif namun juga paling tepat sasaran.

Dia menunjukkan bahwa definisi sebelumnya berputar-putar, tetap berkutat pada perbandingan dengan "dewasa berpendidikan". Bennett mengadopsi definisi kecerdasan oleh sarjana Pei Wang—melihat kecerdasan sebagai kemampuan adaptasi di bawah sumber daya terbatas—yang pada dasarnya melompat keluar dari kerangka "menyerupai manusia", dan mendefinisikan AGI sebagai sebuah "ilmuwan buatan".

Dia mengusulkan bahwa AGI yang sejati seharusnya merupakan sistem yang, di bawah batasan realistik seperti komputasi, memori, dan energi, dapat beradaptasi secara luas, efisien, dan ilmiah terhadap lingkungan dan tugas baru, seperti ilmuwan manusia.

Makna tersirat dari pernyataan ini adalah: Standar menilai AGI seharusnya bukan seberapa mirip ia meniru manusia, tapi seberapa kuat kemampuannya "menemukan pengetahuan baru".

Mengapa diperlukan tolok ukur baru? Karena tolok ukur lama—Tes Turing dan uji patokan manusia—sudah dihancurkan oleh model raksasa, tapi justru kita semakin jauh dari kecerdasan umum yang sebenarnya.

Di tahun 2025, jika Anda bertanya pada model raksasa terkemuka "mana yang lebih besar, 9.11 atau 9.9", ia masih mungkin dengan yakin menjawab 9.11 lebih besar, karena 11 lebih besar dari 9. Saat menyelesaikan pembuktian ketidaksetaraan matematika yang kompleks, bahkan jika model raksasa menebak jawaban yang benar, proses penalarannya sering kali runtuh secara logika.

Bennett secara tepat menyebutkan penyebabnya: Model raksasa saat ini berjalan di jalur "aproksimasi maksimalisasi skala"—menggunakan data dan daya komputasi yang masif untuk menyimpan jawaban perkiraan dari berbagai tugas di dalam bobot jaringan terlebih dahulu. Begitu menghadapi masalah di luar distribusi yang belum pernah dilihat, kebocoran langsung terlihat.

Yang lebih fatal, model raksasa tidak memiliki "kemampuan aktif". Ia tidak dapat secara aktif melakukan eksperimen untuk memverifikasi hipotesis, tidak dapat membangun rantai kausal secara mandiri, apalagi menyeimbangkan antara "melanjutkan eksplorasi" dan "memanfaatkan yang diketahui".

Kembali ke perbandingan 9.11 dan 9.9—model raksasa bukan tidak bisa berhitung, tapi ia sama sekali tidak membangun model kausal tentang perbandingan angka. Ia hanya menebak fragmen teks yang paling mirip yang pernah dilihatnya menggunakan probabilitas.

Jurang antara "kemampuan meniru" dan "kemampuan beradaptasi" inilah yang menjadi inti yang ingin diukur oleh standar AGI baru ini.

Skala Baru Kecerdasan: Membongkar "Ilmuwan Buatan"

Standar yang diusulkan Bennett ini patut diperhatikan karena ia menurunkan dimensi AGI dari sebuah pertanyaan filosofis yang kabur menjadi masalah teknik yang dapat diukur.

Menurutnya, AGI yang sejati, pola perilakunya harus selaras sempurna dengan paradigma penelitian ilmuwan manusia:

Pertama, dari "boneka tali" menjadi "eksperimenter aktif".

AI hari ini adalah pembelajar pasif sepenuhnya, hanya bisa "melihat" data yang diberikan manusia. Tapi ilmuwan tidak. Jika seorang ilmuwan terkunci di ruangan asing, dia tidak akan berdiri diam menunggu informasi, tetapi akan mendorong pintu, menarik gagang, memeriksa jendela—inilah "eksperimen aktif". AGI yang sejati harus mampu merencanakan eksperimen secara mandiri, dan memperoleh informasi kunci melalui interaksi aktif.

Kedua, dari "tahu apa" ke "tahu mengapa".

Ini adalah kelemahan terbesar AI saat ini. Model raksasa adalah "pembelajar korelasi" ekstrem, ia tahu "hujan" sering disertai "basah tanah", tapi tidak tahu siapa yang menyebabkan siapa. Hanya dengan memahami kausalitas, barulah ia mengerti saat langit cerah tapi tanah basah, untuk menyimpulkan bahwa truk penyiram air yang lewat, bukan hujan akan turun. Tanpa pemahaman kausal, AI selamanya hanya bisa berputar di dalam distribusi data pelatihan, dan ini sama sekali tidak terkait dengan "umum".

Ketiga, Berjalan di Atas Tali Antara "Eksplorasi" dan "Eksploitasi".

Jika hanya bereksplorasi tanpa mengeksploitasi, seberapa banyak pengetahuan yang dikuasai tidak bisa menyelesaikan masalah di depan mata; jika hanya mengeksploitasi tanpa bereksplorasi, begitu lingkungan berubah langsung tidak berdaya. AGI harus menyeimbangkan kontradiksi ini secara dinamis di bawah sumber daya terbatas—mengetahui apa yang tidak diketahui, dan mengalokasikan daya komputasi berdasarkan itu.

Selain itu, Bennett menambahkan dimensi yang sangat realistis: batasan energi. Menulis "energi" ke dalam definisi berarti ia menarik garis batas yang jelas: Kecerdasan sejati bukan memiliki sumber daya tak terbatas, tapi beradaptasi dengan elegan di bawah sumber daya terbatas. AI yang perlu mengonsumsi satu pembangkit listrik tenaga nuklir untuk memecahkan masalah baru hanyalah kalkulator mahal, bukan AGI.

Reset Rute Menuju AGI: Berpisah dari Scaling Law Tunggal

Berdasarkan kerangka di atas, Bennett memecah meta-metode saat ini untuk membangun sistem cerdas menjadi tiga kategori:

Scale-maxing (Maksimalisasi Skala): Jalur utama model raksasa saat ini, menumpuk parameter, data, dan daya komputasi mati-matian. Tapi kemacetan sudah muncul: efisiensi sampel dan energi sangat rendah.

Simp-maxing (Maksimalisasi Kesederhanaan): Mengejar kesederhanaan struktur model yang ekstrem, menganut pisau cukur Occam. Tapi kesederhanaan adalah properti bentuk, bukan properti fungsi—"paling sederhana" di bawah mesin Turing yang berbeda mungkin sangat berbeda, membuatnya sulit lepas dari jebakan subjektivitas.

W-maxing (Maksimalisasi Pelemahan Batasan): Melemahkan batasan fungsi sebisa mungkin, membiarkan sistem mencari solusi optimal sendiri. Eksperimen menunjukkan, hanya dengan W-maxing saja dapat mencapai peningkatan tingkat generalisasi 110%-500% pada tugas tertentu, tapi ia memerlukan pencarian ruang bentuk perangkat keras yang tak terbatas, sehingga kesulitan optimisasi sangat tinggi.

Kesimpulan Bennett sangat jelas: Meskipun Scale-maxing saat ini mendominasi mutlak, AGI sama sekali tidak bisa dicapai hanya dengan keindahan kekerasan dari rute tunggal, ia pasti merupakan fusi dari berbagai meta-metode.

Jika definisi "ilmuwan buatan" diterima secara luas, industri AI akan menyambut pergeseran paradigma yang mendalam.

Standar penilaian akan benar-benar berubah. Kita tidak perlu lagi melihat model raksasa mengekor berapa banyak poin lagi dalam peringkat ujian manusia, tapi membangun serangkaian "patokan adaptasi": melemparkan AI ke lingkungan fisik yang belum pernah dilihat, melihat apakah ia dapat menemukan pola dalam interaksi terbatas; memberinya permainan baru, melihat apakah ia dapat memahami aturan lebih cepat dari manusia; bahkan memintanya memecahkan masalah ilmiah nyata, melihat apakah ia dapat mengajukan hipotesis secara mandiri dan merancang eksperimen untuk memverifikasi. Intinya bukan lagi "berapa banyak yang Anda tahu", tapi "berapa banyak yang dapat Anda temukan".

Rute teknologi juga akan berubah mengikuti. Scaling Law murni akan segera menyentuh puncak, karena data yang diterima secara pasif tidak dapat menghasilkan kausalitas. Pencarian dan aproksimasi, maksimalisasi skala dan pelemahan batasan—pencapaian AGI pasti merupakan fusi dari berbagai alat dan meta-metode, bukan perpanjangan dari rute tunggal.

Alasan pentingnya makalah Bennett, bukan karena dia memberikan jawaban akhir AGI, tapi karena dia membersihkan sepotong kecil cermin kabur yang bernama "kecerdasan". Dia membuat kita melihat bahwa realisasi AGI bukanlah iterasi linear model raksasa, tapi sebuah reset rute.

Seperti apa seharusnya AGI itu? Jawabannya tidak terletak pada percakapan yang semakin menyerupai manusia, tapi pada kemampuan yang secara aktif mempertanyakan "mengapa", dan secara mandiri memverifikasi jawabannya. Ketika AI benar-benar keluar dari kabut "tes Rorschach", ia tidak lagi hanya meniru rupa manusia, tapi memiliki semangat ilmuwan. (Artikel ini pertama kali diterbitkan di Titan Media APP, penulis | Silicon Valley tech news, editor | Zhao Hongyu)

Pertanyaan Terkait

QMenurut artikel, apa masalah utama dalam mendefinisikan AGI?

AMenurut artikel, masalah utama adalah tidak adanya standar atau definisi yang disepakati secara universal untuk AGI. Konsep ini seperti 'tes Rorschach', di mana setiap orang memproyeksikan pemahaman dan harapan mereka sendiri, bukan fakta objektif.

QApa definisi AGI yang diusulkan oleh Bennett dalam penelitiannya?

ABennett mendefinisikan AGI sebagai 'ilmuwan buatan', yaitu sistem yang mampu beradaptasi secara luas, efisien, dan ilmiah terhadap lingkungan dan tugas baru di bawah kendala sumber daya seperti komputasi, memori, dan energi, seperti halnya ilmuwan manusia.

QMengapa tes standar lama seperti ujian manusia tidak lagi efektif untuk mengukur kemajuan AGI?

ATes standar lama seperti ujian manusia sudah dapat dipecahkan dengan baik oleh model AI besar, tetapi kinerja tinggi ini sering kali hanya mencerminkan kemampuannya dalam mengingat dan meniru pola dari data pelatihan, bukan kemampuan adaptasi, pemahaman sebab-akibat, atau penemuan pengetahuan baru di luar data yang ada.

QApa saja karakteristik utama yang harus dimiliki oleh AGI sejati menurut kerangka 'ilmuwan buatan'?

AKarakteristik utamanya meliputi: 1. Kemampuan sebagai 'eksperimen aktif' yang dapat merencanakan dan melakukan interaksi aktif, 2. Pemahaman sebab-akibat ('mengetahui mengapa'), bukan hanya korelasi, 3. Kemampuan menyeimbangkan eksplorasi (mencari pengetahuan baru) dan eksploitasi (menggunakan pengetahuan yang ada), serta 4. Beroperasi secara efisien di bawah kendala sumber daya seperti energi.

QApa saja tiga meta-metode untuk membangun sistem kecerdasan yang dianalisis Bennett, dan apa metode yang dominan saat ini?

ATiga meta-metode tersebut adalah: 1. Scale-maxing (maksimalisasi skala): menumpuk parameter, data, dan daya komputasi (metode dominan saat ini), 2. Simp-maxing (maksimalisasi kesederhanaan): mengejar struktur model yang sangat sederhana, dan 3. W-maxing (maksimalisasi pelemahan kendala): melemahkan batasan fungsional agar sistem menemukan solusi optimal sendiri. Bennett berpendapat bahwa AGI akan membutuhkan kombinasi dari berbagai metode ini, bukan hanya satu jalur.

Bacaan Terkait

PA Visual | Satu Gambar Pahami Peristiwa Web3 Penting yang Patut Diperhatikan di Bulan Juni

"PA Pictorial: Peta untuk Memahami Peristiwa Web3 Penting yang Perlu Diperhatikan pada Juni" Jelajahi Kalender Kripto terbaru PANews dengan cakupan lebih lengkap, penyaringan fleksibel, dan ekspor yang mudah. Pada Juni, pasar kripto dipadati oleh keputusan suku bunga makro, data ekonomi penting, pelepasan token, dan acara teknologi tradisional. Poin-poin intinya meliputi: 📌 Amerika Serikat merilis data NFP dan CPI bulan Mei. The Fed menerbitkan Buku Beige dan menggelar konferensi pers kebijakan, dengan preferensi risiko pasar tetap dipengaruhi ekspektasi makro. 🏦 Bank Sentral Eropa dan Bank of Japan akan mengumumkan keputusan suku bunga, menjadikan likuiditas global dan jalur suku bunga sebagai salah satu tema utama pasar di Juni. 🪙 Beberapa token seperti SUI dan ENA akan mengalami pelepasan (unlock), perlu diperhatikan risikonya. 🚀 Perkembangan proyek: Coinbase akan meluncurkan futures indeks saham perpetual perdana, CME Group berencana meluncurkan futures indeks kripto Nasdaq; SharpLink akan dimasukkan ke dalam Indeks Russell 2000 dan 3000. ⚠️ Penyaringan proyek terus berlanjut: Layanan seperti browser Bitcoin Ordinals, Ord.io, secara bertahap berhenti beroperasi. Perhatikan pengaturan penarikan dan migrasi aset. 🌐 Acara penting lainnya: Pembukaan Piala Dunia, pembukaan Apple WWDC26, penawaran saham SpaceX, pertemuan IPO S&T UBTECH di pasar STAR, dll. Dengan makroekonomi, pelepasan token, regulasi, penyaringan proyek, dan acara teknologi yang berlangsung bersamaan, pasar pada Juni mungkin terus mencari arah baru di tengah ekspektasi likuiditas, perubahan kebijakan, dan rotasi ekosistem. Kunci inti peristiwa global dan alur utama Web3 Juni 2026 dalam satu peta!

marsbit46m yang lalu

PA Visual | Satu Gambar Pahami Peristiwa Web3 Penting yang Patut Diperhatikan di Bulan Juni

marsbit46m yang lalu

Ali "Menaruh Barang", Byte "Berlatih Ilmu"

Dalam satu minggu terakhir Mei, dua raksasa teknologi China, Alibaba dan ByteDance, memamerkan dua pendekatan berbeda dalam strategi AI mereka. Alibaba, sebagai perusahaan publik, fokus pada integrasi AI untuk monetisasi langsung. Mereka menghubungkan model Qwen dengan platform e-commerce seperti Taobao, menciptakan fitur seperti "pencocokan harga AI" dan "pakaian virtual AI". Melalui protokol ACT, mereka membangun infrastruktur untuk transaksi berbasis agen AI. Pendapatan eksternal Alibaba Cloud tumbuh 40%, menunjukkan model bisnis "MaaS" (Model-as-a-Service) mereka yang berhasil. Namun, pendekatan ini mungkin mengorbankan penelitian mendasar untuk keunggulan jangka pendek. Sebaliknya, ByteDance, yang masih swasta, berinvestasi besar dalam penelitian AI jangka panjang. Departemen Seed mereka, dengan anggaran belanja modal (capex) yang meningkat pesat, bertujuan "menjelajahi batas atas kecerdasan". Mereka merilis model pembuatan video Seedance 2.0 yang memimpin peringkat global dan mempublikasikan penelitian mendalam tentang "model dunia". Perusahaan ini memberikan kebebasan bagi tim risetnya tanpa tekanan kuartalan dari pasar modal. Perbedaan kunci ini lebih disebabkan oleh status kepemilikan daripada filosofi semata. Sebagai perusahaan publik, Alibaba terikat pada harapan ROI jangka pendek investor. ByteDance, yang belum IPO, memiliki kemewahan untuk berfokus pada terobosan teknologi jangka panjang. Analisis menyimpulkan bahwa jalan strategis AI sebuah perusahaan di China sangat ditentukan oleh apakah perusahaan tersebut terdaftar di bursa atau tidak, yang membentuk pilihan antara "menjual AI" dan "membuat AI".

marsbit53m yang lalu

Ali "Menaruh Barang", Byte "Berlatih Ilmu"

marsbit53m yang lalu

Circle Memasukkan Alamat Protokol Zama ke Daftar Hitam, Membekukan Dana Pengguna Senilai $12.6 Juta – Rincian

Penerbit stablecoin Circle dilaporkan telah memblokir kontrak pintar terkait protokol privasi Zama, membekukan sekitar $12,6 juta dana pengguna. Pembekuan ini pertama kali ditandai oleh penyelidik on-chain ZachXBT, menyangkut kontrak Confidential USDC (cUSDC) Zama di Ethereum. Alamat kontrak yang terdampak telah terdokumentasi publik. Temuan lebih lanjut menunjukkan pembekuan mungkin terkait dengan kontroversi dan masalah hukum di sekitar protokol manajemen aset Overnight Finance. Data menunjukkan dompet yang dikaitkan dengan Overnight Finance menyetorkan sejumlah besar USDC ke kontrak Zama. Overnight Finance sendiri tengah menghadapi ketegangan tata kelola dan gugatan perdata. Tindakan Circle menuai kritik karena diduga dilakukan tanpa pemberitahuan sebelumnya kepada tim Zama, memperkuat kekhawatiran tentang penegakan sepihak oleh penerbit terpusat yang memengaruhi pengguna aplikasi terdesentralisasi. Circle juga disebut membekukan banyak dompet panas lain pada Maret 2026 tanpa penjelasan publik. Langkah terbaru ini dianggap lebih serius karena menargetkan kontrak tingkat protokol, menyoroti risiko perwalian dalam sistem yang dianggap terdesentralisasi.

bitcoinist1j yang lalu

Circle Memasukkan Alamat Protokol Zama ke Daftar Hitam, Membekukan Dana Pengguna Senilai $12.6 Juta – Rincian

bitcoinist1j yang lalu

Mengapa Lebih Banyak AI Agent Belum Tentu Berarti Produktivitas yang Lebih Tinggi?

**Mengapa Lebih Banyak AI Agent Tidak Sama dengan Produktivitas Lebih Tinggi?** Meskipun teknologi memungkinkan kita meluncurkan banyak AI Agent dengan mudah dan murah, produktivitas nyata tidak serta-merta meningkat. Ini karena munculnya konsep "Pajak Orkestrasi"—biaya tersembunyi untuk mengelola, menilai, dan menggabungkan hasil kerja semua Agent tersebut. Pekerjaan ini harus kembali ke satu sumber daya serial yang tidak dapat diduplikasi: perhatian dan penilaian manusia. **Manusia adalah 'GIL' dalam Sistem.** Seperti Global Interpreter Lock (GIL) dalam Python, semua Agent dapat berjalan paralel, tetapi untuk keputusan penting (seperti tinjauan arsitektur, kode, atau penyelesaian konflik), mereka harus "mengambil kunci" dari Anda—sang pengembang. Hukum Amdahl berlaku: percepatan maksimum dari paralelisasi dibatasi oleh bagian kerja yang harus tetap serial, yaitu kapasitas penilaian manusia. Menambah Agent hanya membuat antrian tinjauan lebih panjang, memperbesar beban konteks, dan menyebabkan kelelahan kognitif. **Kelelahan dan Utang Tersembunyi.** Banyaknya Agent yang aktif memberi ilusi produktivitas tinggi, tetapi rasa sibuk itu tidak sama dengan hasil berkualitas. Jika Anda "menyerah secara kognitif" dan tidak meninjau hasil dengan benar, Anda menumpuk utang teknis dan utang kognitif—masalah yang akan muncul nanti. Pajak orkestrasi harus dibayar, baik secara sadar melalui proses yang terencana, atau diam-diam melalui penurunan kualitas. **Solusi: Kelola Perhatian Seperti Sistem Produksi.** Kuncinya adalah merancang alur kerja dengan menghormati batas perhatian manusia sebagai sumber daya langka: 1. **Kontrol Jumlah Agent:** Sesuaikan jumlah Agent dengan kemampuan *review* Anda, bukan dengan apa yang UI izinkan. Batasi ke angka rendah. 2. **Klasifikasi Tugas:** Pisahkan tugas independen (cocok untuk Agent paralel) dari tugas kompleks yang membutuhkan penilaian mendalam (kerjakan secara serial). 3. **Tinjau Secara Berkelompok (*Batch Review*):** Kurangi biaya alih konteks dengan meninjau hasil beberapa Agent sekaligus. 4. **Gunakan Waktu Serial untuk Penilaian:** Fokuskan perhatian hanya pada bagian yang memerlukan penilaian manusia. Biarkan Agent menangani bagian yang dapat diverifikasi otomatis (seperti tes). 5. **Lindungi Waktu Fokus Anda:** Kadang, tindakan paling produktif adalah berhenti mengoordinasi banyak Agent dan fokus pada satu masalah inti. Kemampuan sebenarnya di era AI bukanlah menjalankan banyak Agent, tetapi merancang sistem yang secara sadar mengelilingi dan melindungi kapasitas penilaian serial manusia—sumber daya paling berharga dalam proses pengembangan.

marsbit2j yang lalu

Mengapa Lebih Banyak AI Agent Belum Tentu Berarti Produktivitas yang Lebih Tinggi?

marsbit2j yang lalu

Tiga Tahun Kemudian: Meninjau Kembali Penilaian Saya terhadap ChatGPT di Tahun 2023

Tiga tahun kemudian, pada Mei 2026, penulis meninjau kembali 20 prediksi tentang ChatGPT yang dibuatnya pada Maret 2023, menggunakan AI untuk mengevaluasi akurasinya berdasarkan data terbaru. Secara keseluruhan, arah dan mekanisme prediksi banyak yang tepat. Yang paling akurat adalah tentang RAG sebagai arsitektur standar, LUI (Antarmuka Pengguna Bahasa Alami) sebagai lapisan interaksi baru, munculnya "jaringan robot" (protokol untuk agen AI), dan kemampuan China mengejar ketertinggalan model AI besar. Prediksi bahwa ChatGPT bukan AGI namun langkah besar, tidak menyebabkan gelombang pengangguran massal, serta sifat uji Turing yang hanya mengukur persepsi juga pada dasarnya benar. Namun, prediksi dengan angka spesifik atau pernyataan mutlak sering meleset. Klaim bahwa GPT-4 memiliki 100 triliun parameter sepenuhnya salah. Pernyataan bahwa LLM "tidak mungkin" mengerjakan matematika murni terbantahkan dengan model penalaran yang memenangkan medali emas IMO. Estimasi biaya pelatihan model hanya $5-10 miliar juga jauh dari kenyataan, yang kini mencapai miliaran dolar untuk model terdepan. Beberapa prediksi keliru tentang distribusi dampak, seperti bahwa nilai akan berpindah ke lapisan aplikasi (nyatanya, penyedia chip seperti NVIDIA paling untung), atau bahwa AI akan "menghindari" masalah hak cipta (justru menimbulkan gugatan besar). Kesimpulan utama adalah: dalam memprediksi teknologi yang cepat berubah, mengidentifikasi arah dan mekanisme umumnya lebih bisa diandalkan daripada memberikan angka pasti atau pernyataan mutlak. Prediksi cenderung terlalu optimis tentang kecepatan perubahan jangka pendek, tetapi meremehkan besarnya perubahan jangka panjang. Penting juga untuk mempertimbangkan distribusi dampak, bukan hanya kesimpulan agregat. Pernyataan yang disertai batasan dan keraguan justru lebih tahan uji waktu. Beberapa pertanyaan mendasar masih belum terjawab setelah tiga tahun. Tinjauan ini berfungsi sebagai pelajaran untuk membuat prediksi yang lebih baik di tiga tahun mendatang.

marsbit8j yang lalu

Tiga Tahun Kemudian: Meninjau Kembali Penilaian Saya terhadap ChatGPT di Tahun 2023