Tiga Tahun Kemudian: Meninjau Kembali Penilaian Saya terhadap ChatGPT di Tahun 2023

marsbitDipublikasikan tanggal 2026-05-31Terakhir diperbarui pada 2026-05-31

Abstrak

Tiga tahun kemudian, pada Mei 2026, penulis meninjau kembali 20 prediksi tentang ChatGPT yang dibuatnya pada Maret 2023, menggunakan AI untuk mengevaluasi akurasinya berdasarkan data terbaru. Secara keseluruhan, arah dan mekanisme prediksi banyak yang tepat. Yang paling akurat adalah tentang RAG sebagai arsitektur standar, LUI (Antarmuka Pengguna Bahasa Alami) sebagai lapisan interaksi baru, munculnya "jaringan robot" (protokol untuk agen AI), dan kemampuan China mengejar ketertinggalan model AI besar. Prediksi bahwa ChatGPT bukan AGI namun langkah besar, tidak menyebabkan gelombang pengangguran massal, serta sifat uji Turing yang hanya mengukur persepsi juga pada dasarnya benar. Namun, prediksi dengan angka spesifik atau pernyataan mutlak sering meleset. Klaim bahwa GPT-4 memiliki 100 triliun parameter sepenuhnya salah. Pernyataan bahwa LLM "tidak mungkin" mengerjakan matematika murni terbantahkan dengan model penalaran yang memenangkan medali emas IMO. Estimasi biaya pelatihan model hanya $5-10 miliar juga jauh dari kenyataan, yang kini mencapai miliaran dolar untuk model terdepan. Beberapa prediksi keliru tentang distribusi dampak, seperti bahwa nilai akan berpindah ke lapisan aplikasi (nyatanya, penyedia chip seperti NVIDIA paling untung), atau bahwa AI akan "menghindari" masalah hak cipta (justru menimbulkan gugatan besar). Kesimpulan utama adalah: dalam memprediksi teknologi yang cepat berubah, mengidentifikasi arah dan mekanisme umumnya lebih bisa diandalkan daripad...

Penulis: Wang Jianshuo

6 Maret 2023, ChatGPT baru saja dirilis, GPT-4 belum diluncurkan, saya dan Sarah melakukan wawancara tentang ChatGPT — episode ketiga dari serial "Traders' Talk: Jelas dan Mudah Dimengerti" (Podcast membahas ChatGPT dengan bahasa yang mudah dimengerti telah dirilis, silakan dengarkan).

Pada saat itu ChatGPT belum lama hadir, sangat sedikit orang yang benar-benar mencobanya. Wawancara yang berlangsung tiga jam ini kemudian bertahan di peringkat pertama kategori ChatGPT di platform Xiao Yuzhou (小宇宙). Dalam wawancara itu, saya langsung mengemukakan lebih dari dua puluh penilaian dan prediksi, semuanya berdasarkan intuisi dan informasi terbatas, tanpa banyak data. Transkrip lengkap wawancara saat itu masih tersimpan di akun media sosial.

Sekarang adalah akhir Mei 2026, tiga tahun telah berlalu, AI telah tumbuh menjadi sesuatu yang tidak terbayangkan pada masa itu.

Saya ingin melakukan satu hal: mengambil kembali dua puluh poin itu satu per satu, menggunakan data terbaru yang dapat ditemukan hari ini, untuk melakukan penilaian ulang secara objektif. Melihat dengan jelas bagaimana dunia benar-benar berubah dalam tiga tahun, dan juga melihat dengan jelas di bagian mana saya saat itu tepat, dan di bagian mana meleset.

Untuk menjaga netralitas sebanyak mungkin, penilaian ulang ini saya serahkan kepada AI: memasukkan transkrip wawancara lama ke dalam sebuah workflow, di mana ia akan mengatur 41 agen Opus 4.8, pertama-tama memisahkan dua puluh penilaian tersebut satu per satu, kemudian masing-masing mencari data terbaru secara daring, memverifikasi silang setiap poin, dan akhirnya memberikan nilai pada Wang Jianshuo tiga tahun lalu. Kelompok agen ini menghabiskan sekitar 20 menit, membakar 1,4 juta token (setara dengan sekitar 35 dolar AS), dan menghasilkan laporan di bawah ini. Penilaian berasal dari mereka, bukan dari saya. Hari patokan ditetapkan pada Mei 2026.

一、Papan Skor

Simbol keputusan: ✅ Benar · 🟢 Pada dasarnya benar · 🟡 Sebagian benar · ❌ Salah

Sekilas, arah besar Wang Jianshuo saat itu sebagian besar bertahan, yang benar-benar bisa disebut salah keras hanya satu — menyebut parameter GPT-4 sebagai 100T. Namun detail-detail kecil menyimpan kejutan: hampir di balik setiap poin yang "benar", terdapat ekor yang tidak tepat pada saat itu. Dari dua puluh poin, tidak ada satu pun yang murni "masih belum pasti", tiga tahun cukup lama, sebagian besar hal sudah memiliki kecenderungan jawaban. Mari kita bahas secara rinci per kelompok.

二、Yang Tepat

Ciri umum kelompok ini: arah, mekanisme, bahkan irama waktu yang dinilai Wang Jianshuo saat itu tepat, kesalahan hanya pada "tingkat" dan "ungkapan absolut".

RAG dan Arsitektur Retrieval (Pandangan 2, 3)

> 2023 Wang Jianshuo berkata: Metode utama mengatasi pengetahuan dan halusinasi bukan mengubah model, tetapi memasukkan pengetahuan melalui vektor retrieval sebagai "contekan"; arsitektur yang benar adalah mesin pencari melakukan retrieval, lalu memberikan hasilnya kepada LLM.

Ini adalah standar faktual semua produk AI hari ini. RAG telah menjadi arsitektur default AI perusahaan, OpenAI, Google, Anthropic semuanya menjadikannya kemampuan tingkat platform; ChatGPT Search secara harfiah adalah "pertama-tama menggunakan indeks Bing untuk retrieval, memberikan hasilnya kepada GPT, lalu menghasilkan jawaban dengan referensi". Google AI Overviews menggunakan grounding mencapai sekitar 2 miliar pengguna aktif bulanan, Perplexity, sebuah perusahaan murni yang mengandalkan arsitektur ini, valuasinya melesat ke sekitar 200 miliar dolar AS.

Pada saat GPT-4 belum dirilis, dan industri secara default berasumsi "menyuntikkan pengetahuan melalui fine-tuning", yang dia pertaruhkan adalah "tidak mengubah parameter model, melampirkan retrieval eksternal", baik mekanisme maupun waktunya tepat.

Yang perlu diakui secara jujur: yang dia bayangkan adalah "retrieval statis sekali pakai", sedangkan kenyataannya lebih kompleks — konteks panjang, GraphRAG, agentic retrieval semuanya datang untuk memperkuat. Perdebatan "RAG Sudah Mati" pada 2026, justru membuktikan arah besarnya tidak mati, yang dibantah hanyalah "retrieval naif sekali pakai", kesimpulannya adalah ditingkatkan menjadi hybrid retrieval, bukan kembali mengubah parameter model. Ada satu poin lagi: istilah RAG sudah diajukan dalam makalah Meta 2020, bukan ciptaannya — dia hanya bertaruh pada saat yang tepat bahwa itu akan menjadi arus utama.

LUI adalah Benua Baru (Pandangan 7)

> 2023 Wang Jianshuo berkata: Hal terhebat ChatGPT bukan AIGC, tetapi membuka LUI (Antarmuka Pengguna Bahasa Alami), akan seperti GUI pada masanya merekonstruksi interaksi manusia-komputer, melahirkan industri baru yang jauh lebih besar daripada "membuat model besar" itu sendiri.

Bagian "benua baru" ini hampir seluruhnya tepat. Bahasa alami telah menjadi lapisan interaksi utama publik (ChatGPT 900 juta pengguna aktif mingguan), dan melahirkan industri baru yang independen — agen, coding agent, lapisan protokol semuanya terwujud. Kalimat paling spesifik "jauh lebih besar daripada membuat model itu sendiri" dikonfirmasi kuat: protokol MCP menjadi "standar sistem operasi" era LUI, diadopsi secara luas oleh OpenAI, Google, Microsoft pada 2025, dialihkan ke Yayasan Linux pada akhir tahun; Claude Code, produk tunggal saja, mencapai pendapatan tahunan sekitar 2,5 miliar dolar AS.

Namun dia menggunakan ungkapan kuat seperti "merekonstruksi, menggantikan GUI", tiga tahun kemudian terlihat adalah berlapis dan hidup berdampingan, bukan menggantikan. Tiga jenis contoh tandingan cukup keras: laporan MIT menunjukkan 95% pilot GenAI perusahaan tidak memiliki ROI yang terukur; computer-use agent yang beroperasi langsung pada antarmuka di set pengujian hanya mencapai sekitar 78% untuk model teratas, baru menyentuh baseline manusia; perangkat keras bahasa murni tanpa layar hampir semuanya gagal total (Humane Pin menghentikan layanan permanen pada 2025). Pernyataan yang lebih tepat adalah: LUI adalah lapisan interaksi baru yang ditumpangkan di atas GUI.

Jaringan Robot dan Sistem Penamaan Baru (Pandangan 9)

> 2023 Wang Jianshuo berkata: Sekitar sepuluh tahun ke depan akan muncul "jaringan robot" — agen saling berjabat tangan, memanggil satu sama lain secara otomatis menggunakan bahasa alami, tidak lagi membutuhkan API tradisional; akan lahir sistem penamaan domain baru. Hal ini "dapat diselesaikan dalam dua atau tiga tahun".

Arahnya tepat secara mengejutkan. MCP, A2A (telah disumbangkan ke Yayasan Linux, didukung lebih dari 150 organisasi) menyelesaikan interoperabilitas agen; Agent Network Protocol langsung berbasis DID W3C untuk "penamaan agen tanpa otoritas pusat", bertujuan untuk "jaringan kolaborasi miliaran agen" — ini sangat mirip struktur dengan "sistem domain baru" yang dia katakan.

Dua hal perlu dikoreksi: pertama, "tidak lagi membutuhkan API" tidak berlaku, protokol utama di lapisan dasarnya adalah skema terstruktur, pada dasarnya menambahkan lapisan standar di atas API; kedua, "selesai dalam dua tiga tahun" tidak terwujud, data Gartner menunjukkan hingga 2026 hanya sekitar 17% organisasi yang benar-benar menerapkan agen. Yang menarik, pada saat itu dia sebenarnya membagi pernyataannya menjadi dua lapisan — prototipe "dua tiga tahun", matang "sekitar sepuluh tahun". Irama prototipe tepat sekali, siklus kematangan memang tingkat sepuluh tahun. Dengan melihat dua lapisan ini terpisah, kualitas poin ini lebih tinggi daripada yang terlihat.

Tiongkok Pasti Dapat Membuat Model Besar yang Dapat Digunakan (Pandangan 10, 20)

> 2023 Wang Jianshuo berkata: Tiongkok pasti dapat membuat model besar yang dapat digunakan, kesenjangan dengan yang teratas akan menyempit dengan cepat dalam sekitar tiga tahun (analogi browser Hongqi mengejar Netscape).

Timeline poin ini sesuai dengan cara yang mengejutkan. Pengukuran Stanford AI Index 2026, kesenjangan benchmark antara model teratas Tiongkok dan AS menyempit dari 17,5–31,6 poin persentase pada Mei 2023 menjadi 2,7%; sementara investasi AI swasta AS sekitar 23 kali lipat Tiongkok — mencapai penyempitan dengan input yang jauh lebih kecil. DeepSeek, Qwen, Kimi, GLM menjadi arus utama global, bahkan memimpin ekosistem sumber terbuka.

Namun kata "cepat" terlalu optimis — kematangan sebenarnya terjadi sekitar 14 bulan kemudian, bukan "beberapa bulan". Dan ini adalah mengejar kegunaan, bukan mendefinisikan batas terdepan: hingga awal 2026 masih belum ada model Tiongkok yang melampaui OpenAI o3. Dalam pandangan 20 dia jelas salah: penilaian "pintu terbuka tidak akan tertutup" langsung dibantah oleh OpenAI yang secara aktif memutuskan API ke Tiongkok pada Juli 2024, pintu ditutup oleh penyedia; Wenxin Yiyan yang dia sebutkan sebagai pemimpin justru tertinggal, yang benar-benar mengambil alih adalah DeepSeek, Doubao, Qianwen yang masih tidak mencolok saat itu.

Tidak Sadar, Uji Turing Hanya Mengukur Penampilan (Pandangan 13)

> 2023 Wang Jianshuo berkata: ChatGPT tidak memiliki kesadaran, adalah "pembicara tidak bermaksud, pendengar yang terlalu sensitif"; uji Turing pada dasarnya hanya mengukur "apakah membuatmu berpikir ia memilikinya", bukan ia benar-benar memilikinya.

Penilaian inti "mengukur penampilan" ini bertahan dengan kokoh, bahkan dikukuhkan secara ironis oleh sebuah eksperimen: dalam uji Turing UC San Diego 2025, GPT-4.5 dalam kondisi prompt "memerankan karakter manusia" dinilai sebagai manusia sebesar 73%, lebih tinggi dari manusia sungguhan, tetapi semata-mata bergantung pada keterampilan akting — ini adalah penjelasan terbaik untuk "hanya mengukur apakah membuatmu berpikir ia memilikinya".

Yang perlu ditambahkan: pernyataan absolut kuat "mesin pasti tidak memiliki kesadaran" ini, dalam tiga tahun didorong ke area abu-abu. Anthropic mendirikan posisi penelitian "kesejahteraan model", memberikan probabilitas kesadaran sekitar 15%–20%, bahkan menambahkan fungsi "mengakhiri dialog penyalahgunaan secara aktif" untuk Claude. Hal-hal ini mengubah "sama sekali tidak" menjadi "probabilitas rendah tetapi tidak dapat dikesampingkan". Namun semuanya berdasarkan "mungkin, harus berasumsi" bukan "telah terbukti", intinya tidak terguling, hanya nada yang terlalu penuh pada saat itu.

Yang Lain yang Tepat (Pandangan 6, 11, 12, 16, 18, 19)

  • Bukan AGI Tetapi Langkah Besar
    : Keduanya bertahan. Altman sendiri di era GPT-5 masih mengatakan "bukan AGI, kekurangan pembelajaran berkelanjutan"; sementara medali emas IMO, ARC-AGI dari hampir nol melonjak ke 85%, "langkah besar" tidak diragukan lagi.
  • Tidak Akan Ada Gelombang PHK Besar
    : Tingkat pengangguran AS April 2026 hanya 4,3%. Titik buta ada pada "distribusi" — penelitian Stanford menunjukkan, yang tereliminasi justru adalah pemula muda usia 22–25 tahun di anak tangga karier pertama, mekanisme "menyerap dengan lancar" gagal pada mereka.
  • Tidak Akan Tenggelam oleh Sampah AI
    : Arah kesejahteraan bersih tepat, tetapi dia sangat meremehkan skalanya — konten AI telah mencakup sekitar 52% halaman web baru, "AI slop" menjadi kata tahunan.
  • Tahun Besar untuk Startup
    : Titik balik gelombang tepat, xAI (didirikan Maret 2023) mencapai valuasi 230 miliar. Namun dia membatasi "perusahaan hebat" hanya pada tahun 2023 terlalu sempit — OpenAI, Anthropic yang benar-benar bernilai triliunan didirikan lebih awal.
  • Momen Browser 1994
    : Peringkat relatif dikukuhkan, OpenAI 2025 benar-benar meluncurkan browser Atlas, mengubah metafora menjadi kenyataan harfiah. Hanya saja difusi ChatGPT lebih dahsyat daripada browser, metaforanya terlalu konservatif.
  • Prompt Ditambah Memasukkan Fakta Mengurangi Halusinasi
    : Arah dibuktikan, GPT-5 saat offline tanpa retrieval tingkat halusinasinya melonjak ke 47%, secara terbalik mengukuhkan "fakta" sebagai variabel kunci. Hanya meremehkan akar penyebabnya ada pada insentif pelatihan, bukan prompt.

三、Yang Salah, Yang Meleset

GPT-4 adalah 100T Parameter (Pandangan 4) — Salah Total

> 2023 Wang Jianshuo berkata: (Kabar angin) GPT-4 adalah 100T parameter, sekitar 600 kali lebih besar dari GPT-3 yang 175B.

Kedua angka salah. GPT-3 adalah 175B, perkiraan terbaik yang bocor Juli 2023 adalah GPT-4 sekitar 1,8T, MoE dengan 16 pakar, hanya sekitar 10 kali lipat. 100T dan kenyataan berbeda sekitar 55 kali lipat skala. Satu-satunya sumber "100T" adalah pernyataan sekunder CEO Cerebras 2021 yang "sekitar", Sam Altman sudah pada Januari 2023 menegaskan gambar perbandingan itu adalah "omong kosong total".

Ucapan aslinya menandai "kabar angin", mempertahankan ketidakpastian. Lebih dalam, kerangka "menggunakan kelipatan parameter untuk mengukur generasi" itu sendiri sudah ketinggalan zaman: OpenAI kemudian di GPT-4.5, GPT-5 tidak lagi mempublikasikan jumlah parameter. Ini adalah satu-satunya kesalahan keras di mana angka salah dan perspektif juga sudah usang.

Matematika LLM (Pandangan 1) — Diagnosis Benar, Kesimpulan Batas Atas Salah

> 2023 Wang Jianshuo berkata: Kelemahan matematika LLM adalah sifat dasarnya, membuatnya belajar matematika sendiri tidak mungkin dan tidak perlu, cara yang benar adalah melampirkan alat eksternal.

"Diagnosis plus jalur alat" semuanya tepat — akar penyebabnya justru adalah generasi token demi token yang menyebabkan carry tidak dapat diandalkan (makalah mekanisme 2025 secara tepat mengonfirmasi intuisi "digit terakhir sering benar, digit tengah salah"); peningkatan dengan alat eksternal juga besar (o4-mini saat diizinkan menggunakan Python, AIME 2025 mencapai 99,5%).

Salah pada ungkapan batas seperti "tidak mungkin, tidak perlu". "Tidak mungkin" terbantahkan — Juli 2025 Gemini Deep Think dan model OpenAI di IMO menggunakan bahasa alami murni, tanpa alat, meraih medali emas. Titik balik kunci adalah "model penalaran" yang baru muncul 2024–2025, ini tidak dapat diprediksi Maret 2023 — jadi untuk prediksi ini harus dinilai secara toleran pada arahnya, bukan mencela titik waktunya.

Penangkapan Nilai (Pandangan 8) — Bertaruh Setengah Benar, Pernyataan Inti Terbalik

> 2023 Wang Jianshuo berkata: Nilai akhirnya akan jatuh pada lapisan aplikasi, perusahaan yang membuka lapisan dasar (pembuat model) akhirnya belum tentu menghasilkan uang.

Uang memang mulai mengalir ke lapisan aplikasi (Cursor tiga tahun mencapai pendapatan tahunan 2 miliar) — setengah ini benar. Tetapi "pembuat lapisan dasar tidak menghasilkan uang" langsung dibantah oleh NVIDIA: FY2026 laba bersih sekitar 120 miliar dolar AS, kapitalisasi pasar 5 triliun+, adalah satu-satunya yang jelas menghasilkan keuntungan besar di seluruh pasar. Sedangkan lapisan model yang dia isyaratkan akan menang (OpenAI 2026 pra-rugi sekitar 14 miliar) justru paling mirip dengan "lapisan dasar membakar uang tidak menghasilkan uang" yang dia katakan.

Dia tidak membedakan "lapisan dasar daya komputasi" dan "lapisan dasar model", juga tidak membedakan "pendapatan" dan "laba". Nilai pada 2026 lebih ekstrem ditangkap oleh lapisan daya komputasi daripada 2023, bukan beralih ke lapisan aplikasi. Perlu ditambahkan: yang merugi adalah penyedia cloud yang membeli chip, bukan NVIDIA yang menjual chip — ini justru adalah ketidaksesuaian analogi "pembangunan rel berlebihan" miliknya.

Hak Cipta (Pandangan 14) — Pendaftaran Benar, Menghindari Pelanggaran Salah

> 2023 Wang Jianshuo berkata: Konten yang dihasilkan AI mungkin menghindari hak cipta (melindungi ekspresi bukan ide); hasil generasi mungkin tidak melanggar, dan juga tidak dapat didaftarkan.

"Tidak dapat didaftarkan" menjadi fakta hukum yang ditetapkan (2025 Kantor Hak Cipta AS jelas "hanya memasukkan prompt tidak cukup untuk mengklaim kepenulisan"). Tetapi "menghindari pelanggaran" jelas salah: pengadilan berulang kali menetapkan output AI jika secara substantif mirip dengan karya asli tetap merupakan pelanggaran; Anthropic karena korpus bajakan menyelesaikan dengan 1,5 miliar dolar AS, adalah ganti rugi hak cipta terbesar dalam sejarah AS. AI tidak hanya tidak "menghindari" hak cipta, malah membayar harga terbesar dalam sejarah.

Dunia yang Damai (Pandangan 15) — Mekanisme Benar, Tren Bertaruh Terbalik

> 2023 Wang Jianshuo berkata: ChatGPT melakukan "rata-rata tertimbang" pada pandangan manusia, dapat melawan filter bubble seperti TikTok, memberikan kemungkinan "dunia yang damai".

Lapisan mekanisme benar — 2025 beberapa penelitian secara pasti mengonfirmasi LLM menekan pandangan ke arah mayoritas, secara sistematis meremehkan minoritas. Namun lapangan penilaian sosial bertaruh terbalik: tambahannya sendiri "setidaknya sekarang bukan seribu orang seribu wajah", dalam tiga tahun dibantah — OpenAI dari April 2025 menjadikan memori lintas dialog dan personalisasi sebagai kemampuan default, AI sedang bergerak cepat menuju seribu orang seribu wajah. Lebih krusial, dia membayangkan "rata-rata tertimbang" sebagai titik temu netral dunia, tetapi pengukuran menunjukkan itu adalah pergeseran berarah, ditambah menjilat, dapat digunakan untuk memanipulasi posisi secara aktif — ini menunjuk ke "menciptakan filter bubble baru", bukan "menghilangkan polarisasi".

Perang Lokal dan Biaya (Pandangan 17) — Kualitatif Sepenuhnya Benar, Kuantitatif Terbantahkan

> 2023 Wang Jianshuo berkata: Membuat model besar lagi akan dengan cepat menjadi "perang lokal", biaya dapat diketahui (menghilangkan jalan memutar sekitar 5-10 miliar dolar AS batas atas), akan banyak pemain masuk.

Arah kualitatif tepat secara mengejutkan — banyak pemain masuk, dengan cepat menjadi komoditas, sumber terbuka menyamai tertutup, semua terwujud. Tetapi angka keras "5-10 miliar batas atas" ini salah di kedua ujung: ujung terdepan sangat diremehkan (tingkat GPT-5 2026 mencapai 2-5 miliar dolar AS pelatihan, ditambah pusat data triliunan dan Stargate 500 miliar); ujung replika terlalu dianggap tinggi (DeepSeek menekan biaya pelatihan marjinal ke tingkat jutaan dolar AS). "Biaya" model yang sama menurut parameter dapat berbeda 200 kali lipat, hanya saja tidak berada dalam interval yang dia berikan.

Kemampuan Muncul (Pandangan 5) — Arah Benar, Angka dan Batasan Salah

> 2023 Wang Jianshuo berkata: Di atas sekitar 60B parameter muncul kemampuan baru yang tidak ada dalam korpus asli dan tidak dapat dijelaskan peneliti.

Intuisi arah terbukti, tetapi dua pernyataan tidak dapat dipertahankan: pertama, tidak ada "ambang batas 60B" yang seragam — ambang batas nyata pemikiran berantai sekitar 100B, kemampuan berbeda muncul pada skala berbeda dari 13B hingga 540B; kedua, "tidak dapat dijelaskan" pada akhir 2023 sudah ditantang oleh makalah terkemuka NeurIPS — banyak "mutasi" adalah ilusi yang disebabkan oleh pemilihan metrik evaluasi, setelah mengganti metrik kontinu kurva menjadi halus dan dapat diprediksi. Secara adil, saat itu dia mengulangi narasi yang benar-benar arus utama, yang benar-benar dapat dikoreksi adalah menganggap "60B" sebagai ambang batas keras, dan menganggap "tidak dapat dijelaskan" sebagai kesimpulan kualitatif.

四、Tinjau Tiga Tahun, Beberapa Pola

Setelah memeriksa setiap poin, mundur selangkah, dalam dua puluh penilaian Wang Jianshuo ini tersimpan beberapa pola yang lebih layak diingat daripada poin tunggal mana pun.

一、Arah Jauh Lebih Andal daripada Angka dan Tingkat. Dari dua puluh poin, yang menilai mekanisme dan arah (RAG, LUI, jaringan robot, uji Turing), hampir semuanya tepat; yang memberikan angka spesifik atau ungkapan batas (parameter 100T, ambang batas 60B, biaya 5-10 miliar, matematika "tidak mungkin"), hampir semuanya salah. Untuk bidang yang berubah cepat, bertaruh pada arah, bertaruh pada mekanisme, sedikit bertaruh pada angka tepat, dan lebih waspada terhadap kata-kata yang terlalu penuh seperti "tidak mungkin, pasti, batas atas, sama sekali tidak" — ini adalah area berisiko tinggi terkena tamparan waktu.

二、Dalam hal waktu, dia cenderung melebih-lebihkan kecepatan, meremehkan tingkat. Yang mengatakan "cepat, selesai dalam dua tiga tahun", periode kematangan umumnya lebih lambat; tetapi untuk lompatan kemampuan plafonnya justru diremehkan — matematika dari "tidak mungkin" menjadi medali emas IMO, biaya terdepan dapat melonjak ke skala yang tidak terbayangkan pada saat itu. Satu kalimat: terlalu optimis jangka pendek, terlalu konservatif jangka panjang.

三、Kesalahan paling tersembunyi, berulang muncul pada "distribusi". Bukan arah salah, tetapi hanya melihat total, mengabaikan distribusi. "Tidak akan ada gelombang PHK" benar, tetapi kerusakan sangat terkonsentrasi pada pemula muda; "nilai jatuh pada lapisan aplikasi" setengah benar, tetapi tidak membedakan lapisan daya komputasi dan lapisan model. Total benar, menutupi bencana distribusi — ini adalah pelajaran yang paling perlu ditambahkan.

四、Tempat di mana ucapan dibiarkan ada ruang, tiga tahun kemudian dapat diuji. "Kabar angin", "setidaknya sekarang", "mengurangi secara signifikan bukan menghilangkan", "prototipe dua tiga tahun, matang sekitar sepuluh tahun" — penilaian apa pun yang pada saat itu diberi kata pembatas, dibagi lapisan, hari ini dilihat kembali lebih dapat dipertahankan. Sebaliknya, kalimat absolut yang keluar begitu saja, paling mudah terbalik. Kejujuran prediksi, setengahnya terletak pada berani mengatakan, setengahnya lagi pada berani menandai ketidakpastian diri sendiri.

五、Beberapa masalah, tiga tahun tidak cukup. Nilai akhirnya milik siapa, kemunculan apakah kebenaran berubah, mesin apakah memiliki setitik kesadaran, konteks panjang apakah akan melahap RAG — perdebatan saat itu, hingga 2026 masih tetap perdebatan. Mampu membedakan "yang sudah memiliki jawaban" dan "yang masih harus ditunggu", lebih penting daripada terburu-buru memberikan kesimpulan untuk setiap hal.

Tiga tahun lalu, Wang Jianshuo, dengan intuisi, dalam kabut di mana GPT-4 belum keluar, menunjuk dua puluh arah. Hari ini setelah pemeriksaan ulang, kalimat yang paling harus diingat mungkin adalah: melihat arah besar sebenarnya tidak terlalu sulit, yang sulit adalah mengakui bahwa dirinya berulang kali menganggap remeh dalam angka, kecepatan, dan distribusi. Dua puluh poin pemeriksaan ini, lebih daripada memberi nilai pada masa lalu, adalah menetapkan beberapa aturan untuk tiga tahun ke depan. Tiga tahun berikutnya, kita periksa kembali pada 2029.

Pertanyaan Terkait

QApa saja prediksi utama Wang Jianshuo tentang ChatGPT pada tahun 2023 yang ternyata benar setelah tiga tahun?

APrediksinya yang terbukti benar terutama berkaitan dengan arah dan mekanisme: 1) RAG dan arsitektur pencarian menjadi standar untuk menangani pengetahuan dan halusinasi. 2) LUI (Antarmuka Pengguna Bahasa Alami) menjadi lapisan interaksi baru yang signifikan. 3) Jaringan 'robot' dengan agen yang saling berkomunikasi mulai terbentuk. 4) Model AI China seperti DeepSeek berhasil mengejar ketertinggalan. 5) ChatGPT tidak memiliki kesadaran, dan Tes Turing hanya mengukur persepsi. Arah prediksi ini terbukti akurat, meskipun detail waktu dan skala seringkali meleset.

QDi mana letak kesalahan atau ketidakakuratan utama dalam prediksi Wang Jianshuo?

AKesalahan atau ketidakakuratan utamanya terletak pada asumsi numerik dan pernyataan absolut: 1) Klaim bahwa GPT-4 memiliki 100T parameter (kenyataannya sekitar 1.8T). 2) Pernyataan bahwa peningkatan kemampuan matematika murni pada LLM 'tidak mungkin' (terbukti model bisa mencapai level Olimpiade). 3) Estimasi biaya pelatihan model hanya 5-10 miliar USD (kenyataannya bisa jauh lebih rendah atau lebih tinggi). 4) Anggapan bahwa AI akan 'menghindari' masalah hak cipta (faktanya, ganti rugi besar justru terjadi). 5) Pernyataan bahwa nilai akan menetap di lapisan aplikasi (kenyataannya, keuntungan besar diraih oleh penyedia infrastruktur seperti Nvidia).

QApa pola atau pelajaran umum yang dapat diambil dari analisis terhadap 20 prediksi ini?

AAnalisis ini mengungkap beberapa pola penting: 1) Prediksi tentang arah dan mekanisme cenderung lebih akurat daripada prediksi angka spesifik atau pernyataan absolut. 2) Wang cenderung terlalu optimis tentang kecepatan perubahan dalam jangka pendek, tetapi meremehkan besarnya perubahan dalam jangka panjang. 3) Sering terjadi kesalahan dalam memahami 'distribusi' dampak, di mana kesimpulan agregat mungkin benar tetapi menutupi dampak yang tidak merata pada kelompok tertentu. 4) Prediksi yang disertai kualifikasi dan ruang ketidakpastian terbukti lebih tahan uji waktu. 5) Beberapa isu mendasar (seperti kesadaran AI, alokasi nilai akhir) membutuhkan waktu lebih dari tiga tahun untuk terjawab.

QBagaimana metode 'pemeriksaan saldo' atau verifikasi prediksi dilakukan dalam artikel ini?

AMetode verifikasi dilakukan dengan menggunakan AI itu sendiri. Penulis memasukkan transkrip wawancara tahun 2023 ke dalam sebuah alur kerja (workflow) yang mengoordinasikan 41 agen AI (Opus 4.8). Agen-agen ini secara mandiri memilah 20 klaim, melakukan pencarian data terbaru secara daring, saling memverifikasi temuan, dan akhirnya memberikan penilaian (skor) terhadap prediksi Wang Jianshuo tiga tahun lalu. Proses ini memakan waktu sekitar 20 menit dan menghabiskan sekitar 140 juta token (setara dengan $35), menghasilkan laporan analitis yang obyektif berdasarkan data hingga Mei 2026.

QMenurut analisis dalam artikel, apa status terkini dari prediksi tentang 'Jaringan Robot' dan lapisan LUI?

AStatus terkini menunjukkan prediksi arah tentang 'Jaringan Robot' dan LUI sebagian besar akurat, meskipun dengan kecepatan yang lebih lambat dari dugaan. 1) **LUI**: Bahasa alami memang menjadi lapisan interaksi dominan bagi pengguna umum (contoh: ChatGPT dengan miliaran pengguna), memunculkan industri baru seperti agen dan lapisan protokol (MCP). Namun, LUI tidak menggantikan GUI, melainkan berkoeksistensi dan melengkapinya. 2) **Jaringan Robot**: Protokol seperti MCP (Model Context Protocol) dan A2A telah lahir untuk memfasilitasi komunikasi antar-agen, membentuk dasar untuk sistem 'alamat' baru. Namun, adopsi skala luas (Gartner: ~17% organisasi pada 2026) masih lebih lambat dari prediksi '2-3 tahun', lebih sesuai dengan kerangka 'sekitar sepuluh tahun' yang juga disebutkan Wang.

Bacaan Terkait

PA Visual | Satu Gambar Pahami Peristiwa Web3 Penting yang Patut Diperhatikan di Bulan Juni

"PA Pictorial: Peta untuk Memahami Peristiwa Web3 Penting yang Perlu Diperhatikan pada Juni" Jelajahi Kalender Kripto terbaru PANews dengan cakupan lebih lengkap, penyaringan fleksibel, dan ekspor yang mudah. Pada Juni, pasar kripto dipadati oleh keputusan suku bunga makro, data ekonomi penting, pelepasan token, dan acara teknologi tradisional. Poin-poin intinya meliputi: 📌 Amerika Serikat merilis data NFP dan CPI bulan Mei. The Fed menerbitkan Buku Beige dan menggelar konferensi pers kebijakan, dengan preferensi risiko pasar tetap dipengaruhi ekspektasi makro. 🏦 Bank Sentral Eropa dan Bank of Japan akan mengumumkan keputusan suku bunga, menjadikan likuiditas global dan jalur suku bunga sebagai salah satu tema utama pasar di Juni. 🪙 Beberapa token seperti SUI dan ENA akan mengalami pelepasan (unlock), perlu diperhatikan risikonya. 🚀 Perkembangan proyek: Coinbase akan meluncurkan futures indeks saham perpetual perdana, CME Group berencana meluncurkan futures indeks kripto Nasdaq; SharpLink akan dimasukkan ke dalam Indeks Russell 2000 dan 3000. ⚠️ Penyaringan proyek terus berlanjut: Layanan seperti browser Bitcoin Ordinals, Ord.io, secara bertahap berhenti beroperasi. Perhatikan pengaturan penarikan dan migrasi aset. 🌐 Acara penting lainnya: Pembukaan Piala Dunia, pembukaan Apple WWDC26, penawaran saham SpaceX, pertemuan IPO S&T UBTECH di pasar STAR, dll. Dengan makroekonomi, pelepasan token, regulasi, penyaringan proyek, dan acara teknologi yang berlangsung bersamaan, pasar pada Juni mungkin terus mencari arah baru di tengah ekspektasi likuiditas, perubahan kebijakan, dan rotasi ekosistem. Kunci inti peristiwa global dan alur utama Web3 Juni 2026 dalam satu peta!

marsbit30m yang lalu

PA Visual | Satu Gambar Pahami Peristiwa Web3 Penting yang Patut Diperhatikan di Bulan Juni

marsbit30m yang lalu

Ali "Menaruh Barang", Byte "Berlatih Ilmu"

Dalam satu minggu terakhir Mei, dua raksasa teknologi China, Alibaba dan ByteDance, memamerkan dua pendekatan berbeda dalam strategi AI mereka. Alibaba, sebagai perusahaan publik, fokus pada integrasi AI untuk monetisasi langsung. Mereka menghubungkan model Qwen dengan platform e-commerce seperti Taobao, menciptakan fitur seperti "pencocokan harga AI" dan "pakaian virtual AI". Melalui protokol ACT, mereka membangun infrastruktur untuk transaksi berbasis agen AI. Pendapatan eksternal Alibaba Cloud tumbuh 40%, menunjukkan model bisnis "MaaS" (Model-as-a-Service) mereka yang berhasil. Namun, pendekatan ini mungkin mengorbankan penelitian mendasar untuk keunggulan jangka pendek. Sebaliknya, ByteDance, yang masih swasta, berinvestasi besar dalam penelitian AI jangka panjang. Departemen Seed mereka, dengan anggaran belanja modal (capex) yang meningkat pesat, bertujuan "menjelajahi batas atas kecerdasan". Mereka merilis model pembuatan video Seedance 2.0 yang memimpin peringkat global dan mempublikasikan penelitian mendalam tentang "model dunia". Perusahaan ini memberikan kebebasan bagi tim risetnya tanpa tekanan kuartalan dari pasar modal. Perbedaan kunci ini lebih disebabkan oleh status kepemilikan daripada filosofi semata. Sebagai perusahaan publik, Alibaba terikat pada harapan ROI jangka pendek investor. ByteDance, yang belum IPO, memiliki kemewahan untuk berfokus pada terobosan teknologi jangka panjang. Analisis menyimpulkan bahwa jalan strategis AI sebuah perusahaan di China sangat ditentukan oleh apakah perusahaan tersebut terdaftar di bursa atau tidak, yang membentuk pilihan antara "menjual AI" dan "membuat AI".

marsbit38m yang lalu

Ali "Menaruh Barang", Byte "Berlatih Ilmu"

marsbit38m yang lalu

Mengapa Lebih Banyak AI Agent Belum Tentu Berarti Produktivitas yang Lebih Tinggi?

**Mengapa Lebih Banyak AI Agent Tidak Sama dengan Produktivitas Lebih Tinggi?** Meskipun teknologi memungkinkan kita meluncurkan banyak AI Agent dengan mudah dan murah, produktivitas nyata tidak serta-merta meningkat. Ini karena munculnya konsep "Pajak Orkestrasi"—biaya tersembunyi untuk mengelola, menilai, dan menggabungkan hasil kerja semua Agent tersebut. Pekerjaan ini harus kembali ke satu sumber daya serial yang tidak dapat diduplikasi: perhatian dan penilaian manusia. **Manusia adalah 'GIL' dalam Sistem.** Seperti Global Interpreter Lock (GIL) dalam Python, semua Agent dapat berjalan paralel, tetapi untuk keputusan penting (seperti tinjauan arsitektur, kode, atau penyelesaian konflik), mereka harus "mengambil kunci" dari Anda—sang pengembang. Hukum Amdahl berlaku: percepatan maksimum dari paralelisasi dibatasi oleh bagian kerja yang harus tetap serial, yaitu kapasitas penilaian manusia. Menambah Agent hanya membuat antrian tinjauan lebih panjang, memperbesar beban konteks, dan menyebabkan kelelahan kognitif. **Kelelahan dan Utang Tersembunyi.** Banyaknya Agent yang aktif memberi ilusi produktivitas tinggi, tetapi rasa sibuk itu tidak sama dengan hasil berkualitas. Jika Anda "menyerah secara kognitif" dan tidak meninjau hasil dengan benar, Anda menumpuk utang teknis dan utang kognitif—masalah yang akan muncul nanti. Pajak orkestrasi harus dibayar, baik secara sadar melalui proses yang terencana, atau diam-diam melalui penurunan kualitas. **Solusi: Kelola Perhatian Seperti Sistem Produksi.** Kuncinya adalah merancang alur kerja dengan menghormati batas perhatian manusia sebagai sumber daya langka: 1. **Kontrol Jumlah Agent:** Sesuaikan jumlah Agent dengan kemampuan *review* Anda, bukan dengan apa yang UI izinkan. Batasi ke angka rendah. 2. **Klasifikasi Tugas:** Pisahkan tugas independen (cocok untuk Agent paralel) dari tugas kompleks yang membutuhkan penilaian mendalam (kerjakan secara serial). 3. **Tinjau Secara Berkelompok (*Batch Review*):** Kurangi biaya alih konteks dengan meninjau hasil beberapa Agent sekaligus. 4. **Gunakan Waktu Serial untuk Penilaian:** Fokuskan perhatian hanya pada bagian yang memerlukan penilaian manusia. Biarkan Agent menangani bagian yang dapat diverifikasi otomatis (seperti tes). 5. **Lindungi Waktu Fokus Anda:** Kadang, tindakan paling produktif adalah berhenti mengoordinasi banyak Agent dan fokus pada satu masalah inti. Kemampuan sebenarnya di era AI bukanlah menjalankan banyak Agent, tetapi merancang sistem yang secara sadar mengelilingi dan melindungi kapasitas penilaian serial manusia—sumber daya paling berharga dalam proses pengembangan.

marsbit2j yang lalu

Mengapa Lebih Banyak AI Agent Belum Tentu Berarti Produktivitas yang Lebih Tinggi?

marsbit2j yang lalu

Tiga Tahun Kemudian: Menilik Kembali Penilaian Saya terhadap ChatGPT pada 2023

Tiga tahun kemudian: Meninjau Kembali 20 Prediksi ChatGPT Saya pada 2023 Pada Maret 2023, penulis Wang Jianshuo membuat 20 prediksi intuitif tentang ChatGPT dan AI masa depan. Kini, di Mei 2026, sebuah sistem AI yang terdiri dari 41 agen menganalisis prediksi-prediksi tersebut berdasarkan data terkini. Hasilnya menunjukkan pola menarik. **Yang Terbukti Benar (Secara Umum):** * **RAG dan Arsitektur Pencarian (✅):** Solusi utama untuk pengetahuan dan halusinasi adalah dengan menambahkan "contekan" (RAG), bukan mengubah model. Arsitektur pencarian + LLM kini menjadi standar. * **LUI sebagai Benua Baru (🟢):** Antarmuka Pengguna Bahasa Alami (LUI) adalah lapisan interaksi baru yang besar, melahirkan industri agen dan protokol seperti MCP. * **Jaringan Robot dan Sistem Pengalamatan Baru (🟢):** Agen akan berkomunikasi otomatis dengan bahasa alami. Protokol seperti MCP dan ANP sedang mewujudkannya. * **Model Besar Tiongkok (🟢):** Model-model seperti DeepSeek dan Qwen telah mengejar ketertinggalan performa, meski dengan investasi lebih kecil. * **Tidak Ada Kesadaran, Tes Turing Hanya Ukur Penampilan (🟢):** AI tidak memiliki kesadaran. Tes Turing hanya mengukur ilusi kesadaran. * **Prediksi Lain yang Benar:** ChatGPT bukan AGI, tapi lompatan besar; gelombang pengangguran besar tidak terjadi; tahun besar untuk startup; momen "browser 1994" telah tiba. **Yang Kurang Tepat atau Salah:** * **Parameter GPT-4 (❌):** Prediksi 100 triliun parameter salah. Estimasi terbaru sekitar 1,8 triliun. * **Matematika di LLM (🟡):** Diagnosis bahwa matematika adalah kelemahan intrinsik dan memerlukan alat bantu benar. Namun, pernyataan "tidak mungkin" ditingkatkan terbukti salah, karena model kini bisa memenangkan medali emas Olimpiade Matematika Internasional (IMO). * **Penangkapan Nilai (🟡):** Aplikasi memang berkembang pesat, tetapi nilai terbesar justru ditangkap oleh lapisan komputasi (seperti Nvidia), bukan oleh pembuat model. * **Hak Cipta (🟡):** Konten AI sulit didaftarkan hak cipta, tetapi tidak serta-mata "menghindari" pelanggaran. Gugatan dan penyelesaian besar (misalnya, Anthropic $1,5 miliar) membuktikan risikonya. * **Biaya Model (🟡):** Prediksi "perang lokal" dengan biaya $5-10 miliar untuk model canggih terbukti salah. Biaya pelatihan model terdepan (seperti GPT-5) jauh lebih tinggi, sementara biaya kloning model terbuka justru bisa lebih murah. **Pola dan Pelajaran:** 1. **Arah dan mekanisme lebih dapat diandalkan daripada angka pasti dan pernyataan mutlak.** 2. **Cenderung terlalu optimis untuk jangka pendek (kecepatan), tetapi terlalu konservatif untuk jangka panjang (skala/dampak).** 3. **Kesalahan sering terjadi pada distribusi, bukan pada total.** Contoh: Tidak ada gelombang pengangguran masif, tetapi dampak berat dirasakan oleh lulusan baru. 4. **Pernyataan yang disertai batasan dan ruang ketidakpastian justru lebih tahan uji waktu.** 5. **Beberapa pertanyaan mendasar masih belum terjawab setelah tiga tahun.** Kesimpulannya, prediksi tentang arah besar dan mekanisme cenderung akurat, sementara prediksi spesifik tentang angka, kecepatan, dan distribusi dampak lebih sering meleset. Latihan ini lebih merupakan pelajaran dalam kerendahan hati dan penilaian yang bernuansa daripada sekadar penghitungan skor.

链捕手11j yang lalu

Tiga Tahun Kemudian: Menilik Kembali Penilaian Saya terhadap ChatGPT pada 2023

链捕手11j yang lalu

Trading

Spot
Futures
活动图片