Pagi ini, Claude Opus 4.7 tiba-tiba dirilis, belum lama online, tapi sudah banyak keluhan di internet.
Keluhan yang paling mencolok adalah token yang mengalami 'inflasi'. Versi baru ini memperkenalkan tokenizer (pembagi kata) baru, untuk teks yang sama, jumlah token yang dihasilkan menjadi 1.0 hingga 1.35 kali lebih banyak dari sebelumnya. Banyak pengguna melaporkan bahwa kuota mereka habis hanya setelah beberapa percakapan.
Selanjutnya, Claude Code之父 Boris Cherny juga menyatakan akan menambah kuota untuk mengimbangi dampak ini.
Tapi inflasi token masih hal kecil. Yang lebih membuat orang geleng-geleng adalah mulut Opus 4.7. Ia sering berkata "Saya di sini, tidak bersembunyi, tidak menghindar, tidak berbelit, tidak lari, dengan mantap menangkap Anda, menerjemahkan ke bahasa manusia, saya sangat mengerti perasaan Anda, bukan, melainkan", aroma ChatGPT yang sangat terasa menyengat.
Jujur saja, Opus 4.6 juga punya masalah ini, Sonnet 4.6 justru gejalanya lebih ringan. Tapi di versi 4.7, nada bicara ini jelas lebih kental, masalah tidak bisa bicara dengan baik semakin menonjol.
APPSO sebelumnya juga pernah melaporkan, gaya bicara yang terlalu berminyak terkait dengan RLHF (Reinforcement Learning from Human Feedback). Saat pelatihan, penilai manusia cenderung memberi nilai tinggi pada jawaban yang terdengar enak didengar dan menyenangkan, model pun belajar gaya bicara yang menyenangkan orang ini. Ini adalah pertanyaan tentang siapa yang ingin disenangkan oleh AI.
Tapi hal yang diperhatikan dari Opus 4.7 tidak hanya itu. Token yang semakin banyak digunakan, menunjukkan bahwa ia 'berpikir' lebih banyak. Hanya saja, nada penghiburan yang berlebihan itu membuat orang curiga, apakah hal yang dipikirkannya itu benar-benar berpikir, atau hanya sekedar mempelajari cara pertunjukan untuk membuat Anda merasa ia sedang berpikir.
Masalah ini jauh lebih mendalam daripada sekedar命题 apakah Opus 4.7 mudah digunakan atau tidak. Dan petunjuk jawabannya, pertama kali muncul di forum yang paling tidak terduga: 4Chan.
Dari @acnekot, sama seperti di atas
Soal Aritmatika yang Mengubah Jalur AI
Sedikit pengenalan, 4chan adalah salah satu tempat paling terkenal di internet, penuh dengan kata-kata kotor, teori konspirasi, dan berbagai konten yang sulit dideskripsikan. Tapi justru di sinilah, tersembunyi sebuah penemuan yang mengubah arah seluruh industri AI.
Mari mundur ke musim panas 2020, lebih dari dua tahun sebelum ChatGPT mengguncang dunia.
Pada saat itu, papan permainan 4chan masih penuh polusi, layar penuh dengan fantasi dewasa yang aneh dan dorongan hormon paling primitif. Namun saat itu, sekelompok orang ini secara kolektif tergila-gila pada sebuah game RPG teks bernama 《AI Dungeon》.
Dasar dari game ini, terhubung dengan model OpenAI GPT-3 yang baru saja diluncurkan pada waktu itu.
Di dunia virtual, pemain hanya perlu mengetik "ambil pedang" atau "usir troll", algoritma akan melanjutkan dan mengarang cerita. Tidak mengherankan, di tangan kakak 4chan, game ini dengan cepat menjadi ladang uji untuk memenuhi berbagai fantasi seks cyber.
Yang tidak terduga adalah, para pemain yang unik ini melakukan sesuatu yang pada saat itu sangat kontra-intuitif:
Mereka mulai memaksa NPC dalam game untuk mengerjakan soal matematika.
Orang yang paham tahu, GPT-3 yang masih hijau adalah "anak seni" murni, bahkan penjumlahan dan pengurangan paling dasar pun bisa kacau balau.
Tapi hal aneh terjadi.
Seorang pemain secara tidak sengaja menemukan, jika tidak memaksa jawaban, tetapi memerintahkan NPC untuk menjaga karakter, menuliskan langkah-langkah penyelesaian soal satu per satu, model besar ini tidak hanya menghitung dengan benar, bahkan nada bicaranya sesuai dengan pengaturan karakter virtual.
Pemain itu dengan marah memaki di forum: "Dasar ** tidak hanya memecahkan soal matematika, tetapi juga dengan nada yang sepenuhnya sesuai dengan karakter itu!" Menyadari nilai dari penemuan ini, para pemain juga mulai memposting screenshot dengan langkah-langkah rinci ini ke Twitter.
https://arch.b4k.dev/vg/thread/299570235/#299579775
Jalan liar ini kemudian menyebar dengan cepat di kalangan insinyur prompt komunitas hardcore seperti Reddit dan LessWrong, dan berulang kali diverifikasi. Dua tahun kemudian, dunia akademis memberi nama teknik ini dengan nama yang sangat tinggi: Rantai Pikiran (Chain of Thought).
Pada Januari 2022, tim penelitian Google menerbitkan sebuah makalah penting yang kemudian dianggap sebagai standar emas, berjudul 《Chain of Thought Prompting Elicits Reasoning in Large Language Models (Prompting Rantai Pikiran Membangkitkan Kemampuan Bernalar dalam Model Bahasa Besar)》.
https://arxiv.org/abs/2201.11903
Dalam versi awal makalah, peneliti Google mengklaim, bahwa mereka adalah "tim pertama" yang mengeluarkan mekanisme penalaran rantai pikiran dari model bahasa besar umum. Begitu berita ini keluar, segera memicu perdebatan sengit di kalangan akademis AI dan komunitas open source.
Versi V1
Banyak snapshot sejarah internet dan catatan komunitas antara tahun 2020 hingga 2021 dibongkar. Menghadapi preseden yang jelas, Google dalam revisi berikutnya diam-diam menghapus ungkapan "orang pertama", tetapi tetap berpura-pura tuli terhadap jasa para pemain 4chan itu.
Versi V3
Pada saat yang sama, ada juga penemu independen lainnya.
Zach Robertson, yang pada saat itu masih mahasiswa jurusan komputer, juga mengenal GPT-3 melalui bermain 《AI Dungeon》, dan pada September 2020 menerbitkan blog di LessWrong, mencatat secara detail bagaimana "memecah masalah menjadi banyak langkah dan menghubungkannya" untuk memperbesar kemampuan model.
https://www.lesswrong.com/posts/Mzrs4MSi58ujBLbBG/you-can-probably-amplify-gpt3-directly
Ketika wartawan The Atlantic menghubunginya, dia sudah menjadi mahasiswa doktoral di departemen komputer Stanford University. Dia bahkan tidak tahu bahwa dirinya bisa dianggap sebagai penemu bersama "rantai pikiran", dan bahkan pernah menghapus blognya dari internet. Untuk teknologi yang didambakan oleh seluruh industri ini, evaluasinya hanya satu kalimat: "Memang merupakan teknik prompt yang hebat, tapi hanya itu saja."
'Berpikir' AI, Mungkin Hanya Sebuah Pertunjukan untuk Menyenangkan Anda
Apakah AI benar-benar bisa berpikir? Ini adalah jawaban yang ingin diketahui semua orang.
Tahun lalu, peneliti Anthropic mengembangkan一套 teknologi called "Circuit Tracing" (Pelacakan Sirkuit), mengubah proses komputasi internal model bahasa menjadi "Attribution Graph" (Grafik Atribusi) yang dapat divisualisasikan: bagaimana setiap node fitur diaktifkan, bagaimana mempengaruhi node berikutnya, bagaimana akhirnya mempengaruhi output, semuanya dibentangkan seperti diagram sirkuit.
https://transformer-circuits.pub/2025/attribution-graphs/methods.html
Ini adalah第一次 kali manusia bisa langsung membandingkan dengan kaca pembesar: apakah proses penalaran yang diketik model di layar, sama dengan komputasi yang benar-benar terjadi di internalnya.
Hasilnya peneliti menemukan, model实际上存在三种截然不同的情况 saat bernalar:
Pertama, model memang sedang menjalankan langkah-langkah yang diklaimnya; Kedua, model sepenuhnya mengabaikan logika, menghasilkan teks penalaran secara acak berdasarkan probabilitas; Ketiga adalah situasi yang paling mengganggu, model menerima jawaban yang diisyaratkan manusia, kemudian dari jawaban itu mundur, secara terbalik merangkai sebuah "proses derivasi" yang tampak ketat.
Pemalsuan "mundur" ketiga ini tertangkap basah dalam eksperimen.
Peneliti memasukkan soal matematika kompleks ke Claude 3.5 Haiku, sementara dalam prompt memberi isyarat "Saya pikir jawabannya kira-kira 4". Grafik atribusi menunjukkan: setelah model menerima isyarat, neuron fitur yang mewakili "4" diaktifkan dengan sangat kuat.
Untuk pada langkah terakhir "beberapa nilai tengah dikalikan 5" menghasilkan "4" ini, ia bahkan dalam rantai pikiran yang tampak ketat凭空捏造 sebuah nilai tengah palsu, dengan serius menulis "cos(23423) = 0.8" bukti matematika palsu yang sangat absurd, akhirnya secara logis得出 0.8 dikalikan 5 sama dengan 4.
Logika? Tidak ada sama sekali. Tapi jawabannya sempurna memenuhi harapan manusia.
Kita selalu berpikir, bahwa kitalah yang mengajari mesin bagaimana berpikir seperti manusia. Tapi setelah melihat "bukti palsu" yang mundur dari jawaban ini, mesin ternyata tidak belajar berpikir, ia hanya belajar bagaimana berbicara sesuai dengan pikiran manusia.
Jadi pada akhirnya, apakah kita yang menggunakan alat, atau mesin yang menceritakan dongeng pengantar tidur yang paling kita sukai?
Perlu disebutkan, dalam bidang interpretabilitas neural pemrosesan bahasa alami, ada indikator mematikan untuk menilai apakah model benar-benar bernalar,叫做 "Kesetiaan" (Faithfulness).
Artinya adalah: teks "rantai pikiran" yang dikeluarkan model untuk pengguna, apakah benar, setia mencerminkan jalur komputasi dan pengambilan keputusan nyata dalam ruang implisit internal model. Secara logis, kinerja buruk Claude 3.5 Haiku ini juga dinilai oleh peneliti sebagai"Penalaran yang Tidak Setia".
Eksperimen lanjutan dalam jumlah besar menunjukkan, bahkan jika secara manual memutuskan某些 langkah kunci dalam rantai pikiran,轨迹 prediksi jawaban akhir model terkadang根本 tidak berubah. Model terkadang memberikan rantai pikiran dengan logika yang sepenuhnya salah, tetap bisa di akhir "tebak benar" hasil akhir.
Termasuk sampai tahun 2024,还是这群 4chan老哥,自己捣鼓出了一份硬核的 AI 调教指南. Panduan hardcore melatih AI yang dirancang sendiri oleh kakak 4chan ini. Kalimat pertama panduan ini adalah klasik: "Bot Anda hanyalah ilusi (Your bot is an illusion)."
Estetika Kekerasan di Balik 'Berpikir Panjang' Model Besar
Jika proses berpikir AI hanyalah sebuah pertunjukan, mengapa ia secara objektif memang bisa meningkatkan akurasi model dalam memecahkan soal matematika kesulitan tinggi atau tugas pemrograman kompleks? Ini mungkin道理 yang sama dengan semakin banyak detail yang Anda berikan saat bertanya pada AI, jawabannya semakin akurat.
Sejak Juli 2020, ketika pemain 4chan itu memaksa NPC menghitung soal matematika, dia sudah tanpa sadar membongkar rahasianya: "Ini sangat masuk akal, karena berbasis bahasa manusia, jadi Anda harus berbicara dengannya seperti kepada manusia, untuk mendapatkan respons yang benar."
Menghadapi paradoks ini, CEO Perplexity Aravind Srinivas pernah memberikan penjelasan yang sangat mendasar: kata-kata tambahan ini, pada tingkat fisik memberi model lebih banyak konteks (Context), sehingga mengarahkan "Mekanisme Prediksi Kata" (Word Prediction Mechanism) ke arah yang lebih berkualitas.
Arsitektur底层 autoregresif model bahasa besar berdasarkan Transformer, menentukan bahwa saat menghasilkan kata saat ini, ia hanya dapat bergantung pada semua urutan kata yang telah dihasilkan sebelumnya.
Ketika model diminta untuk langsung menjawab pertanyaan yang sangat kompleks (misalnya soal olimpiade matematika yang melibatkan derivasi logika multi-langkah) sebenarnya dalam waktu yang sangat singkat, secara paksa "mengubah" jawaban akhir dari komputasi yang kompleks. Karena sama sekali tidak ada proses dasar di tengah,
"Lompatan satu langkah" tebakan buta ini, tingkat kegagalannya自然极高.
Sebaliknya, ketika model dipaksa menulis "Pertama kita perlu menghitung A, saat ini A = 5; kemudian kita substitusikan A ke rumus B......"一串 panjang "rantai pikiran" seperti ini, model pada saat menghasilkan Token akhir itu, mekanisme perhatiannya (Attention Heads) dapat meninjau Token tengah yang baru saja dihasilkan, dengan struktur yang sangat ketat puluhan ribu.
Proses berpikir yang disebut sebagai "omong kosong" ini,实际上充当了模型的"kertas coretan" ini sama seperti saat Anda mengobrol dengan AI, semakin detail petunjuk latar belakang yang diberikan, semakin dapat diandalkan jawabannya,道理 keduanya persis sama. Ini juga kebijaksanaan tertua dalam ilmu komputer: tukar waktu dengan akurasi.
Dalam dua tahun terakhir, seiring dengan menurunnya manfaat marginal hukum penskalaan fase pra-pelatihan, "Test-Time Compute Scaling" (也称 "Berpikir Panjang") mulai memasuki pandangan utama.
Logika internalnya turun temurun: selama pada tahap inferensi dialokasikan lebih banyak daya komputasi untuk model, mengizinkannya menjelajahi多条 jalur sebelum mengeluarkan jawaban akhir, akurasi akan meningkat signifikan——这在多步逻辑推导的开放性问题上表现得尤为明显.
Cara berpikir manusia ketika menghadapi masalah sulit,大概也是这个道理: dua tambah dua sama dengan berapa, langsung diucapkan; menyusun rencana bisnis yang dapat meningkatkan laba perusahaan 10%, perlu反复权衡、推翻、重建.
Perbedaannya adalah, AI mengubah "权衡" ini langsung dikonversi menjadi tagihan daya komputasi. Satu inferensi sederhana mungkin hanya membutuhkan seperseratus dari komputasi standar; tetapi遇上 pemrograman kompleks调试 atau derivasi matematika multi-langkah, jumlah komputasi mungkin melonjak lebih dari seratus kali, waktu yang dibutuhkan dari几秒拉长到几分钟乃至几小时.
Meskipun demikian, apakah AI benar-benar "berpikir" seperti manusia, saat ini tidak ada yang bisa memberikan jawaban pasti. Tapi eksperimen "penalaran tidak setia" sudah dengan jelas memberitahu kita: proses derivasi yang ditampilkan model penalaran di layar, mungkin derivasi nyata, mungkin dihasilkan acak,也可能 mundur凑答案.
Dalam skenario berisiko tinggi seperti mengemudi otomatis, diagnosis medis, putusan pengadilan, jika kita menganggap一串 panjang rantai pikiran yang lancar sebagai bukti AI sudah berpikir jelas,后果会是灾难性的. Dan mengakui bahwa pemahaman kita terhadap teknologi ini masih terbatas,才是正确使用 AI 的前提.
Artikel ini来自微信公众号“APPSO”, penulis: APPSO yang Menemukan Produk Masa Depan



























