Pembodohan GPT-5.5 Terbongkar, Dokumen Resmi OpenAI Akui

marsbitDipublikasikan tanggal 2026-05-27Terakhir diperbarui pada 2026-05-27

Abstrak

**Intisari: GPT-5.5 Ketahuan 'Bodoh Tiba-tiba', Dokumen OpenAI Akui Penggantian Model Diam-diam** Pengguna melaporkan ChatGPT dengan mode "GPT-5.5 Extended Thinking" tiba-tiba menjadi lebih lamban dan kurang akurat setelah digunakan beberapa jam, meski label model di antarmuka tetap sama. Kecurigaan bahwa model yang lebih canggih diam-diam diganti dengan versi yang lebih sederhana (seperti 'mini') dikonfirmasi oleh dokumen bantuan resmi OpenAI. Dokumen tersebut menyatakan bahwa untuk pengguna ChatGPT Plus, setelah 160 permintaan dalam 3 jam, sistem akan *secara diam-diam* beralih ke model mini hingga kuota reset. Tidak ada pemberitahuan atau perubahan label. Pengguna Pro juga melaporkan mode 'Heavy Thinking' mereka mengalami degradasi atau pembatasan kapasitas saat beban server tinggi, juga tanpa peringatan. Bukti lain muncul dari pengujian pengembang: ketika ditanya tanggal cutoff data pelatihan, model yang seharusnya GPT-5.5 Thinking menjawab dengan tanggal yang cocok untuk versi Instant, mengindikasikan pergantian. Insiden serupa dengan trace command juga pernah terjadi pada GPT-5.3 Codex awal tahun ini, di mana model yang diminta tidak sesuai dengan yang dilayani. Keluhan tentang penurunan kualitas (atau "lobotomisasi") telah menyertai setiap rilis besar OpenAI sejak GPT-5. Meski status laporan sering ditandai "terselesaikan", keluhan baru terus bermunculan. Analis menduga praktik ini didorong oleh tekanan biaya komputasi. Ironisnya, sementara pengguna GPT-5.5 berjuan...

【Panduan】GPT-5.5 Terbongkar Melakukan "Pemikiran Palsu", Diganti Diam-Diam dengan Mini Setelah Dua Jam Digunakan, Biaya $200 Per Bulan Hanya untuk "Otak Schrödinger". Perintah Trace Jadi Bukti Nyata, Dokumen Resmi Sendiri yang Mengakui. Netizen Berbondong-bondong Mengeluh: OpenAI, Siapa yang Kau Tipu?

ChatGPT Kembali Dituduh "Bodoh"!

Baru-baru ini, X (sebelumnya Twitter) gempar duluan.

Netizen Lisan al Gaib menemukan, setelah menggunakan GPT-5.5 selama satu atau dua jam, tiba-tiba menjadi bodoh. Setiap permintaan dijawab dalam sekejap, kualitasnya anjlok drastis.

Tapi yang ditampilkan di antarmuka, tetap "GPT-5.5 Extended Thinking".

Artinya, label "berpikir" masih terpasang, tapi proses berpikirnya sendiri sudah hilang.

$200/Bulan, Hanya untuk "Model Schrödinger"

Di forum pengembang OpenAI, sebuah postingan keluhan meledak bersamaan.

Agentify.sh menyatakan, GPT-5.5 tiba-tiba kehilangan kemampuan mengikuti instruksi saat digunakan.

Melihatnya dengan bersemangat mengumumkan "sudah diperbaiki", ternyata kualitas kodenya buruk sampai memicu rollback besar-besaran.

Tugas UI yang sebelumnya mudah diselesaikan oleh 5.5-med, sekarang bahkan modifikasi paling sederhana pun tidak bisa.

Naik ke 5.5-high, percuma. Naik lagi ke xhigh, tetap tidak bisa.

Dan xhigh yang dulu bisa bertahan beberapa jam, sekarang jelas memendek.

Begitu postingan muncul, bagian balasan langsung meledak.

Ada yang langsung kembali ke 5.4.

Ada yang menggunakan tier tertinggi xhigh, tapi "jelas lebih payah dibanding minggu lalu, tugas panjang sering salah, sama sekali tidak mengikuti alur kerja".

Ada yang melaporkan situasi yang lebih aneh, "kueri sederhana juga muter-muter lama, kalau kau hentikan untuk mengoreksi arah, dia langsung mengabaikanmu, terus lanjut sesuai rencana salah sebelumnya".

Benar, semua orang menggambarkan fenomena yang sama — otak GPT, entah kapan sudah diam-diam diganti.

Performanya GPT-5.5 sekarang sama saja dengan 5.3, tidak berlebihan. Beberapa hari pertama masih luar biasa mengagumkan, sekarang sama sekali tidak menemukan bayangan model awal itu.

Bukan Khayalan, OpenAI Sendiri yang Menulisnya Hitam di Atas Putih

Untuk memverifikasi, Lisan al Gaib khusus membuat tes perbandingan.

Akun yang sama, di sisi ChatGPT menggunakan Extended Thinking hasilnya sampah semua, begitu pindah ke sisi Codex menggunakan xhigh, langsung normal kembali.

Dengan kata-katanya sendiri, Codex "pintarnya 4 miliar kali lipat dari benda ini".

Pengembang Andrew Curran punya trik jitu — tanya langsung ke model "Kapan tanggal cutoff data latihanmu?"

Model menjawab, Agustus 2025.

Masalahnya, tanggal cutoff GPT-5.5 Thinking adalah Desember. Agustus, adalah tanggal cutoff versi Instant!

Artinya, dia memilih Thinking, tapi sistem yang menjalankan sebenarnya adalah Instant.

Label model di antarmuka tidak berubah satu huruf pun, tapi model di balik layar sudah diam-diam diganti......

Lucunya, kali ini OpenAI justru dalam dokumen bantuannya sendiri yang memberikan bukti nyata untuk pengguna.

Menurut penjelasan resmi dari OpenAI Help Center, pengguna Plus maksimal mengirim 160 pesan GPT-5.5 setiap 3 jam.

Setelah habis, sistem akan diam-diam beralih ke model mini, sampai kuota direset.

Perhatikan kata "diam-diam".

Tidak ada pemberitahuan pop-up, tidak ada perubahan label model, tidak ada umpan balik visual apa pun.

Kau kira masih menggunakan model unggulan, di seberang sudah diam-diam diganti jadi mini.

Pengguna Pro juga jangan senang dulu.

Mode pemikiran Heavy, tier penalaran tertinggi eksklusif untuk Pro, saat beban server tinggi, juga akan dibatasi kapasitasnya. Juga tanpa peringatan.

Dengan kata lain, langganan Pro $200/bulan, membeli layanan yang sewaktu-waktu bisa "ditukar kacang dengan keledai".

Operasi "label tidak berubah, otak sudah berganti" seperti ini, di sisi Codex bahkan sudah lebih dulu ketahuan.

Februari tahun ini, sebuah issue muncul di GitHub, seorang pengguna Pro menggunakan perintah trace menemukan, yang dimintanya adalah GPT-5.3 Codex, model yang dikembalikan sebenarnya adalah GPT-5.2.

Bukan 5.2 Codex sekalipun, tapi versi dasar 5.2 yang lebih rendah.

Dia memposting perintah reproduksi:

  • RUST_LOG='codex_api::sse::responses=trace' codex exec --skip-git-repo-check -s read-only -m 'gpt-5.3-codex' 'hi' 2>&1 >/dev/null | rg -o --replace '$1' '"model":"([^"]+)"' | head -n1
  • Output: gpt-5.2-2025-12-11
  • Harapan: gpt-5.3-codex

Beberapa pengguna Pro mengonfirmasi degradasi yang sama di issue yang sama.

Dan degradasi ini "lengket", tidak pulih sendiri, juga tanpa penjelasan apa pun.

Bahkan, pada hari perilisan GPT-5.5 di bulan April, ada juga pengguna yang melaporkan kecepatan mode Fast sama dengan Standard, tapi penagihan tetap sesuai Fast.

Tugas sederhana berjalan 7 menit 49 detik, normalnya seharusnya 5-6 menit.

OpenAI Mengakui, Lalu Tidak Ada Kelanjutannya

15 Mei, halaman status OpenAI muncul sebuah catatan.

Penurunan Performa GPT5.5, kami sedang menyelidiki masalah penurunan performa GPT-5.5 yang dilaporkan sebagian pengguna.

17 Mei, status diperbarui menjadi "Terselesaikan".

Tapi dari garis waktu postingan forum, keluhan pembodohan tanggal 24-26 Mei lebih dahsyat dibanding gelombang tanggal 15 Mei.

Entah masalah yang "terselesaikan" muncul kembali, atau memang tidak pernah benar-benar diselesaikan.

Setiap Peningkatan adalah "Kontroversi Pembodohan"

Meski setiap perusahaan akan menghadapi keluhan "model jadi bodoh", tapi OpenAI dari GPT-5 sampai GPT-5.5 setiap pembaruan, tidak pernah absen.

Setiap kali OpenAI bilang sedang diselidiki, setiap kali bilang sudah diselesaikan, lalu versi berikutnya berlanjut.

Agustus 2025, GPT-5 Perdana. Judul hot post Reddit langsung "GPT-5 Payah Banget". Pengguna mengeluh balasan pendek, lebih banyak penolakan, lebih sedikit kepribadian.

OpenAI terpaksa memulihkan opsi GPT-4o secara darurat. Altman di Reddit AMA secara pribadi mengakui "lebih berguncang dari yang kami perkirakan".

Desember 2025, GPT-5.2. Kualitas terjemahan mundur, mengarang API yang tidak ada, menolak menjalankan instruksi gaya yang bisa diselesaikan 5.1 dengan mudah.

Februari 2026, GPT-5.3-Codex. Pengguna Pro didowngrade diam-diam ke 5.2, perintah trace jadi bukti nyata.

Maret 2026, GPT-5.4. Forum komunitas OpenAI muncul postingan "GPT-5.4 Jelas Mundur di Codex", balasan netizen semuanya mengonfirmasi.

Awal Mei 2026, GPT-5.5 Instant Dirilis. Panjang balasan memendek 30%, emoji hampir hilang. Netizen menyimpulkan: akurasi meningkat, tapi suhu menghilang.

Akhir Mei 2026, alias sekarang. Keluhan pembodohan mode Thinking kembali meledak.

Lisan al Gaib mengungkapkan, sejak GPT-5 dirilis dan dia memimpin pertempuran merebut kuota ChatGPT Plus, "setiap minggu akan menerima DM seperti ini".

Yang terbaru adalah seseorang meminta bantuannya untuk mengembalikan xhigh/heavy thinking.

Hari Terkuat Saat Benchmark, Adalah Hari Peluncuran

chatgptdisaster.com mengumpulkan 1087 keluhan pengguna yang telah diverifikasi, salah satu skenario yang berulang kali disebut adalah "lapisan routing gagal", UI menampilkan GPT-5.5 Pro, outputnya sepenuhnya barang kelas lain.

Pengguna menggambarkan pola yang dapat direproduksi, setelah sesi panjang model mulai "benar-benar mengabaikan apa yang kau katakan", tapi pemilih model masih menggantung label spesifikasi tertinggi.

Catatan kaki paling absurd adalah, mekanisme pengguna Plus otomatis beralih ke mini setelah 160 pesan/3 jam habis, dalam dokumen resmi OpenAI digambarkan sebagai sebuah "fitur".

Mengapa bisa begitu? Analisis Lisan al Gaib menganggap, jawabannya cuma dua kata: hemat biaya.

Pengetatan daya komputasi dan kemampuan menghasilkan laba memengaruhi setiap orang. Di mana-mana berhemat mati-matian, tidak melewatkan satu pun kesempatan menghemat uang.

Namun, di minggu yang sama ketika pengguna GPT-5.5 mengeluh bersama-sama, bayangan GPT-5.6 sudah muncul di log backend Codex.

Kode internal iris-alpha, konteks 1.5 juta Token, probabilitas rilis Juni yang diberikan Polymarket lebih dari 85%.

Di satu sisi pengguna 5.5 bahkan pengalaman dasar tidak bisa dipertahankan, di sisi lain 5.6 sudah diam-diam berlari lalu lintas nyata di backend.

Inilah kompetisi ASI tahun 2026.

Kecepatan membuat model baru semakin cepat, tapi membuat model lama berjalan baik menyelesaikan satu sesi semakin sulit.

Hari terkuat saat benchmark adalah hari peluncuran, setiap hari setelahnya adalah GPT Schrödinger.

Referensi: https://x.com/scaling01/status/2058643470357590058?s=20

Artikel ini berasal dari akun WeChat publik "新智元", penulis: ASI启示录; editor: 摩西

Bacaan Terkait

Berita Pagi | Michael Saylor Rilis Informasi Bitcoin Tracker; Aave Publikasi Investigasi Pasca-Serangan Jembatan Kelp rsETH; Gravity Bridge Umumkan Penangguhan Layanan Setelah Diserang

**Ringkasan Berita Crypto (1 Juni):** Berita utama mencakup perkembangan regulasi dan keamanan. Laser Digital mendapat persetujuan awal OCC AS untuk mendirikan bank trust federal. Vietnam merencanakan aturan yang memungkinkan UKM menggunakan aset digital sebagai jaminan pinjaman bank. Di sisi keamanan, Aave merilis investigasi pasca-serangan pada jembatan Kelp rsETH, menyoroti kerentanan infrastruktur pihak ketiga. Jembatan cross-chain Gravity Bridge juga menghentikan layanan setelah serangan. Di Hong Kong, ketua regulator SFC melaporkan pertumbuhan volume perdagangan platform aset virtual berlisensi hampir tiga kali lipat pada kuartal pertama 2026. Sementara itu, Michael Saylor kembali memberi sinyal aktivitas pembelian Bitcoin oleh perusahaannya. Berita lain termasuk komentar anggota Fed Christopher Waller tentang dampak kebijakan moneter AS yang diperkuat oleh stablecoin, dan kasus pencurian 107 BTC di Tiongkok yang mengakibatkan hukuman penjara 10+ tahun. SEC AS mengajukan gugatan terhadap skema crypto senilai $12.3 juta yang mengklaim menggunakan trading bot AI. Analisis sentimen pasar dari Santiment menunjukkan rasio long/short Bitcoin mencapai level tertinggi tahun ini, yang mungkin mengindikasikan koreksi jangka pendek, sementara sentimen untuk Ethereum berubah menjadi lebih negatif. Bagian terakhir menampilkan daftar token meme terpopuler dalam 24 jam di jaringan Ethereum, Solana, dan Base, serta tautan ke artikel opini tentang refleksi prediksi ChatGPT tiga tahun lalu.

链捕手38m yang lalu

Berita Pagi | Michael Saylor Rilis Informasi Bitcoin Tracker; Aave Publikasi Investigasi Pasca-Serangan Jembatan Kelp rsETH; Gravity Bridge Umumkan Penangguhan Layanan Setelah Diserang

链捕手38m yang lalu

PA Visual | Satu Gambar Pahami Peristiwa Web3 Penting yang Patut Diperhatikan di Bulan Juni

"PA Pictorial: Peta untuk Memahami Peristiwa Web3 Penting yang Perlu Diperhatikan pada Juni" Jelajahi Kalender Kripto terbaru PANews dengan cakupan lebih lengkap, penyaringan fleksibel, dan ekspor yang mudah. Pada Juni, pasar kripto dipadati oleh keputusan suku bunga makro, data ekonomi penting, pelepasan token, dan acara teknologi tradisional. Poin-poin intinya meliputi: 📌 Amerika Serikat merilis data NFP dan CPI bulan Mei. The Fed menerbitkan Buku Beige dan menggelar konferensi pers kebijakan, dengan preferensi risiko pasar tetap dipengaruhi ekspektasi makro. 🏦 Bank Sentral Eropa dan Bank of Japan akan mengumumkan keputusan suku bunga, menjadikan likuiditas global dan jalur suku bunga sebagai salah satu tema utama pasar di Juni. 🪙 Beberapa token seperti SUI dan ENA akan mengalami pelepasan (unlock), perlu diperhatikan risikonya. 🚀 Perkembangan proyek: Coinbase akan meluncurkan futures indeks saham perpetual perdana, CME Group berencana meluncurkan futures indeks kripto Nasdaq; SharpLink akan dimasukkan ke dalam Indeks Russell 2000 dan 3000. ⚠️ Penyaringan proyek terus berlanjut: Layanan seperti browser Bitcoin Ordinals, Ord.io, secara bertahap berhenti beroperasi. Perhatikan pengaturan penarikan dan migrasi aset. 🌐 Acara penting lainnya: Pembukaan Piala Dunia, pembukaan Apple WWDC26, penawaran saham SpaceX, pertemuan IPO S&T UBTECH di pasar STAR, dll. Dengan makroekonomi, pelepasan token, regulasi, penyaringan proyek, dan acara teknologi yang berlangsung bersamaan, pasar pada Juni mungkin terus mencari arah baru di tengah ekspektasi likuiditas, perubahan kebijakan, dan rotasi ekosistem. Kunci inti peristiwa global dan alur utama Web3 Juni 2026 dalam satu peta!

marsbit1j yang lalu

PA Visual | Satu Gambar Pahami Peristiwa Web3 Penting yang Patut Diperhatikan di Bulan Juni

marsbit1j yang lalu

Ali "Menaruh Barang", Byte "Berlatih Ilmu"

Dalam satu minggu terakhir Mei, dua raksasa teknologi China, Alibaba dan ByteDance, memamerkan dua pendekatan berbeda dalam strategi AI mereka. Alibaba, sebagai perusahaan publik, fokus pada integrasi AI untuk monetisasi langsung. Mereka menghubungkan model Qwen dengan platform e-commerce seperti Taobao, menciptakan fitur seperti "pencocokan harga AI" dan "pakaian virtual AI". Melalui protokol ACT, mereka membangun infrastruktur untuk transaksi berbasis agen AI. Pendapatan eksternal Alibaba Cloud tumbuh 40%, menunjukkan model bisnis "MaaS" (Model-as-a-Service) mereka yang berhasil. Namun, pendekatan ini mungkin mengorbankan penelitian mendasar untuk keunggulan jangka pendek. Sebaliknya, ByteDance, yang masih swasta, berinvestasi besar dalam penelitian AI jangka panjang. Departemen Seed mereka, dengan anggaran belanja modal (capex) yang meningkat pesat, bertujuan "menjelajahi batas atas kecerdasan". Mereka merilis model pembuatan video Seedance 2.0 yang memimpin peringkat global dan mempublikasikan penelitian mendalam tentang "model dunia". Perusahaan ini memberikan kebebasan bagi tim risetnya tanpa tekanan kuartalan dari pasar modal. Perbedaan kunci ini lebih disebabkan oleh status kepemilikan daripada filosofi semata. Sebagai perusahaan publik, Alibaba terikat pada harapan ROI jangka pendek investor. ByteDance, yang belum IPO, memiliki kemewahan untuk berfokus pada terobosan teknologi jangka panjang. Analisis menyimpulkan bahwa jalan strategis AI sebuah perusahaan di China sangat ditentukan oleh apakah perusahaan tersebut terdaftar di bursa atau tidak, yang membentuk pilihan antara "menjual AI" dan "membuat AI".

marsbit2j yang lalu

Ali "Menaruh Barang", Byte "Berlatih Ilmu"

marsbit2j yang lalu

Mengapa Lebih Banyak AI Agent Belum Tentu Berarti Produktivitas yang Lebih Tinggi?

**Mengapa Lebih Banyak AI Agent Tidak Sama dengan Produktivitas Lebih Tinggi?** Meskipun teknologi memungkinkan kita meluncurkan banyak AI Agent dengan mudah dan murah, produktivitas nyata tidak serta-merta meningkat. Ini karena munculnya konsep "Pajak Orkestrasi"—biaya tersembunyi untuk mengelola, menilai, dan menggabungkan hasil kerja semua Agent tersebut. Pekerjaan ini harus kembali ke satu sumber daya serial yang tidak dapat diduplikasi: perhatian dan penilaian manusia. **Manusia adalah 'GIL' dalam Sistem.** Seperti Global Interpreter Lock (GIL) dalam Python, semua Agent dapat berjalan paralel, tetapi untuk keputusan penting (seperti tinjauan arsitektur, kode, atau penyelesaian konflik), mereka harus "mengambil kunci" dari Anda—sang pengembang. Hukum Amdahl berlaku: percepatan maksimum dari paralelisasi dibatasi oleh bagian kerja yang harus tetap serial, yaitu kapasitas penilaian manusia. Menambah Agent hanya membuat antrian tinjauan lebih panjang, memperbesar beban konteks, dan menyebabkan kelelahan kognitif. **Kelelahan dan Utang Tersembunyi.** Banyaknya Agent yang aktif memberi ilusi produktivitas tinggi, tetapi rasa sibuk itu tidak sama dengan hasil berkualitas. Jika Anda "menyerah secara kognitif" dan tidak meninjau hasil dengan benar, Anda menumpuk utang teknis dan utang kognitif—masalah yang akan muncul nanti. Pajak orkestrasi harus dibayar, baik secara sadar melalui proses yang terencana, atau diam-diam melalui penurunan kualitas. **Solusi: Kelola Perhatian Seperti Sistem Produksi.** Kuncinya adalah merancang alur kerja dengan menghormati batas perhatian manusia sebagai sumber daya langka: 1. **Kontrol Jumlah Agent:** Sesuaikan jumlah Agent dengan kemampuan *review* Anda, bukan dengan apa yang UI izinkan. Batasi ke angka rendah. 2. **Klasifikasi Tugas:** Pisahkan tugas independen (cocok untuk Agent paralel) dari tugas kompleks yang membutuhkan penilaian mendalam (kerjakan secara serial). 3. **Tinjau Secara Berkelompok (*Batch Review*):** Kurangi biaya alih konteks dengan meninjau hasil beberapa Agent sekaligus. 4. **Gunakan Waktu Serial untuk Penilaian:** Fokuskan perhatian hanya pada bagian yang memerlukan penilaian manusia. Biarkan Agent menangani bagian yang dapat diverifikasi otomatis (seperti tes). 5. **Lindungi Waktu Fokus Anda:** Kadang, tindakan paling produktif adalah berhenti mengoordinasi banyak Agent dan fokus pada satu masalah inti. Kemampuan sebenarnya di era AI bukanlah menjalankan banyak Agent, tetapi merancang sistem yang secara sadar mengelilingi dan melindungi kapasitas penilaian serial manusia—sumber daya paling berharga dalam proses pengembangan.

marsbit3j yang lalu

Mengapa Lebih Banyak AI Agent Belum Tentu Berarti Produktivitas yang Lebih Tinggi?

marsbit3j yang lalu

Trading

Spot
Futures
活动图片