AI sebagai "bos", hampir membuat 10 perusahaan bangkrut......
Universitas Princeton baru-baru ini membuat CEO-Bench, membiarkan AI mengoperasikan sebuah startup SaaS virtual, selama 500 hari.
Siapa sangka, dari 14 CEO silikon yang tampil, hanya 4 yang berhasil mempertahankan modal awal.
Dan peringkat keempat itu, adalah sebuah algoritma rule-based murni......

AI mengoperasikan perusahaan secara mandiri? Membiarkan AI menjadi bos??
Setidaknya untuk saat ini, masih menjadi tanda tanya besar.
Tentu saja, ada juga beberapa model dengan kemampuan luar biasa yang telah menunjukkan potensi—
Fable 5, 471,5 juta dolar AS terkumpul dalam 500 hari, "bos AI" terkuat di dunia.
Kompetisi CEO Kecerdasan Buatan
Sebelum menyaksikan secara resmi "adegan memalukan AI" ini, mari jelaskan aturan permainannya.
Kondisi awal: Modal 1 juta dolar AS, nol pelanggan.
Tujuan permainan: Menghasilkan uang sebanyak mungkin dalam periode simulasi 500 hari.
Kriteria penilaian: Berapa banyak uang yang tersisa di rekening saat permainan berakhir. Jika saldo turun di bawah nol di tengah jalan, langsung dinyatakan bangkrut, simulasi dihentikan.
Cukup mudah dipahami, mirip bermain Monopoli, hanya saja cara interaksinya berbeda.
Intinya adalah sebuah Python API, berisi 34 alat, 19 tabel database. Setelah Agent terhubung, dapat menulis kode, menggunakan SQL untuk menanyakan database, lalu menyesuaikan alur kerja secara dinamis berdasarkan hasil kueri.

Variabel dalam lingkungan permainan juga jauh lebih banyak.
Strategi penetapan harga, saluran penempatan iklan, alokasi anggaran penelitian dan pengembangan, perluasan infrastruktur, konfigurasi tim layanan pelanggan—semuanya harus diputuskan sendiri.
Bahkan ada jejaring sosial simulasi, AI dapat mengunggah postingan, melihat keluhan pelanggan, mengintai pesaing di sana.
Pada dasarnya dapat mengendalikan segala sesuatu di perusahaan, dengan wewenang tak terbatas, persis seperti CEO manusia.

Tetapi ini juga berarti, tidak ada lagi yang mengetik instruksi dari kotak dialog. Model harus bertanggung jawab sendiri atas setiap keputusan.
Inilah bagian paling menarik dari "permainan lapar" ini—
Setelah iklan ditempatkan, pelanggan mungkin baru datang minggu depan; anggaran penelitian dan pengembangan diinvestasikan, peningkatan kualitas produk harus menunggu berhari-hari......
Biaya bisa langsung habis terbakar. Imbalannya, akan tertunda lama.
Inilah "ketidakpastian" yang paling ditakuti CEO, satu langkah salah akan memicu reaksi berantai.
Ingin menggunakan jalur statistik dengan kekuatan besar untuk mencapai keajaiban? Maaf, variabel kunci semuanya ada secara "implisit".
Kepuasan pelanggan, kemauan membayar, ekspektasi kualitas minimum—indikator-indikator ini hanya dapat disimpulkan dari tingkat pembatalan, jumlah tiket layanan, jejaring sosial.
Sementara itu, lingkungan eksternal terus berubah secara dinamis: Pesaing akan melakukan tipu daya, preferensi pasar bergeser seiring waktu, ada juga siklus ekonomi makro......
Tugas pengambilan keputusan jarak jauh dengan tingkat kesulitan "neraka".
Konteksnya terlalu meledak, tidak mungkin menunggu semua informasi selesai diredam sebelum membuat keputusan, CEO manusia lebih sering mengandalkan intuisi.

Fakta membuktikan, hasilnya memang menyedihkan.
Dari 14 peserta yang bertanding, sebagian besar hampir kehilangan celana dalam karena kerugian.
GLM 5.1, Claude Haiku 4.5, Gemini 3 Flash, DeepSeek V4 Pro, Grok 4.20, kelima model ini bahkan gagal di tengah jalan, bahkan tidak menyelesaikan perlombaan, "bangkrut" dan meninggalkan arena dengan penyesalan.
AI yang menghasilkan pendapatan positif, hanya 3:
Claude Fable 5, 47,15 juta dolar AS;
Claude Opus 4.8, 27,80 juta dolar AS;
GPT-5.5, 21,30 juta dolar AS.
Gelar juara jatuh ke tangan Fable 5—model paling pandai menjadi "bos" di dunia.
Pemenang pertama tanpa keraguan, melipatgandakan modal awal tepat 47 kali, memimpin jauh di depan Opus 4.8 di peringkat kedua.
Dan, Fable 5 adalah satu-satunya model yang pendapatannya melebihi modal awal dalam lebih dari satu kali proses.
(btw, pembatasan keamanan masih bekerja, Fable 5 berkali-kali menolak merespons)
Tapi ini bukan bagian yang paling seru.
Sebenarnya ada empat peserta yang menghasilkan uang, hanya saja peserta keempat bukan LLM......
Di luar tiga "kapitalis" terbaik, peserta peringkat keempat—
adalah algoritma heuristik berbasis aturan murni.
Sama sekali tidak memanggil model bahasa apa pun. Harga tetap, kuota tetap, tingkatan tetap...... semuanya aturan yang dirancang dalam skrip.
Percayakah Anda, "Forrest Gump" seperti ini, menghasilkan 15,76 juta dolar AS.
Melebihi semua model kecuali Fable 5, Opus 4.8, dan GPT-5.5. Termasuk Qwen 3.7 Max, Opus 4.7, GLM 5.2, Kimi K2.6......

Pelajaran yang Diambil
Cukup dramatis.
Tetapi, dibandingkan hasil pertandingan, insight yang bisa disaring dari proses ini mungkin lebih berharga.
Makalah ini memiliki dua Takeaway inti—
Eksplorasi > Kehati-hatian
Ini adalah temuan yang cukup sesuai dengan intuisi.
Dari memo model dapat dilihat, GPT-5.5 dan Claude Opus 4.8 akan terus mencoba strategi baru seiring perubahan situasi, baik meningkatkan upaya akuisisi pelanggan, menyesuaikan tingkatan, atau menyesuaikan anggaran dukungan dan penelitian & pengembangan.
Sebaliknya, Claude Opus 4.7 terutama mengambil strategi memotong biaya, mempertahankan kas saat menghadapi kegagalan.
Pendekatan konservatif ini, meskipun memungkinkan model bertahan hingga akhir, tidak dapat menghasilkan keuntungan.

Ada pepatah: Mati dengan baik lebih baik daripada hidup dengan susah.
Tapi dunia bisnis adalah "pemenang mengambil semua"—hanya bertahan hidup, mungkin memang tidak ada artinya.
Ingin menjadi CEO yang sukses, "berjudi" adalah keterampilan wajib (bukan).
Selain itu, makalah ini juga menyaring empat dimensi kemampuan kunci:
Menemukan informasi tersembunyi: Misalnya saluran iklan mana yang paling efektif untuk segmen pelanggan tertentu
Memprediksi masa depan: Diukur dengan kesalahan prediksi arus kas empat minggu
Beradaptasi cepat dengan perubahan: Diukur dengan kecepatan model menyadari tindakan pesaing
Merencanakan lebih awal: Diukur dengan frekuensi kemunculan analisis skenario if-then dalam catatan Agent
Pada keempat dimensi ini, Opus 4.8 dan GPT-5.5 berada di atas rata-rata model lainnya.
Agent Pemrograman Bukan Solusi Serba Bisa.
Harness adalah topik hangat belakangan ini, penelitian ini juga menyentuhnya.
Tapi kesimpulannya, cukup bertentangan dengan konsensus.
Peneliti menggunakan Claude Code untuk menjalankan Opus 4.7, menggunakan Codex untuk menjalankan GPT-5.5.
Hasilnya, jumlah aksi kedua peserta menurun drastis, kinerja turun signifikan......
Setelah dianalisis, peneliti menunjukkan penyebabnya mungkin terletak pada sistem prompt.
Sistem prompt Agent pemrograman dioptimalkan untuk skenario pengembangan perangkat lunak, memaksakannya pada peran CEO justru menjadi belenggu.
Memaksakan "pelana", lebih baik tidak menunggangi sama sekali.
Beberapa waktu lalu saham SaaS anjlok, investor global berteriak "kiamat perangkat lunak". Agent pemrograman + MCP + Skill, sepertinya bisa melahap segalanya.
Tapi penelitian ini memberikan penilaian berbeda:
Agent mungkin sama seperti model besar—industri berbeda, membutuhkan kerangka Harness tertentu, membutuhkan adaptasi mendalam pada skenario vertikal.
Dan ini, mungkin akan menciptakan ruang pertumbuhan baru di tengah produsen model yang turun tangan menggerogoti lapisan aplikasi saat ini.
Lagi pula, tidak mungkin setiap orang akan menggunakan Codex, lalu membangun alur kerja langkah demi langkah sendiri. Berinteraksi dengan Agent sendiri memiliki biaya pembelajaran, satu set Harness yang sama juga tidak dapat mengendalikan semua kuda.
Agent penulis, Agent HR, Agent keuangan......sebagian besar pengguna masih membutuhkan produk vertikal yang sangat terspesialisasi.
Orang yang Menggambar Matriks
1997, Apple tinggal 90 hari lagi dari kebangkrutan.
Kemudian, Jobs menggambar matriks 2x2 klasik itu, menunjuk ke dua arah—tingkat konsumen dan profesional, desktop dan notebook.

Kemudian dengan satu goresan, memotong 70% lini produk Apple, mengumumkan hanya akan membuat produk untuk keempat kotak ini.
Kisah selanjutnya semua orang tahu. iMac, iPod, iPhone.
Ini adalah "sentuhan jenius" Pak Jobs saat kembali ke Apple: Dalam ketidakpastian ekstrem, sepenuhnya mengandalkan intuisi, memampatkan kemungkinan tak terbatas ke dalam kerangka yang sangat sederhana.
Melihat kembali titik balik besar dalam sejarah teknologi, seringkali berasal dari "intuisi murni" semacam ini:
Jensen Huang, setelah AlexNet mencuri perhatian, dengan tegas melawan pendapat umum dan mempertaruhkan masa depan NVIDIA pada deep learning;
Ilya Sutskever, saat kurva baru mulai naik, dengan yakin menyatakan "All in Scaling Law";
Anthropic mencium potensi skenario pemrograman dengan tajam, memilih Coding saat semua orang sedang membuat multimodal, membuat OpenAI lengah......
AI sekarang, dapat mengisi warna di setiap kotak, sesuai templat yang ditentukan.
Tapi kemampuan menggambar matriks itu—
masih milik manusia.
Artikel ini berasal dari akun WeChat "Quantum Bit", penulis: Perhatian pada teknologi terdepan






