Judul Asli:Token Budget Wars
Penulis Asli:Jaya Gupta
Kompilasi Asli:Peggy
Catatan Editor: AI perusahaan sedang bergeser dari 'apakah akan mengadopsi', menuju 'bagaimana menghitung biaya' .
Dua tahun terakhir, dorongan banyak perusahaan agar karyawan menggunakan AI, lebih banyak untuk mengikuti tren teknologi dan tekanan kompetitif. Namun ketika biaya inferensi AI berubah dari anggaran eksperimen menjadi pengeluaran operasional yang berkelanjutan, CEO dan CFO mulai menanyakan pertanyaan yang lebih realistis: Sebenarnya nilai apa yang diciptakan AI? Untuk setiap dolar biaya token, apa hasil nyata yang didapat?
Inilah inti dari "Token Budget Wars". Perang anggaran token ini bukan sekadar perusahaan ingin menekan tagihan AI, tetapi untuk menilai kembali bagian bisnis mana yang layak mendapat lebih banyak daya komputasi, tugas mana yang harus dialihkan ke model yang lebih murah, proses mana yang bisa diganti dengan outsourcing atau tenaga manusia, dan mana yang hanya konsumsi tidak efektif.
Hal paling patut diperhatikan dalam artikel ini adalah, volume penggunaan AI tidak sama dengan nilainya. Di era SaaS, volume penggunaan biasanya berarti perangkat lunak telah diadopsi; tetapi di era AI, konsumsi token hanya menunjukkan "meteran sedang berjalan". Alur kerja yang sama, karena perbedaan prompt, konteks, pilihan model, dan jumlah percobaan ulang, dapat menghasilkan perbedaan biaya hingga beberapa kali lipat. Tagihan yang membengkak bisa berarti AI benar-benar sedang bekerja, atau juga bisa berarti sistem sedang berjalan sia-sia.
Oleh karena itu, tahap berikutnya dari AI perusahaan, kuncinya bukan hanya kemampuan model, tetapi apakah biaya token dapat dikaitkan dengan hasil bisnis. Tahap pertama membuktikan AI dapat menyelesaikan pekerjaan; tahap kedua harus menjawab: apakah pekerjaan-pekerjaan ini benar-benar layak dibayar?
Berikut adalah teks asli:
AI Perusahaan Telah Bergerak dari "Apakah Akan Mengadopsi" ke "Bagaimana Mendistribusikan".
Di tingkat eksekutif perusahaan, "mata uang" baru adalah kemampuan Anda mengkuantifikasi ROI investasi AI. Setiap fungsi departemen ditanyai pertanyaan yang sama: Apa output Anda? Berapa biayanya? Dua tahun terakhir, para CEO sambil bangun pagi menonton Jim Cramer di CNBC (#bearish), sambil melihat pesaing mengumumkan peningkatan produktivitas, lalu meminta seluruh perusahaan untuk menggunakan AI. Yang sekarang benar-benar menciptakan tekanan adalah pertanyaan lanjutan itu: Tunjukkan bukti nilainya.
Claude dirilis pada November 2025, sementara saat itu anggaran tahunan 2026 sebagian besar perusahaan sudah ditetapkan. Pada kuartal pertama, volume penggunaan aktual perusahaan sudah jauh melampaui rencana semula. Biaya inferensi tidak lagi hanya sebuah pos anggaran untuk percobaan, tetapi berubah menjadi biaya operasional yang terjadi terus-menerus. Diikuti dengan itu, muncul pertanyaan baru: Di mana sebenarnya AI menciptakan nilai?
Pertanyaan ini sulit dijawab karena utilitas token tidak terkuantifikasi. Tagihan tidak dapat memberi tahu Anda, apakah pengeluaran ini menggantikan tenaga manusia, menciptakan pendapatan, mengurangi risiko, mempercepat proses, atau sekadar sekelompok insinyur yang gila menguras token demi peringkat (#metamates). Ketika pengeluarannya hanya ratusan ribu dolar, itu masih terlihat seperti sebuah eksperimen. Tetapi setelah melewati titik kritis tertentu, misalnya mencapai tujuh digit, itu berubah menjadi infrastruktur. Perbedaan teknis mulai berdampak nyata pada laporan laba rugi: alur kerja yang sama, input yang sama, biaya token untuk dua kali eksekusi bisa berbeda 5 sampai 10 kali lipat, sementara secara permukaan tidak tampak masalah apa pun. Dalam skala eksperimen, fluktuasi seperti ini sudah cukup mahal; tetapi begitu masuk ke skala infrastruktur, itu menjadi angka yang harus dijelaskan CFO kepada CEO.
Bisa disebut sebagai "utilitas marginal token": nilai bisnis yang diciptakan untuk setiap dolar tambahan biaya inferensi. Ini adalah angka yang benar-benar penting pada tahap penskalaan, dan juga angka yang saat ini tidak terlihat oleh kebanyakan perusahaan.
Pertanyaan di dewan direksi sedang bergeser dari "apakah AI berguna", menjadi "di mana sebenarnya AI memberikan leverage". Karena itulah, yang disebut perang anggaran token, pada dasarnya adalah perebutan hak alokasi token.
Dan perebutan kepemilikan token ini cepat memanas karena bertabrakan dengan naluri eksekutif yang telah berlangsung tiga puluh tahun: tim besar berarti posisi besar, ruang lingkup tanggung jawab besar, dan kekuasaan yang lebih besar. Dulu, tanda keberhasilan manajer senior yang terlihat adalah ukuran tim yang mereka kelola — bawahan langsung, bawahan tidak langsung, dan jumlah orang dalam struktur organisasi.
Tetapi ketika kecerdasan menjadi sumber daya langka, tanda baru adalah: berapa banyak kecerdasan yang bisa Anda alokasikan.
Pengeluaran AI pada dasarnya sedang bersaing dengan biaya tenaga kerja.
Kebanyakan proposal anggaran AI, pada dasarnya adalah salah satu dari tiga klaim: menggantikan tenaga kerja outsourcing, menggantikan tenaga kerja internal, atau menciptakan pendapatan baru.
Seorang karyawan punya gaji. Sebuah kontrak outsourcing BPO punya harga yang dihitung per tiket, klaim, faktur, atau peninjauan. Manusia bisa memahami satuan ukur ini. Tapi biaya inferensi lebih kompleks, karena biaya akhir penyelesaian sebuah tugas bergantung pada bagaimana sistem berjalan selama proses eksekusi. Sebuah tugas klaim yang memerlukan tiga kali percobaan ulang, koreksi manual, dan memanggil model terdepan, mungkin lebih mahal daripada tenaga outsourcing yang awalnya ingin digantikannya. Karena itulah, diskusi mulai beralih: Berapa biaya untuk menyelesaikan satu hasil? Misalnya biaya per tiket terselesaikan, per klaim diproses, per kontrak ditinjau, per faktur diselesaikan, per posisi yang dihindari untuk direkrut, per pelanggan yang dipertahankan, atau per konversi satu dolar pendapatan.
Para eksekutif sudah menyadari, BPO adalah tempat termudah untuk membangun patokan, karena pekerjaan ini memang sudah dihargai per "unit selesai". Sebaliknya, perbandingan antara karyawan internal dan AI jauh lebih sulit, karena karyawan melakukan banyak hal setiap hari, termasuk berselancar TikTok saat istirahat siang; peningkatan produktivitas sering kali tampak sebagai penghindaran perekrutan atau pelepasan kapasitas yang tersebar; dan manajer juga cenderung menolak pengurangan jumlah tim hanya berdasarkan otomatisasi parsial. BPO memberikan garis dasar yang terkuantifikasi untuk tim bisnis.
Ini berbeda dengan logika SaaS. SaaS pernah melatih perusahaan untuk melihat volume penggunaan sebagai indikator proksi nilai.
Tetapi AI meruntuhkan hal ini. Berapa banyak sumber daya inferensi yang dikonsumsi alur kerja yang sama bisa sangat bervariasi karena prompt, konteks yang diambil, model yang dipilih, alat yang dipanggil, jumlah percobaan ulang, dan apakah agent macet atau tidak. Satuan pada tagihan — token — stabil, tetapi volume kerja yang diwakilinya tidak stabil.
Lebih tepatnya: sinyal dan noise menggunakan satuan ukur yang sama. Kenaikan tagihan token bisa berarti pekerjaan nyata sedang diselesaikan; tetapi juga bisa berarti daya komputasi sedang terbuang percuma pada prompt yang buruk, konteks tidak relevan, pemanggilan alat tidak perlu, inferensi berulang, dan model yang kemampuannya berlebihan. Tagihan token dua perusahaan bisa persis sama, tetapi bisnis yang berjalan di baliknya sangat berbeda: satu sedang mengubah inferensi menjadi hasil, yang lainnya membayar untuk perjalanan tidak efektif, dan kedua situasi ini terlihat sama persis pada item tagihan.
Volume penggunaan SaaS memberi tahu Anda: perangkat lunak telah diadopsi. Volume penggunaan AI hanya memberi tahu Anda: meteran sedang berjalan. Itu tidak memberi tahu Anda, apakah perusahaan benar-benar berjalan atau tidak.
Mengapa Utilitas Marginal Token Sulit Dilihat?
Ada tiga alasan utama.
Pertama adalah ekor panjang percobaan ulang. Jika probabilitas sebuah agent menyelesaikan alur kerja dengan benar pada percobaan pertama adalah p, maka konsumsi token yang diharapkan per alur kerja terselesaikan kira-kira akan membesar sesuai T/p, di mana T adalah biaya dasar. Jika tingkat penyelesaian turun dari 90% menjadi 70%, biaya efektif per penyelesaian masalah akan meningkat sekitar 28%, bukan 20%, karena kegagalan menghasilkan efek gabungan. Dalam alur kerja perusahaan, input sering kali berantakan, dan kasus luar biasa juga penting. Kegagalan tidak hanya menurunkan akurasi, tetapi juga mengubah perhitungan ekonomi.
Kedua adalah inflasi konteks. Untuk operasi yang sangat bergantung pada mekanisme perhatian, biaya inferensi kira-kira tumbuh sesuai O(n2) seiring panjang konteks. Oleh karena itu, panjang konteks berlipat ganda, biaya inferensi kira-kira menjadi empat kali lipat. Setiap orang ingin model memiliki informasi yang cukup, jadi sistem cenderung memasok berlebihan: padahal lima dokumen sudah cukup, retrieval malah mengambil lima puluh; konektor langsung memasukkan seluruh utas email; agent terus berjalan membawa riwayat percakapan yang sudah lama kedaluwarsa.
Ketiga adalah perutean. Ketika tim tidak tahu model mana yang "cukup baik", secara default akan menggunakan model terkuat. Sebuah tugas klasifikasi dasar, mungkin berjalan pada model yang sama yang dirancang untuk penalaran kompleks. Ketika volume panggilan mencapai jutaan, apakah menyerahkan tugas sederhana ke model kecil, atau semua tugas ke model terdepan, sering kali menjadi perbedaan antara tagihan terkendali dan masalah tingkat dewan direksi.
Industri non-perangkat lunak akan merasakan rasa sakit ini dalam bentuk "transformasi". Perusahaan perangkat lunak akan melihat masalah ini lebih dulu, karena pekerjaan yang dioptimalkan sudah terinstrumentasi dengan baik. Tim rekayasa memiliki metrik PR, commit, deployment, insiden, waktu siklus, waktu perbaikan rata-rata, dan metrik-metrik ini terhubung dengan produk. Meski tidak sempurna, pekerjaan semacam ini lebih mudah diukur.
Perusahaan non-perangkat lunak akan merasakan masalah ini lebih dalam, karena pekerjaan mereka bersifat operasional. Misalnya klaim, underwriting, tiket layanan pelanggan, peninjauan kepatuhan, anomali rantai pasok, sengketa pembayaran. Atau, perusahaan yang memiliki aset dunia nyata juga akan menghadapi masalah yang sama. Alur kerja ini sebelumnya biasanya diukur dengan tenaga manusia, waktu siklus, tingkat pencapaian SLA, dan tingkat kesalahan, dan sering kali memiliki persyaratan lebih tinggi, perlu dapat dipertahankan dalam audit, bukan hanya benar dalam rata-rata. Satuan kerja dan satuan biaya tidak menggunakan bahasa yang sama, juga tidak berada di organisasi yang sama. Tim teknis bisa melihat konsumsi token, departemen bisnis bisa melihat perubahan alur kerja, tetapi menghubungkan keduanya memerlukan beberapa tim untuk terlebih dahulu menyepakati "sebenarnya mengukur apa".
Saya yakin, perusahaan perangkat lunak akan mengalami perang anggaran token sebagai masalah pengukuran produktivitas, yang juga sesuai dengan banyak "PHK AI" yang sebelumnya terjadi; sementara perusahaan non-perangkat lunak akan mengalaminya sebagai masalah transformasi.
Lapisan yang hilang adalah atribusi dari token ke hasil. Perusahaan memerlukan lapisan konversi yang menghubungkan pengeluaran inferensi dengan pekerjaan yang diselesaikan, hasil bisnis yang dihasilkan. Lapisan ini harus menjawab tiga pertanyaan: Berapa biaya sebenarnya dari alur kerja ini, termasuk percobaan ulang dan koreksi? Di jalur eksekusi agent, bagian mana yang benar-benar penting, dan mana yang hanya perjalanan tidak efektif? Apakah pekerjaan ini mengubah model operasional — misalnya setiap agen layanan pelanggan menangani lebih sedikit tiket, siklus klaim lebih singkat, anggaran BPO lebih kecil, perekrutan ditunda? Lapisan berikutnya adalah melakukan atribusi hasil dalam bahasa bisnis. Bukan sekadar mengatakan "alur kerja ini menghabiskan 2,13 dolar", tetapi mengatakan: klaim jenis ini lebih murah ditangani agent daripada BPO, tetapi jika polis memerlukan dokumen tambahan untuk kasus luar biasa, ekor panjang percobaan ulang akan menghancurkan kelayakan ekonominya.
Pengukuran akan menjadi ingatan. Untuk menghubungkan sebuah token dengan sebuah hasil, perusahaan harus menangkap semua yang terjadi di antaranya: apa yang dilihat agent, apa yang diambil, alat apa yang dipanggil, apa yang diabaikan, di mana melakukan percobaan ulang, kapan dikoreksi manual, aturan pengecualian mana yang berlaku, preseden mana yang berpengaruh, dan mengapa satu jalur berhasil sementara jalur lain gagal. Lapisan pengukuran harus merekam jejak keputusan, dan ini justru sesuatu yang hampir tidak pernah benar-benar dimiliki perusahaan sebelumnya. Sistem pencatatan bisa merekam apa yang terjadi, tetapi jarang bisa merekam mengapa. Misalnya, CRM bisa memberi tahu Anda sebuah deal ditunda, tetapi tidak bisa memberi tahu Anda penilaian yang tidak tertulis di balik prediksi penjualan.
Alasan keputusan adalah aset perusahaan yang paling mudah rusak, paling mudah hilang, karena ia ada di utas Slack, rantai email, rapat eskalasi, dan di kepala orang. Namun masalahnya, orang pergi, proses berubah.
AI mengubah ini, karena agent menghasilkan jejak. Setiap retrieval, pemanggilan alat, percobaan ulang, eskalasi, koreksi manual, dan keputusan akhir, akan menjadi bagian dari jalur dari konteks ke aksi hingga hasil. Awalnya, perusahaan akan menangkap jejak ini untuk membenarkan pengeluaran. Namun begitu jejak ini tertangkap, mereka akan menjadi lebih berharga daripada laporan biaya itu sendiri, karena mereka akan menjadi catatan permanen yang merekam bagaimana organisasi sebenarnya mengambil keputusan. (Ahem, context graph, meski akhir-akhir ini saya sudah benar-benar bosan mendengar kata ini.)
Lapisan alokasi adalah hadiah sesungguhnya. Jika inferensi menjadi sumber daya yang dibayar sesuai pemakaian dalam model operasional pelanggan, maka setiap dolar harus membuktikan dirinya layak dibelanjakan. Pemasok mana yang dapat menjelaskan kapan token berubah menjadi hasil, kapan tidak, dan mengapa?
Perusahaan tidak akan menyelesaikan hal ini sepenuhnya sendiri. Mereka akan membelinya sebagai sebuah transformasi. Perusahaan Fortune 500 sudah berulang kali memainkan naskah ini sebelumnya: kencangkan sabuk pengaman, rekrut McKinsey, rekrut setiap mantan karyawan Palantir di pasar, lalu dorong perubahan dari atas oleh CEO. Atribusi token ke hasil juga akan muncul dengan cara yang mirip dengan ERP, BI, dan transformasi digital: tiba sebagai sebuah "proyek" dengan dukungan eksekutif, didukung infrastruktur di bawahnya, dan akhirnya menjadi sumber fakta baru. Pendiri yang dapat melakukan hal ini akan membentuk tim pendiri yang berbeda jenis, dan mereka sendiri juga akan berbeda dari prototipe pengusaha tradisional.
Siapa yang menguasai atribusi token ke hasil, dia yang dapat membuat keputusan alokasi: alur kerja mana yang layak mendapat lebih banyak daya komputasi, mana yang harus dibatasi, mana yang harus dialihkan ke model lebih murah, mana yang terus dikerjakan manusia, mana yang dapat menggantikan BPO. Dan begitu Anda dapat membuat keputusan ini, Anda mengontrol aliran pengeluaran AI di dalam perusahaan, dan mendapatkan kepercayaan yang diperlukan untuk mendistribusikan sumber daya ini.
Tahap pertama AI perusahaan membuktikan: model dapat menyelesaikan pekerjaan. Tahap berikutnya akan menentukan: seberapa banyak pekerjaan ini yang benar-benar layak dibayar. Seperti kata Charlie Munger: Tunjukkan insentifnya, dan saya akan menunjukkan hasilnya kepada Anda.
Tautan Asli






