Menghemat 3 Miliar Token dalam Seminggu, Panduan Caching Kode Claude oleh Insinyur Anthropic

marsbitDipublikasikan tanggal 2026-05-24Terakhir diperbarui pada 2026-05-24

Abstrak

**Panduan Menghemat Token dengan Cache di Claude Code: Tips dari Engineer Anthropic** Banyak pengguna Claude Code merasa kuota token cepat habis, terutama dalam sesi panjang. Namun, dari perspektif engineer Anthropic, biaya sebenarnya seringkali bukan ditentukan oleh banyaknya kode yang ditulis, melainkan oleh seberapa baik sistem dapat menggunakan kembali konteks yang sudah diproses. Inti artikel ini adalah cara menghemat token melalui mekanisme **cache**. Penulis berhasil menghemat lebih dari 300 juta token dalam seminggu, dengan 91 juta token di-cache dalam satu hari. Biaya token yang di-cache hanya **10%** dari biaya token input biasa, sehingga 91 juta token cache setara dengan biaya sekitar 9 juta token biasa. Sesi panjang Claude Code terasa lebih "tahan lama" karena konteks yang berulang berhasil digunakan kembali, bukan karena model bekerja gratis. **Bagaimana Cache Bekerja?** Cache beroperasi dengan prinsip **cocokkan awalan (prefix matching)**. Claude akan menyimpan lapisan konteks yang berbeda (sistem, proyek, percakapan) ke dalam cache. Selama awalan permintaan berikutnya tetap sama, Claude dapat membaca dari cache alih-alih memproses ulang seluruh konteks. **Hal Penting yang Perlu Diketahui:** * **Biaya:** Token cache hanya dikenakan biaya 10% dari token input biasa. * **Durasi Cache (TTL):** Untuk Claude Code berlangganan, cache bertahan **1 jam**. Untuk API default dan Sub-agent, TTL-nya **5 menit**. * **Lapisan Cache:** Terdiri dari lapisan sistem (in...

Catatan Editor: Banyak orang menggunakan Claude Code, kesan paling langsung adalah Token terkonsumsi terlalu cepat, sesi panjang mudah menghabiskan kuota. Tapi dari perspektif insinyur Anthropic, yang benar-benar memengaruhi biaya, seringkali bukan seberapa banyak kode yang Anda tulis, melainkan apakah sistem terus-menerus menggunakan kembali konteks yang telah diproses.

Inti dari artikel ini adalah cara menghemat Token melalui mekanisme caching. Penulis dalam seminggu menghemat lebih dari 300 juta Token melalui caching, dengan caching harian mencapai 91 juta. Karena biaya Token caching hanya 10% dari biaya Token input biasa, ini berarti 91 juta Token caching sebenarnya dikenai biaya setara dengan sekitar 9 juta Token biasa. Alasan sesi panjang Claude Code terasa lebih "awet", bukan karena model bekerja gratis, melainkan karena banyak konteks berulang berhasil digunakan kembali.

Kunci dari Prompt caching adalah "jangan mengganggu caching". Claude Code akan meng-cache prompt sistem, definisi alat, CLAUDE.md, aturan proyek, dan riwayat percakapan secara berlapis; selama awalan permintaan selanjutnya tetap konsisten, Claude dapat langsung membaca cache, bukan memproses ulang seluruh konteks. Anthropic internal juga memantau tingkat penggunaan kembali prompt cache, karena hal ini tidak hanya memengaruhi kuota pengguna, tetapi juga secara langsung terkait dengan biaya layanan model dan efisiensi operasi.

Bagi pengguna biasa, tidak perlu memahami semua detail teknis yang mendalam, hanya perlu menguasai beberapa kebiasaan kunci: jangan biarkan sesi kosong lebih dari 1 jam; lakukan session handoff saat beralih tugas; hindari sering mengganti model; dokumen besar sebaiknya dimasukkan ke dalam Projects, bukan ditempel berulang kali ke dalam percakapan.

Artikel ini lebih merupakan penyediaan cara penggunaan Claude Code yang lebih mendekati pemikiran insinyur, daripada sekadar membahas trik menghemat Token: perlakukan konteks sebagai aset, biarkan caching terus digunakan kembali, biarkan sesi panjang mengurangi perhitungan berulang.

Berikut adalah teks aslinya:

Saya menghemat 300 juta Token minggu ini, 91 juta dalam sehari, lebih dari 300 juta dalam seminggu.

Saya tidak mengubah pengaturan apa pun. Ini hanyalah prompt caching yang bekerja normal di latar belakang.

Tapi setelah saya benar-benar memahami apa itu caching, dan bagaimana menghindari "mengganggu" caching, dengan kuota penggunaan yang sama, sesi saya dapat bertahan lebih lama. Jadi, berikut panduan 80/20 untuk pemula tentang prompt caching Claude Code, tanpa melibatkan detail mendalam di tingkat API.

TL;DR

Biaya Token caching hanya 10% dari biaya Token input biasa. 91 juta Token caching, biaya sebenarnya setara dengan sekitar 9 juta Token.

TTL caching versi langganan Claude Code adalah 1 jam; API default 5 menit; Sub-agent selalu 5 menit.

Caching dibagi menjadi tiga lapisan: lapisan sistem, lapisan proyek, lapisan percakapan.

Beralih model di tengah sesi akan merusak caching, termasuk mengaktifkan mode "opus plan".

Bagaimana sebenarnya caching dihitung biayanya?

Setiap Token yang di-cache, biayanya adalah 10% dari biaya Token input biasa.

Jadi, ketika dashboard saya menunjukkan suatu hari ada 91 juta Token yang mengenai cache, biaya sebenarnya hanya setara dengan memproses 9 juta Token. Ini juga sebabnya dibandingkan tanpa caching, saat menggunakan Claude Code dalam waktu lama, terasa sesi hampir "gratis" diperpanjang.

Ada dua angka di dashboard yang patut diperhatikan:

Cache create: Biaya satu kali yang muncul saat konten ditulis ke cache. Ini akan mulai bekerja pada putaran percakapan berikutnya.
Cache read: Token yang Claude gunakan kembali dari cache, seperti CLAUDE.md Anda, definisi alat, pesan sebelumnya, dll. Dibandingkan diproses ulang sebagai input, biayanya 10 kali lebih murah.

Jika angka Cache read Anda tinggi, artinya Anda efektif memanfaatkan caching; jika angka ini rendah, berarti Anda berulang kali membayar untuk konteks yang sama.

Thariq dari Anthropic punya kalimat yang membuat saya sangat ingat: "Kami sebenarnya memantau hit rate prompt cache, begitu hit rate terlalu rendah, alarm akan terpicu, bahkan insiden level SEV akan diumumkan."

Dia juga menulis artikel X yang bagus. Ketika hit rate cache tinggi, empat hal terjadi bersamaan: Claude Code terasa lebih cepat, biaya layanan Anthropic turun, kuota langganan Anda terasa lebih tahan lama, sesi coding panjang juga menjadi lebih realistis.

Tapi jika hit rate rendah, semua pihak dirugikan.

Jadi, insentif kedua belah pihak sebenarnya sejalan: Anthropic ingin hit rate caching Anda lebih tinggi, Anda sendiri juga ingin hit rate lebih tinggi. Yang benar-benar menghambat, hanyalah beberapa kebiasaan kecil yang tampak sepele, tetapi diam-diam me-reset cache.

Bagaimana caching tumbuh dalam setiap putaran percakapan?

Caching bergantung pada prefix matching, yaitu "pencocokan awalan".

Tidak perlu terjebak dalam detail teknis yang terlalu dalam, Anda hanya perlu memahami satu hal: selama konten sebelum suatu posisi benar-benar sama dengan konten yang telah di-cache, Claude dapat menggunakan kembali Token cache ini.

Sebuah sesi baru, kira-kira berjalan seperti ini:

Berdasarkan dokumentasi Claude Code, sesi baru biasanya berjalan seperti ini:

Putaran percakapan pertama: Belum ada cache sama sekali. Prompt sistem, konteks proyek Anda (seperti CLAUDE.md, memory, aturan), serta pesan pertama Anda, semuanya akan diproses ulang, dan ditulis ke cache.

Putaran percakapan kedua: Semua konten dari putaran pertama sekarang sudah di-cache. Claude hanya perlu memproses balasan baru Anda dan pesan berikutnya. Biaya putaran ini jauh lebih rendah.

Putaran percakapan ketiga: Logikanya sama. Percakapan sebelumnya tetap disimpan di cache, hanya interaksi putaran terbaru yang perlu diproses ulang.

Caching sendiri bisa dibagi menjadi tiga lapisan:

Dari artikel X Thariq:

Lapisan sistem (System layer): Termasuk instruksi dasar, definisi alat (read, write, bash, grep, glob) dan gaya output. Lapisan ini di-cache secara global.

Lapisan proyek (Project layer): Termasuk CLAUDE.md, memory, aturan proyek. Lapisan ini di-cache per proyek.

Lapisan percakapan (Conversation): Termasuk balasan dan pesan, akan terus bertambah seiring setiap putaran percakapan.

Jika di tengah sesi, ada perubahan pada konten lapisan sistem atau lapisan proyek, semua konten harus di-cache ulang dari awal. Inilah operasi yang paling "mahal". Bayangkan: Anda sudah sampai pesan ke-16, tiba-tiba mengubah prompt sistem, atau berhenti satu jam di tengah jalan, maka semua Token dari pesan pertama harus diproses ulang.

Kebingungan 1 jam dan 5 menit

Ini adalah bagian yang paling mudah disalahpahami.

Versi langganan Claude Code: TTL default adalah 1 jam.

Claude API: TTL default adalah 5 menit. Anda bisa membayar biaya lebih tinggi untuk menaikkannya menjadi 1 jam.
Sub-agent di bawah semua rencana: Selalu 5 menit.

Obrolan web Claude.ai: Tidak ada catatan resmi yang jelas. Mungkin sama dengan versi langganan, tapi saya belum memastikannya.

Beberapa bulan lalu, banyak yang mengeluh kuota langganan Claude terlalu cepat habis. Saat itu ada yang mengira Anthropic diam-diam menurunkan TTL dari 1 jam menjadi 5 menit, tanpa memberi tahu pengguna. Tapi faktanya tidak, TTL Claude Code masih 1 jam.

Masalahnya, dokumentasi Claude Code dan API terpisah, dan keduanya memang hal yang sama sekali berbeda, sehingga menimbulkan banyak kebingungan.

Jika Anda menjalankan banyak alur kerja Sub-agent, atau langsung menggunakan API, maka angka 5 menit ini penting. Tapi bagi 95% pengguna Claude Code, yang benar-benar perlu diperhatikan, sebenarnya hanya jendela 1 jam itu.

Tiga kebiasaan yang mencakup 95% pengguna

Berikut ini adalah bagian yang menurut saya benar-benar berguna dalam penggunaan sehari-hari.

Jangan berhenti terlalu lama

Jika Anda sudah menganggur lebih dari satu jam, konten sebelumnya pada dasarnya sudah kedaluwarsa dari cache. Pesan Anda berikutnya akan membangun cache ulang. Dalam situasi seperti ini, daripada melanjutkan sesi lama yang sudah "dingin", lebih baik melakukan handoff yang jelas, lalu memulai sesi baru, biasanya biayanya lebih rendah.

Saat beralih tugas, langsung mulai ulang

/compact atau /clear memang akan merusak cache, jadi daripada pada titik ini benar-benar me-reset sekali.

Saya sendiri membuat session handoff skill, sebagai pengganti /compact. Ini akan merangkum apa yang telah kita selesaikan, keputusan apa yang masih tertunda, file mana yang paling penting, dan dari mana harus dilanjutkan. Kemudian saya jalankan /clear, tempelkan rangkuman ini, dan bisa melanjutkan seolah-olah tidak ada gangguan.

Perintah compact terkadang juga berjalan lambat. Handoff skill ini biasanya selesai dalam waktu kurang dari satu menit.

Di obrolan Claude, dokumen besar sebaiknya dimasukkan ke dalam Projects

Mekanisme caching di Claude.ai tidak dijelaskan sangat detail secara resmi, tapi jelas Projects menggunakan cara pengoptimalan yang berbeda dengan utas percakapan biasa. Jadi, jika Anda ingin menempelkan dokumen besar, sebaiknya masukkan ke Project, daripada langsung menjejalkannya ke percakapan.

Operasi apa yang diam-diam merusak cache?

Ada beberapa hal yang akan me-reset semua cache tanpa peringatan yang jelas.

Beralih model: Karena caching bergantung pada pencocokan awalan, dan setiap model memiliki cache sendiri. Begitu beralih model, permintaan berikutnya akan membaca riwayat lengkap tanpa ada hit cache.

Mode "Opus plan": Pengaturan ini akan menggunakan Opus di fase perencanaan, dan Sonnet di fase eksekusi. Saya sebelumnya merekomendasikannya di beberapa video optimisasi token, ada alasannya. Tapi perlu dipahami, setiap kali beralih plan, pada dasarnya adalah beralih model, artinya harus membangun cache ulang. Dalam jangka panjang, ini masih membantu memperpanjang kuota sesi, tapi Anda perlu tahu apa yang sebenarnya terjadi di baliknya.

Mengedit CLAUDE.md di tengah sesi diperbolehkan: Perubahan ini tidak langsung berlaku, harus menunggu restart berikutnya baru diterapkan. Jadi, cache yang sedang berjalan saat ini tidak akan terpengaruh.

Dashboard Token gratis saya

Tangkapan layar yang saya tunjukkan sebelumnya, berasal dari token dashboard.

Ini adalah repositori GitHub yang sangat sederhana. Anda berikan tautannya ke Claude Code, minta ia menyelesaikan deployment di localhost lokal, maka ia akan membaca semua rekaman sesi Anda sebelumnya, bukan menghitung dari kondisi kosong. Anda langsung bisa melihat data input, output, cache create dan cache read harian.

Tapi ada satu hal yang perlu diperhatikan: Dashboard ini menghitung data Token di perangkat lokal. Jika Anda beralih dari desktop ke laptop, angkanya tidak akan persis sama. Setiap perangkat memiliki tampilan statistiknya sendiri.

Ringkasan

Prompt caching adalah hal yang bisa diteliti sangat dalam. Artikel Thariq itu membahasnya lebih lengkap dari sini, jika Anda ingin melihat gambaran penuh, layak dibaca.

Tapi Anda tidak perlu memahami semua detail untuk mendapat manfaat darinya. Anda hanya perlu menguasai 80/20 yang paling penting: Token caching 10 kali lebih murah daripada Token biasa; TTL Claude Code adalah 1 jam; beralih model akan merusak cache; melakukan handoff yang jelas di antara tugas, biasanya lebih hemat daripada menggunakan sesi lama yang sudah "kedaluwarsa" dan dipaksa dilanjutkan.

Pertanyaan Terkait

QApa inti dari panduan caching Claude Code yang dibagikan oleh insinyur Anthropic?

AIntinya adalah dengan memanfaatkan mekanisme prompt caching, kita dapat menghemat hingga 90% biaya Token untuk konteks yang berulang. Kunci utamanya adalah menjaga agar cache tidak terputus, sehingga Claude dapat membaca ulang dari cache alih-alih memproses ulang seluruh konteks.

QBagaimana cara kerja caching Token dan mengapa biayanya jauh lebih murah?

ACache Token bekerja dengan mencocokkan prefiks. Jika konten sebelumnya sudah di-cache dan identik dengan permintaan baru, Claude akan membaca dari cache. Biayanya hanya 10% dari Token input biasa karena tidak memerlukan pemrosesan ulang oleh model.

QApa saja kebiasaan kunci yang dapat membantu meningkatkan tingkat pemanfaatan cache dalam penggunaan Claude Code sehari-hari?

ATiga kebiasaan utama: 1. Jangan membiarkan sesi menganggur lebih dari 1 jam (TTL cache). 2. Saat berganti tugas, lakukan session handoff yang jelas dan mulai sesi baru. 3. Hindari sering mengganti model, termasuk mengaktifkan mode 'opus plan', karena akan mereset cache.

QOperasi apa yang dapat secara diam-diam merusak atau mereset cache tanpa peringatan yang jelas?

ABeberapa operasi yang merusak cache: 1. Berganti model (setiap model memiliki cache sendiri). 2. Mengaktifkan mode 'opus plan' (karena melibatkan pergantian model). 3. Menggunakan perintah seperti /compact atau /clear (lebih baik mulai sesi baru dengan handoff).

QApa perbedaan TTL (Time-To-Live) cache antara Claude Code langganan, Claude API, dan Sub-agent?

AClaude Code langganan memiliki TTL cache default 1 jam. Claude API defaultnya 5 menit (dapat ditingkatkan ke 1 jam dengan biaya lebih). Sub-agent pada semua paket selalu memiliki TTL 5 menit.

Bacaan Terkait

Tiga Tahun Kemudian: Meninjau Kembali Penilaian Saya terhadap ChatGPT di Tahun 2023

Tiga tahun kemudian, pada Mei 2026, penulis meninjau kembali 20 prediksi tentang ChatGPT yang dibuatnya pada Maret 2023, menggunakan AI untuk mengevaluasi akurasinya berdasarkan data terbaru. Secara keseluruhan, arah dan mekanisme prediksi banyak yang tepat. Yang paling akurat adalah tentang RAG sebagai arsitektur standar, LUI (Antarmuka Pengguna Bahasa Alami) sebagai lapisan interaksi baru, munculnya "jaringan robot" (protokol untuk agen AI), dan kemampuan China mengejar ketertinggalan model AI besar. Prediksi bahwa ChatGPT bukan AGI namun langkah besar, tidak menyebabkan gelombang pengangguran massal, serta sifat uji Turing yang hanya mengukur persepsi juga pada dasarnya benar. Namun, prediksi dengan angka spesifik atau pernyataan mutlak sering meleset. Klaim bahwa GPT-4 memiliki 100 triliun parameter sepenuhnya salah. Pernyataan bahwa LLM "tidak mungkin" mengerjakan matematika murni terbantahkan dengan model penalaran yang memenangkan medali emas IMO. Estimasi biaya pelatihan model hanya $5-10 miliar juga jauh dari kenyataan, yang kini mencapai miliaran dolar untuk model terdepan. Beberapa prediksi keliru tentang distribusi dampak, seperti bahwa nilai akan berpindah ke lapisan aplikasi (nyatanya, penyedia chip seperti NVIDIA paling untung), atau bahwa AI akan "menghindari" masalah hak cipta (justru menimbulkan gugatan besar). Kesimpulan utama adalah: dalam memprediksi teknologi yang cepat berubah, mengidentifikasi arah dan mekanisme umumnya lebih bisa diandalkan daripada memberikan angka pasti atau pernyataan mutlak. Prediksi cenderung terlalu optimis tentang kecepatan perubahan jangka pendek, tetapi meremehkan besarnya perubahan jangka panjang. Penting juga untuk mempertimbangkan distribusi dampak, bukan hanya kesimpulan agregat. Pernyataan yang disertai batasan dan keraguan justru lebih tahan uji waktu. Beberapa pertanyaan mendasar masih belum terjawab setelah tiga tahun. Tinjauan ini berfungsi sebagai pelajaran untuk membuat prediksi yang lebih baik di tiga tahun mendatang.

marsbit4j yang lalu

Tiga Tahun Kemudian: Meninjau Kembali Penilaian Saya terhadap ChatGPT di Tahun 2023

marsbit4j yang lalu

Tiga Tahun Kemudian: Menilik Kembali Penilaian Saya terhadap ChatGPT pada 2023

Tiga tahun kemudian: Meninjau Kembali 20 Prediksi ChatGPT Saya pada 2023 Pada Maret 2023, penulis Wang Jianshuo membuat 20 prediksi intuitif tentang ChatGPT dan AI masa depan. Kini, di Mei 2026, sebuah sistem AI yang terdiri dari 41 agen menganalisis prediksi-prediksi tersebut berdasarkan data terkini. Hasilnya menunjukkan pola menarik. **Yang Terbukti Benar (Secara Umum):** * **RAG dan Arsitektur Pencarian (✅):** Solusi utama untuk pengetahuan dan halusinasi adalah dengan menambahkan "contekan" (RAG), bukan mengubah model. Arsitektur pencarian + LLM kini menjadi standar. * **LUI sebagai Benua Baru (🟢):** Antarmuka Pengguna Bahasa Alami (LUI) adalah lapisan interaksi baru yang besar, melahirkan industri agen dan protokol seperti MCP. * **Jaringan Robot dan Sistem Pengalamatan Baru (🟢):** Agen akan berkomunikasi otomatis dengan bahasa alami. Protokol seperti MCP dan ANP sedang mewujudkannya. * **Model Besar Tiongkok (🟢):** Model-model seperti DeepSeek dan Qwen telah mengejar ketertinggalan performa, meski dengan investasi lebih kecil. * **Tidak Ada Kesadaran, Tes Turing Hanya Ukur Penampilan (🟢):** AI tidak memiliki kesadaran. Tes Turing hanya mengukur ilusi kesadaran. * **Prediksi Lain yang Benar:** ChatGPT bukan AGI, tapi lompatan besar; gelombang pengangguran besar tidak terjadi; tahun besar untuk startup; momen "browser 1994" telah tiba. **Yang Kurang Tepat atau Salah:** * **Parameter GPT-4 (❌):** Prediksi 100 triliun parameter salah. Estimasi terbaru sekitar 1,8 triliun. * **Matematika di LLM (🟡):** Diagnosis bahwa matematika adalah kelemahan intrinsik dan memerlukan alat bantu benar. Namun, pernyataan "tidak mungkin" ditingkatkan terbukti salah, karena model kini bisa memenangkan medali emas Olimpiade Matematika Internasional (IMO). * **Penangkapan Nilai (🟡):** Aplikasi memang berkembang pesat, tetapi nilai terbesar justru ditangkap oleh lapisan komputasi (seperti Nvidia), bukan oleh pembuat model. * **Hak Cipta (🟡):** Konten AI sulit didaftarkan hak cipta, tetapi tidak serta-mata "menghindari" pelanggaran. Gugatan dan penyelesaian besar (misalnya, Anthropic $1,5 miliar) membuktikan risikonya. * **Biaya Model (🟡):** Prediksi "perang lokal" dengan biaya $5-10 miliar untuk model canggih terbukti salah. Biaya pelatihan model terdepan (seperti GPT-5) jauh lebih tinggi, sementara biaya kloning model terbuka justru bisa lebih murah. **Pola dan Pelajaran:** 1. **Arah dan mekanisme lebih dapat diandalkan daripada angka pasti dan pernyataan mutlak.** 2. **Cenderung terlalu optimis untuk jangka pendek (kecepatan), tetapi terlalu konservatif untuk jangka panjang (skala/dampak).** 3. **Kesalahan sering terjadi pada distribusi, bukan pada total.** Contoh: Tidak ada gelombang pengangguran masif, tetapi dampak berat dirasakan oleh lulusan baru. 4. **Pernyataan yang disertai batasan dan ruang ketidakpastian justru lebih tahan uji waktu.** 5. **Beberapa pertanyaan mendasar masih belum terjawab setelah tiga tahun.** Kesimpulannya, prediksi tentang arah besar dan mekanisme cenderung akurat, sementara prediksi spesifik tentang angka, kecepatan, dan distribusi dampak lebih sering meleset. Latihan ini lebih merupakan pelajaran dalam kerendahan hati dan penilaian yang bernuansa daripada sekadar penghitungan skor.

链捕手6j yang lalu

Tiga Tahun Kemudian: Menilik Kembali Penilaian Saya terhadap ChatGPT pada 2023

链捕手6j yang lalu

Peringatan Gelembung AI: Investasi AI Merupakan Pengembalian Negatif bagi Kebanyakan Raksasa Teknologi

Peringatan Gelembung AI: Investasi AI Membawa Pengembalian Negatif bagi Sebagian Besar Raksasa Teknologi Demam AI kini memasuki tahap pemeriksaan keuangan. Raksasa cloud seperti Microsoft, Alphabet, Amazon, Meta, dan Oracle berencana menginvestasikan ratusan miliar dolar ke pusat data AI dalam lima tahun ke depan. Namun, analisis terhadap proyeksi pendapatan dan pengeluaran modal (capex) hingga 2030 mengungkap masalah: tingkat pengembalian investasi implisit diperkirakan sangat negatif bagi semua perusahaan kecuali Amazon, bahkan dalam skenario optimis ekstrem. Ini menunjukkan bahwa jika tren saat ini berlanjut, boom AI bisa menjadi salah satu peristiwa perusakan nilai pemegang saham terbesar. Ada dua jalan keluar: pendapatan yang jauh melebihi ekspektasi saat ini, atau pengurangan rencana investasi. Jalan pertama tampaknya mustahil, karena membutuhkan tambahan pendapatan triliunan dolar. Jalan kedua—pemotongan investasi—akan berdampak luas, meruntuhkan harga saham perusahaan-perusahaan teknologi global dan dapat mendorong ekonomi AS ke resesi, mengingat 93% pertumbuhan PDB AS belakangan ini didorong oleh investasi teknologi. IPO perusahaan AI seperti OpenAI dan Anthropic tahun ini bisa menjadi mekanisme transfer risiko, memindahkan ketidakpastian dari pemilik awal kepada investor ritail dan dana pensiun. Sementara euphoria pemasaran mungkin bertahan hingga setelah IPO tahun 2026, tekanan matematika yang tak terelakkan mungkin memaksa raksasa cloud mengumumkan pemotongan investasi pada 2027 atau 2028, mirip dengan jeda tiga tahun antara peringatan "irrational exuberance" Alan Greenspan pada 1996 dan pecahnya gelembung dotcom pada 2000.

marsbit7j yang lalu

Peringatan Gelembung AI: Investasi AI Merupakan Pengembalian Negatif bagi Kebanyakan Raksasa Teknologi

marsbit7j yang lalu

Dari Token ke Tenaga Kerja Mesin: AI Sedang Berubah dari Alat Menjadi 'Pekerja'

Dari Token ke Tenaga Kerja Mesin: AI Berubah dari Alat Menjadi "Pekerja" AI mulai menulis kode, menangani tiket dukungan pelanggan, dan meninjau dokumen hukum. Artikel ini mengusulkan kerangka baru: komersialisasi AI sedang bergerak menuju "pasar tenaga kerja mesin". Dalam pasar ini, token hanyalah unit pengukuran, GPU adalah bahan baku, dan model adalah alat produksi. Objek yang benar-benar ditetapkan harganya dan diperdagangkan adalah kerja ekonomi yang diselesaikan langsung oleh perangkat lunak. Mekanisme penetapan harga AI akan berkembang dari token mentah, kemampuan model yang terstandarisasi, tenaga kerja yang terspesialisasi industri, hingga pasar hasil yang dapat diprogram. Di masa depan, perusahaan mungkin tidak lagi peduli model atau GPU mana yang menyelesaikan suatu tugas, tetapi lebih pada apakah tugas itu diselesaikan dalam batas latensi, akurasi, keandalan, dan biaya yang ditentukan. Implikasinya, dampak AI pada pasar tenaga kerja manusia tidak hanya sekadar penggantian. Saat mesin mengambil alih lebih banyak pekerjaan yang dapat distandardisasi dan diverifikasi, peran manusia mungkin bergeser ke pengawasan, penanggung jawab, manajemen konteks, dan keputusan akhir. Dalam beberapa kasus, penilaian manusia untuk 1% akhir justru menjadi lebih berharga karena dapat membuka kunci 99% otomatisasi skala besar. Pasar AI adalah pasar ekspansif. Ketika biaya kerja turun, permintaan tidak tetap. Jika interaksi dukungan pelanggan menjadi lebih murah, perusahaan dapat menawarkan layanan 24/7, menciptakan pasar interaksi pelanggan yang lebih besar. Persaingan tahap berikutnya di pasar AI mungkin bukan lagi sekadar pertarungan kemampuan model atau perang harga daya komputasi, tetapi tentang siapa yang dapat pertama kali menstandarisasi, memverifikasi, dan menetapkan harga "pekerjaan", akhirnya menjadikan tenaga kerja mesin sebagai faktor produksi baru yang dapat dibeli, diselesaikan, dan diperdagangkan.

marsbit7j yang lalu

Dari Token ke Tenaga Kerja Mesin: AI Sedang Berubah dari Alat Menjadi 'Pekerja'

marsbit7j yang lalu

Diskon 99% untuk MiMo Bukan Hanya Pemasaran! Luo Fuli Membantah Para Pengecam di X

**Ringkasan:** Xiaomi MiMo memotong harga API MiMo-V2.5 hingga **99%**, memicu spekulasi tentang perang harga atau strategi merugi. Luo Fuli, kepala MiMo, merespons dengan mempublikasikan blog teknis 5000 kata yang merinci **enam pilar teknikal** di balik potongan harga besar ini. Intinya, diskon 99% terutama untuk **Input (Cache Hit)** – bagian dimana pengguna membaca ulang konteks historis dalam percakapan panjang. Ini menjadi mungkin karena serangkaian optimasi teknikal yang mengubah biaya komputasi untuk bagian tersebut mendekati nol. **Enam Pilar Teknikal:** 1. **Arsitektur Hybrid SWA:** Menggunakan Sliding Window Attention di sebagian besar lapisan model, mengurangi volume **KVCache** (memori jangka pendek model) hingga **1/7**. 2. **Manajemen KVCache Dua Kolam:** Mengalokasikan memori secara terpisah untuk lapisan SWA dan Full Attention, benar-benar mewujudkan penghematan teoretis 1/7 dan meningkatkan jumlah pengguna yang dapat dilayani secara bersamaan. 3. **Prefix Cache yang Dioptimalkan:** Meningkatkan aturan pencocokan cache untuk arsitektur SWA, menghasilkan **tingkat keberhasilan cache 93-95%** untuk pembacaan ulang. Artinya, sebagian besar permintaan "baca ulang" tidak memerlukan komputasi GPU baru. 4. **Sistem Cache Terdistribusi GCache:** Menyimpan data cache di **SSD bawaan mesin GPU**, menghilangkan biaya penyimpanan cluster khusus dan memperpanjang masa hidup cache. 5. **Sistem Penjadwalan LLM-Router:** Mengarahkan permintaan secara cerdas berdasarkan kesamaan prefix dan panjang konteks, memprioritaskan permintaan yang menggunakan cache, meningkatkan efisiensi dan mengurangi latensi. 6. **Multi-Token Prediction (MTP):** Mengoptimalkan proses generasi output model, mempercepat pembuatan respons dan melengkapi pengurangan biaya di sisi input. **Kesimpulan:** Penurunan harga 99% bukanlah gimmick pemasaran atau strategi merugi, tetapi hasil dari **efisiensi sistemik rekayasa AI** yang telah divalidasi di lingkungan produksi. Rantai optimasi ini secara kumulatif mengurangi biaya komputasi per permintaan hingga lebih dari 95%, memungkinkan penurunan harga ekstrem sambil mempertahankan profitabilitas. Luo Fuli menekankan bahwa ini adalah masalah teknikal yang terwujud, bukan sekadar perang harga.

marsbit9j yang lalu

Diskon 99% untuk MiMo Bukan Hanya Pemasaran! Luo Fuli Membantah Para Pengecam di X

marsbit9j yang lalu

Trading

Spot
Futures

Artikel Populer

Cara Membeli PEOPLE

Selamat datang di HTX.com! Kami telah membuat pembelian ConstitutionDAO (PEOPLE) menjadi mudah dan nyaman. Ikuti panduan langkah demi langkah kami untuk memulai perjalanan kripto Anda.Langkah 1: Buat Akun HTX AndaGunakan alamat email atau nomor ponsel Anda untuk mendaftar akun gratis di HTX. Rasakan perjalanan pendaftaran yang mudah dan buka semua fitur.Dapatkan Akun SayaLangkah 2: Buka Beli Kripto, lalu Pilih Metode Pembayaran AndaKartu Kredit/Debit: Gunakan Visa atau Mastercard Anda untuk membeli ConstitutionDAO (PEOPLE) secara instan.Saldo: Gunakan dana dari saldo akun HTX Anda untuk melakukan trading dengan lancar.Pihak Ketiga: Kami telah menambahkan metode pembayaran populer seperti Google Pay dan Apple Pay untuk meningkatkan kenyamanan.P2P: Lakukan trading langsung dengan pengguna lain di HTX.Over-the-Counter (OTC): Kami menawarkan layanan yang dibuat khusus dan kurs yang kompetitif bagi para trader.Langkah 3: Simpan ConstitutionDAO (PEOPLE) AndaSetelah melakukan pembelian, simpan ConstitutionDAO (PEOPLE) di akun HTX Anda. Selain itu, Anda dapat mengirimkannya ke tempat lain melalui transfer blockchain atau menggunakannya untuk memperdagangkan mata uang kripto lainnya.Langkah 4: Lakukan trading ConstitutionDAO (PEOPLE)Lakukan trading ConstitutionDAO (PEOPLE) dengan mudah di pasar spot HTX. Cukup akses akun Anda, pilih pasangan perdagangan, jalankan trading, lalu pantau secara real-time. Kami menawarkan pengalaman yang ramah pengguna baik untuk pemula maupun trader berpengalaman.

630 Total TayanganDipublikasikan pada 2024.12.12Diperbarui pada 2025.03.21

Cara Membeli PEOPLE

Diskusi

Selamat datang di Komunitas HTX. Di sini, Anda bisa terus mendapatkan informasi terbaru tentang perkembangan platform terkini dan mendapatkan akses ke wawasan pasar profesional. Pendapat pengguna mengenai harga PEOPLE (PEOPLE) disajikan di bawah ini.

活动图片