Menghemat 3 Miliar Token dalam Seminggu, Panduan Caching Kode Claude oleh Insinyur Anthropic
**Panduan Menghemat Token dengan Cache di Claude Code: Tips dari Engineer Anthropic**
Banyak pengguna Claude Code merasa kuota token cepat habis, terutama dalam sesi panjang. Namun, dari perspektif engineer Anthropic, biaya sebenarnya seringkali bukan ditentukan oleh banyaknya kode yang ditulis, melainkan oleh seberapa baik sistem dapat menggunakan kembali konteks yang sudah diproses.
Inti artikel ini adalah cara menghemat token melalui mekanisme **cache**. Penulis berhasil menghemat lebih dari 300 juta token dalam seminggu, dengan 91 juta token di-cache dalam satu hari. Biaya token yang di-cache hanya **10%** dari biaya token input biasa, sehingga 91 juta token cache setara dengan biaya sekitar 9 juta token biasa. Sesi panjang Claude Code terasa lebih "tahan lama" karena konteks yang berulang berhasil digunakan kembali, bukan karena model bekerja gratis.
**Bagaimana Cache Bekerja?**
Cache beroperasi dengan prinsip **cocokkan awalan (prefix matching)**. Claude akan menyimpan lapisan konteks yang berbeda (sistem, proyek, percakapan) ke dalam cache. Selama awalan permintaan berikutnya tetap sama, Claude dapat membaca dari cache alih-alih memproses ulang seluruh konteks.
**Hal Penting yang Perlu Diketahui:**
* **Biaya:** Token cache hanya dikenakan biaya 10% dari token input biasa.
* **Durasi Cache (TTL):** Untuk Claude Code berlangganan, cache bertahan **1 jam**. Untuk API default dan Sub-agent, TTL-nya **5 menit**.
* **Lapisan Cache:** Terdiri dari lapisan sistem (instruksi dasar, alat), lapisan proyek (CLAUDE.md, aturan), dan lapisan percakapan (riwayat chat).
**Kebiasaan untuk Mengoptimalkan Cache (95% Pengguna):**
1. **Jangan jeda terlalu lama:** Jika sesi menganggur lebih dari 1 jam, cache akan kedaluwarsa. Lebih baik mulai sesi baru dengan handoff yang jelas.
2. **Ganti tugas, mulai ulang:** Saat beralih tugas, lakukan reset bersih (misalnya dengan `/clear`) dan gunakan "session handoff" untuk meringkas progres sebelumnya ke sesi baru. Ini lebih efisien daripada memaksa melanjutkan sesi yang sudah "dingin".
3. **Untuk dokumen besar, gunakan Projects:** Di Claude.ai, masukkan dokumen besar ke dalam **Projects** alih-alih menempelkannya berulang kali di chat, karena Projects memiliki optimasi cache yang lebih baik.
**Aktivitas yang Merusak Cache:**
* **Beralih model** (misalnya dari Sonnet ke Opus) akan menghapus cache karena setiap model memiliki cache sendiri.
* **Mengaktifkan mode "Opus plan"** juga melibatkan pergantian model (dari Opus ke Sonnet) sehingga mereset cache.
* Mengedit CLAUDE.md di tengah sesi *tidak* langsung merusak cache saat itu; perubahan akan berlaku saat sesi dimulai ulang.
**Kesimpulan:**
Anda tidak perlu memahami semua detail teknis cache. Fokus pada prinsip 80/20: token cache jauh lebih murah, TTL Claude Code adalah 1 jam, hindari pergantian model untuk menjaga cache, dan lakukan handoff yang rapi antar tugas untuk efisiensi maksimal. Dengan mengadopsi kebiasaan ini, Anda dapat memperpanjang sesi coding secara signifikan dan membuat kuota token lebih hemat.
marsbit1j yang lalu