Tác giả: xiyu
Muốn dùng Claude Opus 4.6 nhưng không muốn hóa đơn cuối tháng nổ tung? Bài này giúp bạn cắt giảm 60-85% chi phí.
1. Token tiêu ở đâu?
Bạn nghĩ token chỉ là "lời bạn nói + lời AI trả lời"? Thực tế còn hơn thế.
Chi phí ẩn mỗi cuộc hội thoại:
-
System Prompt (~3000-5000 tokens): Lệnh cốt lõi của OpenClaw, không thể sửa
-
Tiêm tệp ngữ cảnh (~3000-14000 tokens): AGENTS.md, SOUL.md, MEMORY.md, v.v., mang theo mỗi cuộc hội thoại — đây là khoản chi ẩn lớn nhất
-
Tin nhắn lịch sử: Càng chat càng dài
-
Đầu vào của bạn + Đầu ra của AI: Đây mới là "tất cả" mà bạn nghĩ
Một câu "Hôm nay thời tiết thế nào?" đơn giản, thực tế tiêu thụ 8000-15000 input tokens. Dùng Opus tính toán, chỉ riêng ngữ cảnh đã tốn $0.12-0.22.
Cron còn tệ hơn: Mỗi lần kích hoạt = hội thoại mới hoàn toàn = tiêm lại toàn bộ ngữ cảnh. Một cron chạy mỗi 15 phút, một ngày 96 lần, dưới Opus một ngày $10-20.
Heartbeat tương tự: Bản chất cũng là gọi hội thoại, khoảng cách càng ngắn càng đốt tiền.
2. Phân tầng Model: Sonnet Hàng ngày, Opus Quan trọng
Chiêu tiết kiệm số một, hiệu quả mạnh nhất. Định giá Sonnet khoảng 1/5 Opus, 80% nhiệm vụ hàng ngày hoàn toàn đủ dùng.
markdown
Prompt:
Hãy giúp tôi đổi model mặc định của OpenClaw thành Claude Sonnet,
chỉ sử dụng Opus khi cần phân tích sâu hoặc sáng tạo.
Cụ thể cần:
1) Đặt model mặc định là Sonnet
2) Nhiệm vụ cron mặc định dùng Sonnet
3) Chỉ指定定 các nhiệm vụ viết lách, phân tích sâu dùng Opus
Trường hợp dùng Opus: Viết văn dài, mã phức tạp, suy luận nhiều bước, nhiệm vụ sáng tạo
Trường hợp dùng Sonnet: Trò chuyện hàng ngày, hỏi đáp đơn giản, kiểm tra cron, heartbeat, thao tác tệp, dịch thuật
Kiểm tra thực tế: Sau khi chuyển đổi, chi phí hàng tháng giảm 65%, trải nghiệm hầu như không khác biệt.
3. Tinh gọn Ngữ cảnh: Cắt bỏ Kẻ ngốn Token Ẩn
"Nhiễu nền" mỗi lần gọi có thể 3000-14000 tokens. Tinh giản các tệp tiêm vào là tối ưu hóa hiệu quả nhất.
markdown
Prompt:
Giúp tôi tinh giản các tệp ngữ cảnh của OpenClaw để tiết kiệm token.
Bao gồm cụ thể: 1) Xóa các phần không cần thiết trong AGENTS.md (quy tắc group chat, TTS, chức năng không dùng), nén trong 800 tokens
2) Tinh giản SOUL.md thành các điểm chính ngắn gọn, 300-500 tokens
3) Dọn dẹp thông tin hết hạn trong MEMORY.md, kiểm soát trong 2000 tokens
4) Kiểm tra cấu hình workspaceFiles, loại bỏ các tệp tiêm vào không cần thiết
Quy tắc kinh nghiệm: Cứ giảm 1000 tokens tiêm vào, tính 100 lần gọi Opus mỗi ngày, tiết kiệm hàng tháng khoảng $45.
4. Tối ưu Cron: Sát thủ chi phí ẩn nhất
markdown
Prompt: Giúp tôi tối ưu các nhiệm vụ cron của OpenClaw để tiết kiệm token.
Hãy:
1) Liệt kê tất cả nhiệm vụ cron cùng tần suất và model
2) Hạ cấp tất cả nhiệm vụ không sáng tạo xuống Sonnet
3) Gộp các nhiệm vụ cùng khung giờ (ví dụ: gộp nhiều kiểm tra thành một)
4) Giảm tần suất cao không cần thiết (kiểm tra hệ thống từ 10 phút xuống 30 phút, kiểm tra phiên bản từ 3 lần/ngày xuống 1 lần/ngày)
5) Cấu hình delivery thành thông báo theo nhu cầu, bình thường không gửi tin nhắn
Nguyên tắc cốt lõi: Không phải càng thường xuyên càng tốt, hầu hết nhu cầu "thời gian thực" là nhu cầu giả. Gộp 5 kiểm tra độc lập thành 1 lần gọi, tiết kiệm 75% chi phí tiêm ngữ cảnh.
5. Tối ưu Heartbeat
markdown
Prompt: Giúp tôi tối ưu cấu hình heartbeat OpenClaw:
1) Đặt khoảng cách giờ làm việc thành 45-60 phút
2) Đặt 23:00-08:00 đêm khuya thành thời gian im lặng
3) Tinh giản HEARTBEAT.md xuống số dòng tối thiểu
4) Gộp các nhiệm vụ kiểm tra rải rác vào heartbeat để thực hiện hàng loạt
6. Truy xuất Chính xác: Dùng qmd Tiết kiệm 90% Input Token
Khi agent tra cứu tài liệu, mặc định "đọc toàn văn" — một tệp 500 dòng 3000-5000 tokens, nhưng nó chỉ cần 10 dòng trong đó. 90% input token bị lãng phí.
qmd là công cụ truy xuất ngữ nghĩa cục bộ, thiết lập chỉ mục toàn văn + vector, cho phép agent định vị chính xác đoạn văn thay vì đọc toàn bộ tệp. Tính toán hoàn toàn cục bộ, chi phí API bằng không.
Sử dụng kết hợp với mq (Mini Query): Xem trước cấu trúc thư mục, trích xuất đoạn văn chính xác, tìm kiếm từ khóa — mỗi lần chỉ đọc 10-30 dòng cần thiết.
markdown
Prompt:
Giúp tôi cấu hình truy xuất kho kiến thức qmd để tiết kiệm token.
Địa chỉ Github: https://github.com/tobi/qmd
Cần:
1) Cài đặt qmd
2) Thiết lập chỉ mục cho thư mục làm việc
3) Thêm quy tắc truy xuất vào AGENTS.md, buộc agent ưu tiên dùng qmd/mq tìm kiếm thay vì read toàn văn trực tiếp
4) Thiết lập cập nhật chỉ mục định kỳ
Hiệu quả kiểm tra: Mỗi lần tra cứu từ 15000 tokens giảm xuống 1500 tokens, giảm 90%.
Khác biệt với memorySearch: memorySearch quản lý "ký ức" (MEMORY.md), qmd quản lý "tra cứu tài liệu" (kho kiến thức tùy chỉnh), không ảnh hưởng lẫn nhau.
7. Lựa chọn Memory Search
markdown
Prompt: Giúp tôi cấu hình memorySearch cho OpenClaw.
Nếu tệp ký ức của tôi không nhiều (vài chục md),
nên dùng embedding cục bộ hay Voyage AI?
Hãy giải thích sự khác biệt về chi phí và chất lượng truy xuất của từng loại.
Kết luận đơn giản: Ít tệp ký ức dùng embedding cục bộ (chi phí bằng không), nhu cầu đa ngôn ngữ cao hoặc nhiều tệp dùng Voyage AI (miễn phí 200 triệu token mỗi tài khoản).
8. Danh sách Cấu hình Tối cùng
markdown
Prompt:
Hãy giúp tôi tối ưu hóa cấu hình OpenClaw một lần để tiết kiệm token tối đa, thực hiện theo danh sách sau:
Đổi model mặc định thành Sonnet, chỉ giữ nhiệm vụ sáng tạo/phân tích dùng Opus
Tinh giản AGENTS.md / SOUL.md / MEMORY.md
Hạ cấp tất cả nhiệm vụ cron xuống Sonnet + Gộp + Giảm tần suất
Khoảng cách Heartbeat 45 phút + Im lặng ban đêm
Cấu hình truy xuất chính xác qmd thay thế đọc toàn văn
workspaceFiles chỉ giữ lại các tệp cần thiết
Định kỳ tinh giản tệp ký ức, kiểm soát MEMORY.md trong 2000 tokens
Cấu hình một lần, hưởng lợi lâu dài:
1. Phân tầng model — Sonnet hàng ngày, Opus quan trọng, tiết kiệm 60-80%
2. Tinh gọn ngữ cảnh — Tinh giản tệp + truy xuất chính xác qmd, tiết kiệm 30-90% input token
3. Giảm gọi — Gộp cron, kéo dài heartbeat, bật thời gian im lặng
Sonnet 4 đã rất mạnh, dùng hàng ngày không cảm thấy khác biệt. Khi thực sự cần Opus thì chuyển qua là được.
Dựa trên kinh nghiệm thực chiến hệ thống đa agent, dữ liệu là giá trị ước tính đã khử nhạy cảm.








