Tiết kiệm 300 triệu Token trong một tuần, Hướng dẫn Caching của Kỹ sư Anthropic cho Claude Code

marsbitXuất bản vào 2026-05-24Cập nhật gần nhất vào 2026-05-24

Tóm tắt

Bài viết chia sẻ cách tiết kiệm token khi sử dụng Claude Code thông qua cơ chế cache prompt. Tác giả tiết kiệm được 3 tỷ token trong một tuần, với 91 triệu token cache mỗi ngày. Token được cache có chi phí chỉ bằng 10% token thông thường, giúp kéo dài phiên làm việc và giảm đáng kể chi phí. Cache hoạt động dựa trên nguyên tắc khớp tiền tố (prefix matching) và được chia thành ba lớp: hệ thống, dự án và hội thoại. Để tối ưu, người dùng nên tránh gián đoạn cache bằng cách: không để phiên trống quá 1 giờ (TTL mặc định của Claude Code), chuyển đổi nhiệm vụ một cách rõ ràng thay vì dùng lệnh /clear, và đưa tài liệu lớn vào Projects thay vì dán trực tiếp vào hội thoại. Các thao tác như chuyển đổi mô hình hay bật chế độ "Opus plan" sẽ đặt lại toàn bộ cache. Hiểu và duy trì tỷ lệ cache hit cao có lợi cho cả người dùng và nhà cung cấp, giúp tiết kiệm chi phí và cải thiện hiệu suất.

Biên tập viên lưu ý: Nhiều người khi sử dụng Claude Code có cảm nhận trực quan nhất là Token tiêu hao quá nhanh, các phiên dài rất dễ hết hạn mức. Nhưng từ góc nhìn của các kỹ sư Anthropic, thứ thực sự ảnh hưởng đến chi phí, thường không phải là bạn đã viết bao nhiêu mã, mà là hệ thống có liên tục tái sử dụng ngữ cảnh đã xử lý hay không.

Điểm cốt lõi được chia sẻ trong bài viết này, chính là cách tiết kiệm Token thông qua cơ chế caching. Tác giả đã tái sử dụng hơn 300 triệu Token thông qua caching trong một tuần, lượng cache trong một ngày đạt 91 triệu. Do chi phí của Token cache chỉ bằng 10% so với Token đầu vào thông thường, điều này có nghĩa là 91 triệu Token cache thực tế tính phí tương đương với khoảng 9 triệu Token thông thường. Lý do các phiên dài của Claude Code có vẻ "bền" hơn, không phải vì mô hình làm việc miễn phí, mà là do một lượng lớn ngữ cảnh lặp lại đã được tái sử dụng thành công.

Chìa khóa của Prompt caching nằm ở việc "không làm gián đoạn cache". Claude Code sẽ lưu cache theo tầng cho prompt hệ thống, định nghĩa công cụ, CLAUDE.md, quy tắc dự án và lịch sử hội thoại; chỉ cần tiền tố của yêu cầu tiếp theo giữ nguyên, Claude có thể đọc trực tiếp từ cache, thay vì xử lý lại toàn bộ ngữ cảnh. Anthropic nội bộ cũng sẽ giám sát tỷ lệ tái sử dụng prompt cache, bởi vì nó không chỉ ảnh hưởng đến hạn mức người dùng, mà còn liên quan trực tiếp đến chi phí dịch vụ mô hình và hiệu quả vận hành.

Đối với người dùng thông thường, không cần phải hiểu tất cả các chi tiết nền tảng, chỉ cần nắm vững một vài thói quen quan trọng: không để phiên rảnh rỗi quá 1 giờ; khi chuyển đổi nhiệm vụ, hãy thực hiện tốt việc bàn giao phiên (session handoff); tránh chuyển đổi mô hình quá thường xuyên; các tài liệu lớn nên đưa vào Projects, thay vì dán đi dán lại vào cuộc hội thoại.

Bài viết này, hơn là nói về một mẹo tiết kiệm Token, có thể nói là cung cấp một bộ phương pháp sử dụng Claude Code gần hơn với tư duy kỹ sư: coi ngữ cảnh như tài sản cần quản lý, để cache được tái sử dụng liên tục, để các phiên dài ít phải tính toán lặp lại.

Dưới đây là bản gốc:

Tuần này tôi đã tiết kiệm được 300 triệu Token, 91 triệu trong một ngày, hơn 300 triệu trong một tuần.

Tôi không thay đổi bất kỳ cài đặt nào. Đây chỉ là prompt caching đang hoạt động bình thường ở phía hậu trường.

Nhưng khi tôi thực sự hiểu cache là gì, và làm thế nào để tránh "làm gián đoạn" cache, dưới cùng một hạn mức sử dụng, các phiên của tôi có thể kéo dài hơn. Vì vậy, đây là hướng dẫn nhập môn 80/20 về prompt caching của Claude Code, không liên quan đến các chi tiết sâu ở cấp độ API.

TL;DR

Chi phí của Token cache chỉ bằng 10% so với Token đầu vào thông thường. 91 triệu Token cache, thực tế tính phí tương đương với khoảng 9 triệu Token.

TTL cache của phiên bản đăng ký Claude Code là 1 giờ; API mặc định là 5 phút; Sub-agent luôn là 5 phút.

Cache được chia thành ba tầng: tầng hệ thống, tầng dự án, tầng hội thoại.

Chuyển đổi mô hình giữa phiên sẽ phá hủy cache, bao gồm cả việc bật chế độ "opus plan".

Cache thực sự được tính tiền như thế nào?

Mỗi Token được cache, chi phí đều bằng 10% so với Token đầu vào thông thường.

Vì vậy, khi bảng điều khiển của tôi hiển thị một ngày nào đó có 91 triệu Token trúng cache, thực tế tính phí chỉ tương đương với việc xử lý khoảng 9 triệu Token. Đây cũng là lý do tại sao so với việc không có cache, khi sử dụng Claude Code trong thời gian dài, sẽ khiến người ta cảm thấy phiên hội thoại gần như được kéo dài "miễn phí".

Có hai con số trong bảng điều khiển đáng để chú ý:

Cache create: Chi phí một lần phát sinh khi ghi nội dung vào cache. Nó sẽ bắt đầu phát huy tác dụng trong lượt hội thoại tiếp theo.
Cache read: Token mà Claude tái sử dụng từ cache, chẳng hạn như CLAUDE.md, định nghĩa công cụ, tin nhắn trước đó của bạn, v.v. So với việc xử lý lại như đầu vào, chi phí rẻ hơn 10 lần.

Nếu con số Cache read của bạn cao, điều đó có nghĩa là bạn đang tận dụng cache hiệu quả; nếu con số này thấp, có nghĩa là bạn đang trả phí lặp lại cho cùng một loạt ngữ cảnh.

Thariq của Anthropic có một câu nói khiến tôi ấn tượng sâu sắc: "Chúng tôi thực sự sẽ giám sát tỷ lệ trúng cache của prompt, một khi tỷ lệ trúng quá thấp, sẽ kích hoạt cảnh báo, thậm chí tuyên bố sự cố cấp độ SEV."

Anh ấy cũng đã viết một bài X rất hay. Khi tỷ lệ trúng cache cao, bốn điều sẽ xảy ra đồng thời: Claude Code cảm giác nhanh hơn, chi phí dịch vụ của Anthropic giảm xuống, hạn mức đăng ký của bạn trở nên bền hơn, và các phiên lập trình dài cũng trở nên khả thi hơn.

Nhưng nếu tỷ lệ trúng thấp, mọi người đều sẽ chịu thiệt.

Vì vậy, động lực của cả hai bên thực ra là nhất quán: Anthropic muốn tỷ lệ trúng cache của bạn cao hơn, và bản thân bạn cũng muốn tỷ lệ trúng cao hơn. Thứ thực sự kéo chân lại, chỉ là một số thói quen nhỏ tưởng chừng không đáng kể, nhưng lại âm thầm đặt lại cache.

Cache tăng trưởng như thế nào trong mỗi lượt hội thoại?

Cache phụ thuộc vào prefix matching, tức là "khớp tiền tố".

Bạn không cần sa vào quá sâu các chi tiết kỹ thuật, chỉ cần hiểu một điểm: chỉ cần nội dung trước một vị trí nào đó hoàn toàn giống với nội dung đã được cache, Claude có thể tái sử dụng phần Token cache này.

Một phiên hội thoại hoàn toàn mới, về cơ bản sẽ diễn ra như sau:

Theo tài liệu Claude Code, một phiên hoàn toàn mới thường chạy như thế này:

Lượt hội thoại thứ nhất: Chưa có bất kỳ cache nào. Prompt hệ thống, ngữ cảnh dự án của bạn (ví dụ: CLAUDE.md, memory, quy tắc), cũng như tin nhắn đầu tiên của bạn, tất cả đều sẽ được xử lý lại một lần và ghi vào cache.

Lượt hội thoại thứ hai: Tất cả nội dung trong lượt đầu tiên hiện đã được cache. Claude chỉ cần xử lý phản hồi mới của bạn và tin nhắn tiếp theo. Chi phí lượt này sẽ thấp hơn nhiều.

Lượt hội thoại thứ ba: Logic tương tự. Các cuộc hội thoại trước đó vẫn được giữ trong cache, chỉ có lượt tương tác mới nhất cần được xử lý lại.

Bản thân cache có thể được chia thành ba tầng:

Từ bài viết X của Thariq:

Tầng hệ thống (System layer): Bao gồm hướng dẫn cơ bản, định nghĩa công cụ (read, write, bash, grep, glob) và phong cách đầu ra. Tầng này được cache toàn cục.

Tầng dự án (Project layer): Bao gồm CLAUDE.md, memory, quy tắc dự án. Tầng này được cache theo dự án.

Tầng hội thoại (Conversation): Bao gồm phản hồi và tin nhắn, sẽ tăng liên tục theo mỗi lượt hội thoại.

Nếu giữa phiên hội thoại, bất kỳ nội dung nào của tầng hệ thống hoặc tầng dự án thay đổi, tất cả nội dung phải được cache lại từ đầu. Đây là thao tác "đắt" nhất. Hãy tưởng tượng: Bạn đã trò chuyện đến tin nhắn thứ 16, lúc này đột nhiên thay đổi prompt hệ thống, hoặc tạm dừng một giờ, thì tất cả Token từ tin nhắn thứ 1 trở đi đều phải được xử lý lại.

Sự nhầm lẫn giữa 1 giờ và 5 phút

Đây là điểm dễ gây hiểu lầm nhất.

Phiên bản đăng ký Claude Code: TTL mặc định là 1 giờ.

Claude API: TTL mặc định là 5 phút. Bạn có thể trả chi phí cao hơn để nâng nó lên 1 giờ.
Sub-agent dưới bất kỳ gói nào: Luôn là 5 phút.

Claude.ai trò chuyện trên web: Không có ghi chú chính thức rõ ràng. Có thể giống phiên bản đăng ký, nhưng tôi chưa xác nhận.

Vài tháng trước, nhiều người phàn nàn rằng hạn mức đăng ký Claude tiêu hao quá nhanh. Khi đó có người nghĩ rằng Anthropic đã lén giảm TTL từ 1 giờ xuống 5 phút, mà không thông báo cho người dùng. Nhưng thực tế không phải vậy, TTL của Claude Code vẫn là 1 giờ.

Vấn đề nằm ở chỗ, tài liệu của Claude Code và API được đặt riêng biệt, và bản thân hai thứ này vốn là những thứ hoàn toàn khác nhau, do đó gây ra không ít nhầm lẫn.

Nếu bạn đang chạy nhiều luồng công việc Sub-agent, hoặc sử dụng API trực tiếp, thì con số 5 phút này rất quan trọng. Nhưng đối với 95% người dùng Claude Code, thứ thực sự cần quan tâm, thực ra chỉ có cửa sổ 1 giờ đó.

Ba thói quen bao phủ 95% người dùng

Dưới đây là những phần tôi cảm thấy thực sự hữu ích trong sử dụng hàng ngày.

Đừng tạm dừng quá lâu

Nếu bạn đã rảnh rỗi hơn một giờ, nội dung trước đó về cơ bản đều đã hết hạn từ trong cache. Tin nhắn tiếp theo của bạn sẽ xây dựng lại cache. Trong trường hợp này, thay vì tiếp tục khôi phục một phiên cũ đã "nguội", việc thực hiện một lần bàn giao rõ ràng, sau đó mở một phiên mới, thường có chi phí thấp hơn.

Khi chuyển đổi nhiệm vụ, hãy bắt đầu lại trực tiếp

/compact hoặc /clear vốn dĩ sẽ phá hủy cache, vì vậy thay vì tiếp tục, hãy tận dụng thời điểm này để thực sự đặt lại một lần.

Tôi tự làm một kỹ năng session handoff, để thay thế cho /compact. Nó sẽ tổng kết những gì chúng ta đã hoàn thành, còn những quyết định nào đang chờ xử lý, những tệp nào quan trọng nhất, và tiếp theo nên tiếp tục từ đâu. Sau đó tôi thực hiện /clear, dán bản tóm tắt này vào, và có thể tiếp tục thúc đẩy như thể không có gì bị gián đoạn.

Lệnh compact đôi khi cũng chạy khá chậm. Còn kỹ năng handoff này thường hoàn thành trong chưa đầy một phút.

Trong cuộc trò chuyện Claude, tài liệu lớn hãy cố gắng đưa vào Projects

Cơ chế cache trên Claude.ai không có giải thích chính thức chi tiết, nhưng Projects rõ ràng được tối ưu hóa theo cách khác so với các chuỗi hội thoại thông thường. Vì vậy, nếu bạn muốn dán các tài liệu rất lớn, tốt nhất nên đưa chúng vào Project, thay vì nhét trực tiếp vào cuộc hội thoại.

Những thao tác nào sẽ âm thầm phá hủy cache?

Có vài việc sẽ đặt lại toàn bộ cache mà không có cảnh báo rõ ràng.

Chuyển đổi mô hình: Vì cache phụ thuộc vào khớp tiền tố, và mỗi mô hình có cache riêng của nó. Chỉ cần chuyển đổi mô hình, yêu cầu tiếp theo sẽ đọc lại toàn bộ lịch sử trong tình trạng không có lần trúng cache nào.

Chế độ "Opus plan": Cài đặt này sẽ sử dụng Opus trong giai đoạn lập kế hoạch và Sonnet trong giai đoạn thực thi. Trước đây tôi đã từng giới thiệu nó trong một số video tối ưu token, là có lý do. Nhưng cần hiểu rằng, mỗi lần chuyển đổi plan, về bản chất là một lần chuyển đổi mô hình, cũng có nghĩa là phải thiết lập lại cache. Về lâu dài, nó vẫn giúp kéo dài hạn mức phiên, nhưng bạn cần biết dưới nền tảng thực sự đang xảy ra điều gì.

Chỉnh sửa CLAUDE.md giữa phiên hội thoại là được: Sửa đổi này sẽ không có hiệu lực ngay lập tức, mà phải đợi lần khởi động lại tiếp theo mới được áp dụng. Do đó, cache đang chạy hiện tại sẽ không bị ảnh hưởng.

Bảng điều khiển Token miễn phí của tôi

Ảnh chụp màn hình tôi hiển thị trước đó, đến từ một bảng điều khiển token.

Đây là một kho lưu trữ GitHub rất đơn giản. Bạn đưa liên kết cho Claude Code, để nó triển khai trên localhost, nó sẽ đọc tất cả bản ghi phiên của bạn trong quá khứ, thay vì bắt đầu thống kê từ trạng thái trống. Bạn sẽ thấy ngay dữ liệu input, output, cache create và cache read hàng ngày.

Tuy nhiên có một điểm cần lưu ý: Bảng điều khiển này thống kê dữ liệu Token trên thiết bị cục bộ. Nếu bạn chuyển từ máy tính để bàn sang máy tính xách tay, các con số sẽ không hoàn toàn nhất quán. Mỗi thiết bị có một bộ chế độ xem thống kê riêng.

Tóm tắt

Prompt caching là một thứ có thể nghiên cứu rất sâu. Bài viết của Thariq nói đầy đủ hơn ở đây, nếu bạn muốn xem toàn cảnh, đáng để đọc.

Nhưng bạn không cần phải hiểu hoàn toàn tất cả chi tiết, mới có thể hưởng lợi từ nó. Bạn chỉ cần nắm vững 80/20 then chốt nhất: Token cache rẻ hơn 10 lần so với Token thông thường; TTL của Claude Code là 1 giờ; chuyển đổi mô hình sẽ phá hủy cache; việc thực hiện bàn giao rõ ràng giữa các nhiệm vụ, thường có lợi hơn so với việc để một phiên cũ "hết hạn" rồi lại cứng nhắc tiếp tục sử dụng.

Câu hỏi Liên quan

QBộ nhớ cache token trong Claude Code giúp tiết kiệm chi phí như thế nào?

AChi phí cho mỗi token được lưu trong bộ nhớ cache chỉ bằng 10% so với token đầu vào thông thường. Ví dụ: 91 triệu token cache sẽ chỉ được tính phí tương đương 9 triệu token thường, giúp tiết kiệm đáng kể hạn mức sử dụng.

QThời gian tồn tại (TTL) của bộ nhớ cache trong Claude Code là bao lâu?

AĐối với phiên bản đăng ký Claude Code, thời gian tồn tại mặc định của bộ nhớ cache là 1 giờ. Đối với Claude API, mặc định là 5 phút (có thể nâng lên 1 giờ với chi phí cao hơn). Còn Sub-agent luôn là 5 phút.

QNhững thao tác nào có thể làm gián đoạn hoặc đặt lại bộ nhớ cache?

ABa hành động chính có thể phá vỡ bộ nhớ cache là: 1) Chuyển đổi mô hình AI trong cuộc hội thoại. 2) Sử dụng chế độ 'Opus plan' (vì nó chuyển đổi mô hình giữa giai đoạn lập kế hoạch và thực thi). 3) Để cuộc hội thoại trống quá thời gian TTL (ví dụ: 1 giờ đối với Claude Code).

QNgười dùng nên có thói quen gì để tối đa hóa việc sử dụng bộ nhớ cache?

ABa thói quen chính là: 1) Không tạm dừng cuộc hội thoại quá lâu (trên 1 giờ). 2) Khi chuyển đổi nhiệm vụ, nên bắt đầu một phiên mới với bản tóm tắt chuyển giao thay vì cố gắng tiếp tục phiên cũ đã 'nguội'. 3) Đối với tài liệu lớn trong Claude.ai, nên đưa chúng vào Projects thay vì dán trực tiếp vào cuộc trò chuyện thông thường.

QBộ nhớ cache trong Claude Code được tổ chức thành những lớp nào?

ABộ nhớ cache được chia thành ba lớp: 1) Lớp Hệ thống (System layer): chứa hướng dẫn cơ bản, định nghĩa công cụ và phong cách đầu ra, được lưu cache toàn cục. 2) Lớp Dự án (Project layer): chứa CLAUDE.md, bộ nhớ và quy tắc dự án, được lưu cache theo từng dự án. 3) Lớp Hội thoại (Conversation layer): chứa tin nhắn và phản hồi, mở rộng theo từng lượt hội thoại.

Nội dung Liên quan

Ba năm sau: Nhìn lại nhận định của tôi về ChatGPT vào năm 2023

**Tóm tắt tiếng Việt:** Năm 2026, tác giả Vương Kiến Thạc nhìn lại 20 dự đoán của mình về ChatGPT từ năm 2023, sử dụng AI (41 agent Opus 4.8) để đối chiếu với dữ liệu thực tế. **Kết quả chính:** Phần lớn các dự đoán về **cơ chế và xu hướng** là đúng: * **Đúng:** Kiến trúc RAG + tìm kiếm trở thành chuẩn để giảm ảo giác. LUI (Giao diện ngôn ngữ tự nhiên) tạo ra một "lục địa mới" cho tương tác máy tính. Mạng lưới agent với giao thức kết nối mới đang hình thành. Trung Quốc thu hẹp khoảng cách về mô hình lớn có thể sử dụng. ChatGPT không có ý thức, vượt qua bài kiểm tra Turing nhờ biểu diễn. Nó là bước tiến lớn nhưng chưa phải AGI, chưa gây ra làn sóng thất nghiệp hàng loạt. * **Sai/Sai một phần:** Dự đoán cụ thể **GPT-4 có 100 nghìn tỷ tham số** là sai hoàn toàn (thực tế ~1.8 nghìn tỷ). Nhận định **LLM không thể tự học toán** bị bác bỏ khi các mô hình giành huy chương IMO. **Giá trị sẽ thuộc về lớp ứng dụng** bị chứng minh ngược lại khi lợi nhuận khổng lồ thuộc về lớp nền tảng tính toán (như NVIDIA). **AI có thể né tránh vấn đề bản quyền** là sai, với các vụ kiện và khoản bồi thường lớn. Dự đoán **chi phí đào tạo mô hình lớn chỉ 5-10 tỷ USD** là quá thấp so với thực tế. **Bài học rút ra:** 1. **Dự đoán xu hướng và cơ chế đáng tin cậy hơn nhiều so với các con số cụ thể hay mức độ tuyệt đối.** 2. **Có xu hướng đánh giá quá cao tốc độ thay đổi trong ngắn hạn, nhưng lại đánh giá thấp mức độ thay đổi trong dài hạn.** 3. **Sai lầm tinh vi thường nằm ở "sự phân bố":** tổng thể đúng nhưng tác động không đồng đều (ví dụ: việc làm). 4. **Những phát biểu có giới hạn, thận trọng thường đứng vững theo thời gian.** 5. **Ba năm là chưa đủ để kết luận cho một số vấn đề sâu xa** (như ý thức máy móc, sự xuất hiện năng lực). Bài viết kết luận rằng việc nhìn đúng hướng đi lớn không quá khó, nhưng thừa nhận những sai lầm trong ước tính chi tiết, tốc độ và phân bố mới là điều đáng ghi nhớ cho những dự đoán trong tương lai.

marsbit3 giờ trước

Ba năm sau: Nhìn lại nhận định của tôi về ChatGPT vào năm 2023

marsbit3 giờ trước

Ba năm sau: Nhìn lại những dự đoán của tôi về ChatGPT năm 2023

**Tóm tắt: Nhìn lại 20 dự đoán về ChatGPT năm 2023 sau 3 năm** Vào tháng 3/2023, khi ChatGPT mới xuất hiện và GPT-4 chưa ra mắt, tác giả Vương Kiến Thạc đã đưa ra 20 nhận định về tương lai của AI. Giờ đây, vào cuối tháng 5/2026, một hệ thống AI gồm 41 agent đã được sử dụng để kiểm chứng lại từng dự đoán đó dựa trên dữ liệu thực tế. **Kết quả kiểm chứng (Tính đến 5/2026):** * **Đúng/Bản chất đúng (✅/🟢):** 13/20 dự đoán. * **Một phần đúng (🟡):** 6/20 dự đoán. * **Sai (❌):** 1/20 dự đoán. **Những điểm dự đoán chính xác nổi bật:** 1. **Kiến trúc RAG & Tìm kiếm:** Dự đoán việc bổ sung kiến thức thông qua cơ chế truy xuất bên ngoài (như vector search) thay vì chỉ fine-tune model đã trở thành tiêu chuẩn. 2. **Giao diện ngôn ngữ tự nhiên (LUI):** Nhận định ChatGPT mở ra kỷ nguyên LUI, tạo ra một hệ sinh thái rộng lớn hơn cả việc phát triển model cơ bản, đã được chứng minh. 3. **Mô hình lớn Trung Quốc:** Dự báo khoảng cách về khả năng giữa các mô hình Trung Quốc và đỉnh cao thế giới sẽ thu hẹp nhanh chóng trong khoảng 3 năm đã thành hiện thực. 4. **Ý thức và Kiểm tra Turing:** Quan điểm cho rằng ChatGPT không có ý thức và bài kiểm tra Turing chỉ đánh giá biểu hiện bề ngoài vẫn vững vàng. **Những điểm dự đoán chưa chính xác hoặc sai lệch:** 1. **Tham số GPT-4 (❌):** Thông tin GPT-4 có 100 nghìn tỷ tham số là hoàn toàn sai. 2. **Khả năng toán học của LLM:** Mặc dù đúng khi cho rằng cần công cụ bổ trợ, nhưng khẳng định LLM "không thể" tự học toán thuần túy đã bị bác bỏ khi các model năm 2025 giành huy chương IMO. 3. **Nơi nắm giữ giá trị:** Dự đoán giá trị sẽ thuộc về tầng ứng dụng, còn các công ty làm model cơ bản có thể không sinh lời, đã không tính đến sự thống trị và lợi nhuận khổng lồ của NVIDIA ở tầng phần cứng tính toán. 4. **Bản quyền:** Nhận định AI có thể "né tránh" vi phạm bản quyền là sai, khi thực tế đã có những vụ kiện và dàn xếp bồi thường lớn nhất lịch sử liên quan đến dữ liệu huấn luyện. **Bài học rút ra sau 3 năm:** * **Dự đoán xu hướng và cơ chế đáng tin cậy hơn nhiều so với các con số cụ thể.** * Xu hướng chung: **Đánh giá quá lạc quan về tốc độ, nhưng lại đánh giá thấp mức độ phát triển** về lâu dài. * Sai lầm tinh vi thường nằm ở **sự phân bổ** (ví dụ: tác động việc làm lên nhóm người lao động trẻ), chứ không phải tổng thể. * **Những nhận định có giới hạn, điều kiện đi kèm thường chính xác hơn** những phát biểu tuyệt đối. * Một số câu hỏi lớn vẫn chưa có câu trả lời cuối cùng sau 3 năm. Bản tổng kết này không chỉ chấm điểm cho quá khứ, mà còn đặt ra những quy tắc cho việc dự đoán trong tương lai.

链捕手5 giờ trước

Ba năm sau: Nhìn lại những dự đoán của tôi về ChatGPT năm 2023

链捕手5 giờ trước

Cảnh báo bong bóng AI: Đầu tư vào AI mang lại lợi nhuận âm cho hầu hết các gã khổng lồ công nghệ

Bài viết cảnh báo về bong bóng đầu tư AI khi phân tích chỉ ra rằng hầu hết các gã khổng lồ công nghệ như Microsoft, Alphabet, Meta, Oracle (trừ Amazon) có thể nhận tỷ suất lợi nhuận âm từ các khoản đầu tư hàng nghìn tỷ USD vào trung tâm dữ liệu AI. Dựa trên kỳ vọng của nhà phân tích về doanh thu và chi tiêu vốn giai đoạn 2025-2030, tốc độ tăng đầu tư (~20%/năm) vượt xa tốc độ tăng doanh thu dự kiến (~15%/năm). Tác giả nhấn mạnh, đầu tư công nghệ hiện giải thích 93% tăng trưởng GDP Mỹ. Nếu các công ty cắt giảm chi tiêu, không chỉ chuỗi cung ứng (Nvidia, TSMC, ASML) bị ảnh hưởng mà nền kinh tế Mỹ có thể suy thoái, kéo theo thị trường chứng khoán lao dốc. Các IPO của OpenAI, Anthropic được xem như cách chuyển giao rủi ro từ nhà đầu tư ban đầu sang các nhà đầu tư tổ chức và cá nhân. Dù cơn sốt có thể kéo dài đến 2026 nhờ IPO, nhưng thực tế toán học khắc nghiệt (cần thêm 2-5 nghìn tỷ USD doanh thu để đạt lợi nhuận 10%) khiến việc điều chỉnh là không tránh khỏi vào 2027-2028, tương tự bong bóng dot-com những năm 2000. Câu hỏi then chốt: ai sẽ trả giá cho cuộc chạy đua cơ sở hạ tầng đắt đỏ này?

marsbit6 giờ trước

Cảnh báo bong bóng AI: Đầu tư vào AI mang lại lợi nhuận âm cho hầu hết các gã khổng lồ công nghệ

marsbit6 giờ trước

Từ Token đến Lao động Máy móc: AI đang chuyển từ Công cụ thành 'Người lao động'

Từ công cụ thành "công nhân": AI đang trở thành lực lượng lao động máy móc Bài viết phân tích sự chuyển dịch trong thị trường AI: từ việc bán token hay giờ GPU đơn thuần, sang một thị trường "lao động máy móc" mới, nơi chính công việc được hoàn thành bởi phần mềm trở thành đối tượng được định giá và giao dịch. Tác giả dự đoán cơ chế định giá AI sẽ phát triển qua bốn giai đoạn: token thô -> thị trường năng lực LLM tiêu chuẩn hóa -> thị trường lao động theo ngành -> thị trường kết quả có thể lập trình. Trong tương lai, doanh nghiệp có thể không còn quan tâm công việc do model hay GPU cụ thể nào thực hiện, mà chỉ quan tâm liệu nó có được giao đúng tiêu chuẩn về độ trễ, độ chính xác, độ tin cậy và chi phí hay không. Điều này cũng làm thay đổi vai trò của con người, chuyển sang giám sát, chịu trách nhiệm, quản lý ngữ cảnh và đưa ra phán quyết cuối cùng - những yếu tố có thể trở nên có giá trị hơn. Bài viết nhấn mạnh AI không chỉ đơn thuần thay thế lao động mà mở rộng thị trường tổng thể. Khi chi phí công việc giảm, nhu cầu có thể tăng lên, tạo ra những loại hình công việc và dịch vụ mới khả thi về mặt kinh tế. Thị trường lao động máy móc sẽ bắt đầu từ những công việc có thể được xác định rõ ràng và đo lường được, hướng tới việc biến lao động máy móc thành một yếu tố sản xuất mới có thể được thu mua, thanh toán và giao dịch.

marsbit6 giờ trước

Từ Token đến Lao động Máy móc: AI đang chuyển từ Công cụ thành 'Người lao động'

marsbit6 giờ trước

Việc giảm giá 99% của Xiaomi MiMo không phải là chiêu trò marketing! Luo Fuli đăng X để phản bác những kẻ bi quan

Trong bài viết, tác giả phân tích động thái giảm giá API lên tới 99% cho dòng MiMo-V2.5 của Xiaomi và phản bác các ý kiến cho rằng đây chỉ là chiến lược marketing hay "bán lỗ cướp thị trường". Lộ Phúc Lợi, người đứng đầu MiMo, đã công bố một blog kỹ thuật dài 5000 chữ để giải thích cơ sở kỹ thuật của mức giá mới. Bài viết mô tả sáu trụ cột công nghệ chính cho phép mức giảm giá này: 1. **Kiến trúc Hybrid SWA (Sliding Window Attention):** Giảm dung lượng bộ nhớ tạm (KVCache) xuống còn 1/7 so với Full Attention truyền thống. 2. **Quản lý KVCache hai bể riêng biệt:** Tối ưu hóa việc phân bổ bộ nhớ để triệt để tận dụng lợi thế của SWA, tăng gấp 5 lần số lượng người dùng đồng thời. 3. **Hệ thống tiền tố cache được cải tiến:** Đảm bảo an toàn và nâng cao tỷ lệ trúng cache lên tới 93-95%, khiến phần lớn yêu cầu đọc lặp lại hầu như không cần tính toán lại. 4. **Hệ thống lưu trữ phân tán GCache:** Triển khai trực tiếp trên ổ SSD của máy GPU, giảm chi phí lưu trữ xuống gần bằng 0. 5. **Hệ thống điều phối LLM-Router:** Tối ưu định tuyến và lập lịch, ưu tiên các yêu cầu có cache, tăng hiệu suất tổng thể. 6. **Dự đoán đa token (MTP):** Giảm chi phí tạo văn bản (output), hoàn thiện vòng tròn giảm chi phí cho toàn bộ quá trình xử lý. Những cải tiến này, khi kết hợp, tạo ra một chuỗi tối ưu toàn diện làm giảm đáng kể chi phí tính toán và lưu trữ cho mỗi yêu cầu. Bài viết kết luận rằng mức giảm 99% không phải là con số tiếp thị, mà là kết quả có thể chứng minh của một hệ thống kỹ thuật hoàn chỉnh, một phương pháp giảm chi phí đáng để ngành tham khảo.

marsbit8 giờ trước

Việc giảm giá 99% của Xiaomi MiMo không phải là chiêu trò marketing! Luo Fuli đăng X để phản bác những kẻ bi quan

marsbit8 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai

Bài viết Nổi bật

Làm thế nào để Mua PEOPLE

Chào mừng bạn đến với HTX.com! Chúng tôi đã làm cho mua ConstitutionDAO (PEOPLE) trở nên đơn giản và thuận tiện. Làm theo hướng dẫn từng bước của chúng tôi để bắt đầu hành trình tiền kỹ thuật số của bạn.Bước 1: Tạo Tài khoản HTX của BạnSử dụng email hoặc số điện thoại của bạn để đăng ký tài khoản miễn phí trên HTX. Trải nghiệm hành trình đăng ký không rắc rối và mở khóa tất cả tính năng. Nhận Tài khoản của tôiBước 2: Truy cập Mua Crypto và Chọn Phương thức Thanh toán của BạnThẻ Tín dụng/Ghi nợ: Sử dụng Visa hoặc Mastercard của bạn để mua ConstitutionDAO (PEOPLE) ngay lập tức.Số dư: Sử dụng tiền từ số dư tài khoản HTX của bạn để giao dịch liền mạch.Bên thứ ba: Chúng tôi đã thêm những phương thức thanh toán phổ biến như Google Pay và Apple Pay để nâng cao sự tiện lợi.P2P: Giao dịch trực tiếp với người dùng khác trên HTX.Thị trường mua bán phi tập trung (OTC): Chúng tôi cung cấp những dịch vụ được thiết kế riêng và tỷ giá hối đoái cạnh tranh cho nhà giao dịch.Bước 3: Lưu trữ ConstitutionDAO (PEOPLE) của BạnSau khi mua ConstitutionDAO (PEOPLE), lưu trữ trong tài khoản HTX của bạn. Ngoài ra, bạn có thể gửi đi nơi khác qua chuyển khoản blockchain hoặc sử dụng để giao dịch những tiền kỹ thuật số khác.Bước 4: Giao dịch ConstitutionDAO (PEOPLE)Giao dịch ConstitutionDAO (PEOPLE) dễ dàng trên thị trường giao ngay của HTX. Chỉ cần truy cập vào tài khoản của bạn, chọn cặp giao dịch, thực hiện giao dịch và theo dõi trong thời gian thực. Chúng tôi cung cấp trải nghiệm thân thiện với người dùng cho cả người mới bắt đầu và người giao dịch dày dạn kinh nghiệm.

Tổng lượt xem 664Xuất bản vào 2024.12.12Cập nhật vào 2025.03.21

Làm thế nào để Mua PEOPLE

Thảo luận

Chào mừng đến với Cộng đồng HTX. Tại đây, bạn có thể được thông báo về những phát triển nền tảng mới nhất và có quyền truy cập vào thông tin chuyên sâu về thị trường. Ý kiến ​​của người dùng về giá của PEOPLE (PEOPLE) được trình bày dưới đây.

活动图片