Agentic Design Patterns: Một cuốn sách khiến tôi hiểu lại 'Agent thực sự là gì'

链捕手Xuất bản vào 2026-05-25Cập nhật gần nhất vào 2026-05-25

Tóm tắt

Tác giả Yanhua chia sẻ những hiểu biết sâu sắc từ cuốn sách "Agentic Design Patterns" của Antonio Gullí (Google), giúp định nghĩa lại "Agent thực sự là gì". Cuốn sách phân loại AI Agent thành 4 cấp độ: - **Cấp 0 (Không phải Agent):** LLM thuần túy, không công cụ, không hành động. - **Cấp 1 (Dùng công cụ):** Tự nhận thức khi cần và biết sử dụng công cụ (tìm kiếm, API). - **Cấp 2 (Suy nghĩ chiến lược):** Có khả năng lập kế hoạch và "Context Engineering" - tinh chỉnh ngữ cảnh để tối ưu hiệu quả, cùng với phản ánh (Reflection) để tự sửa lỗi. - **Cấp 3 (Đa tác nhân):** Nhiều Agent cộng tác như một đội, với các cấu trúc giao tiếp khác nhau. Bài viết nhấn mạnh ba khái niệm then chốt: 1. **Context Engineering:** Quan trọng hơn Prompt Engineering, tập trung vào việc chuẩn bị thông tin ngữ cảnh (system prompt, dữ liệu bên ngoài, ngầm định, vòng phản hồi) cho Agent một cách tinh gọn. 2. **Reflection (Mô hình Producer-Critic):** Sử dụng hai Agent riêng biệt (một sản xuất, một phê bình) trong một vòng lặp để tự động cải thiện chất lượng đầu ra, áp dụng cho viết code, lập kế hoạch... 3. **Bộ nhớ ba lớp:** Cần phân tách bộ nhớ thành Session (phiên), State (trạng thái tạm thời của tác vụ) và Memory (lưu trữ lâu dài) để quản lý hiệu quả. Thông điệp chính: Thay vì vội xây dựng hệ thống đa Agent phức tạp (Cấp 3), hãy tập trung phát triển Agent đơn lẻ lên Cấp 2 trước bằng cách áp dụng Reflection và Context Engineering. Cuốn sách cung cấp bản đồ các mẫu thiết kế đã được kiểm chứng, giúp nhà...

Tác giả:Yanhua

Antonio Gullí là Giám đốc Kỹ thuật tại Google. Ông đã viết một cuốn sách 453 trang, phân tách việc phát triển AI Agent thành 21 mẫu thiết kế.

Nhưng đây không phải là một bài đánh giá sách. Động cơ tôi đọc cuốn sách này rất cụ thể: Tôi đã viết về Harness Engineering, viết về kinh nghiệm lỗi với Clawdbot, viết bài 'AI Agent không phải ma thuật' từ việc đốt Token đến bảy bước ngoặt thực sự hữu ích, mỗi lần viết xong đều có một câu hỏi chưa được nghĩ thấu đáo hoàn toàn:Có phải đằng sau những thứ này là một logic nền tảng có thể tái sử dụng không?

Cuốn sách này đã cho tôi câu trả lời, và sâu sắc hơn tôi nghĩ.

Thứ bạn viết có thể hoàn toàn không phải là Agent

Nhận định khốc liệt nhất của cuốn sách ẩn trong phần lời nói đầu.

'AI' mà hầu hết mọi người đang sử dụng chỉ là Level 0: LLM trần, không có công cụ, không có bộ nhớ, không biết hành động. Bạn hỏi nó phim nào sẽ đoạt giải Oscar năm 2025, nó đoán mò. Sách viết rất thẳng thắn:Thứ Level 0, không phải là Agent.

Đi lên trên mới là Agent thực sự:

  • Level 1: Người sử dụng công cụ

    Agent bắt đầu sử dụng công cụ: tìm kiếm, API, cơ sở dữ liệu. Nhưng nó không chỉ là 'có thể gọi API', mà còn phải tự đánh giá khi nào nên gọi, gọi cái gì, kết quả dùng thế nào. Sách đưa ra một ví dụ rất cụ thể: người dùng hỏi 'Gần đây có phim mới nào hay?', Agent tự nhận thức thông tin này không có trong dữ liệu huấn luyện, chủ động gọi công cụ tìm kiếm để tìm, rồi tổng hợp kết quả. Bước quan trọng nằm ở 'tự nhận thức'. Không phải con người bảo nó 'bạn tìm kiếm đi', mà là nó tự đánh giá cần phải tìm. Khả năng đánh giá này, là ngưỡng cửa của Level 1.

  • Level 2: Người suy nghĩ chiến lược

    Thêm hai thứ: lập kế hoạch và Context Engineering. Sách định nghĩa Context Engineering: không phải chất đống thông tin, mà là lựa chọn, cắt gọt, đóng gói ngữ cảnh một cách tinh tế. Ví dụ rất hay: người dùng muốn tìm quán cà phê giữa hai địa điểm. Agent đầu tiên gọi công cụ bản đồ để lấy một đống dữ liệu, rồi tự đánh giá 'bước tiếp theo chỉ cần tên đường', cắt đầu ra bản đồ thành một danh sách ngắn, rồi đưa cho công cụ tìm kiếm địa phương. Mỗi bước đều đang thực hiện giảm nhiễu thông tin.

    Sách có một câu tôi đã đọc đi đọc lại nhiều lần: 'Để AI đạt được độ chính xác cao nhất, phải cho nó ngữ cảnh ngắn gọn, tập trung, mạnh mẽ.' Context Engineering chính là làm việc này.

    Đến cấp độ này, Agent còn có thể tự phản ánh. Sau khi hoàn thành công việc tự xem xét lại một lần, phát hiện vấn đề tự sửa. Tôi sẽ nói chi tiết hơn ở phần sau.

  • Level 3: Đa Agent cộng tác

    Quan điểm của sách rất rõ ràng: đừng suốt ngày nghĩ đến việc tạo ra một super agent toàn năng. Cách làm thực sự đáng tin cậy là giống như xây dựng một đội, Agent quản lý dự án + Agent nghiên cứu + Agent thiết kế + Agent soạn thảo văn bản. Ví dụ trong sách là ra mắt sản phẩm mới: một 'Agent quản lý dự án' làm tổng điều phối, phân công nhiệm vụ cho 'Agent nghiên cứu thị trường', 'Agent thiết kế sản phẩm', 'Agent marketing'. Điểm quan trọng là giao tiếp: các Agent truyền dữ liệu như thế nào, đồng bộ trạng thái ra sao, xử lý xung đột thế nào. Chương này vẽ sáu cấu trúc liên kết giao tiếp, từ đơn Agent đơn giản nhất đến hỗn hợp tùy chỉnh linh hoạt nhất, mỗi loại phù hợp với tình huống nào đều có giải thích.

Xem hết bốn cấp độ này, tôi bỗng hiểu tại sao nhiều người nói 'Agent của tôi không tốt'. Mô hình không có vấn đề, vấn đề là bạn đang sử dụng nó như một chatbot, nó có thể còn chưa đến Level 1.

Context Engineering: Khái niệm bị đánh giá thấp nhất trong sách

Tôi đã viết một bài về Harness Engineering, nói rằng thiết kế đường đua quan trọng hơn sức ngựa động cơ. Sau khi đọc cuốn sách này tôi phát hiện, Context Engineering chính là ánh xạ của Harness Engineering ở cấp độ prompt.

Prompt Engineering truyền thống chỉ quản lý 'bạn hỏi như thế nào'. Context Engineering trong sách quản lý 'trước khi hỏi, trước mắt Agent đang có gì'. Nó bao gồm bốn lớp thông tin:

  1. Lớp thứ nhất, system prompt. Xác định Agent là ai, giọng điệu gì, ranh giới nào. Hầu hết mọi người chỉ viết lớp này.

  2. Lớp thứ hai, dữ liệu bên ngoài. Tài liệu được truy xuất bởi RAG, giá trị trả về từ việc gọi công cụ, dữ liệu API thời gian thực. Đây là nơi hầu hết mọi người bị kẹt: biết phải cung cấp dữ liệu, nhưng không biết cách cung cấp sao cho không làm chìm đắm mô hình.

  3. Lớp thứ ba, dữ liệu ngầm. Danh tính người dùng, lịch sử tương tác, trạng thái môi trường. Những thứ bạn không nói rõ nhưng Agent nên biết. Ví dụ, bạn nói với Agent 'Giúp tôi gửi email xác nhận cuộc họp ngày mai cho John', nó nên biết cuộc họp ngày mai trong lịch của bạn là gì, mối quan hệ giữa bạn và John thế nào.

  4. Lớp thứ tư, vòng lặp phản hồi. Sau mỗi lần đầu ra, Agent tự động đánh giá chất lượng, điều chỉnh chiến lược ngữ cảnh cho lần sau. Sách gọi đây là 'tối ưu hóa context tự động', Vertex AI Prompt Optimizer của Google là triển khai kỹ thuật hóa theo hướng suy nghĩ này.

Khi tôi đọc đến đây đã nhớ lại bài viết trước đó 'AI Agent không phải ma thuật', trong đó có một kinh nghiệm là 'Agent của bạn cần quy tắc, và là rất nhiều quy tắc'. Nhìn lại bây giờ, về bản chất những quy tắc đó chính là phiên bản thủ công của Context Engineering, sách đã hệ thống hóa nó.

Reflection: Hai Agent thực sự tốt hơn một

Đây là một Pattern có giá trị thực chiến nhất với tôi trong cả cuốn sách.

Core của Reflection rất đơn giản: Agent tự xem xét lại công việc sau khi hoàn thành, tự phát hiện vấn đề tự sửa. Nhưng cách thức thực hiện có điểm cần chú ý. Sách nói rất rõ:Producer và Critic phải sử dụng hai Agent khác nhau, với system prompt khác nhau. Cùng một persona xem xét lại thứ của chính mình, chắc chắn có điểm mù. Bạn để cùng một LLM viết code trước rồi tự xem xét lại code mình viết, nó rất có thể sẽ nói 'khá tốt'.

Sách đưa ra một ví dụ code hoàn chỉnh.

  • Prompt của Producer là 'Bạn là một lập trình viên Python, viết một hàm tính giai thừa, xử lý điều kiện biên và ngoại lệ'.

  • Prompt của Critic là 'Bạn là một kỹ sư cấp cao cực kỳ khắt khe, xem xét code từng dòng, kiểm tra Bug, phong cách, điều kiện biên bị bỏ sót, những điểm có thể cải thiện. Nếu hoàn hảo thì xuất ra CODE_IS_PERFECT, ngược lại liệt kê tất cả vấn đề'.

  • Sau đó là một vòng lặp for: Producer viết code → Critic xem xét → Producer sửa theo ý kiến → Critic xem xét lại → cho đến khi Critic nói CODE_IS_PERFECT hoặc đạt số lần lặp tối đa.

Đơn giản như vậy thôi. Nhưng sách nhắc nhở một vấn đề chi phí dễ bị bỏ qua: mỗi vòng lặp phản ánh là một lần gọi LLM mới, càng lặp nhiều càng đắt. Và khi lịch sử hội thoại phình ra, cửa sổ ngữ cảnh bị các phiên bản trước đó và ý kiến phê bình chiếm hết, không gian suy luận thực sự có thể dùng đang thu hẹp lại. Vì vậy best practice của Reflection là:Đặt một số lần lặp tối đa hợp lý (sách dùng 3), một khi Critic hài lòng thì dừng, đừng theo đuổi sự hoàn hảo.

Ứng dụng xa hơn việc viết code. Viết bài, lập kế hoạch, tóm tắt tài liệu, giải quyết bài toán logic, mô hình Producer-Critic đều có thể áp dụng. Sách liệt kê bảy loại tình huống ứng dụng, logic core giống nhau: đầu tiên tạo ra, sau đó xem xét, rồi chỉnh sửa.

Multi-Agent không phải càng phức tạp càng tốt

Trong chương Multi-Agent Collaboration, tôi thích nhất là sáu sơ đồ cấu trúc liên kết giao tiếp đó. Nhiều người ngay từ đầu đã làm phức tạp, nhưng thực tế hầu hết tình huống chỉ cần ba loại là đủ:

  1. Single Agent (thực hiện độc lập): Nhiệm vụ có thể tách thành các vấn đề con không phụ thuộc lẫn nhau, mỗi Agent tự giải quyết của mình. Đơn giản, dễ bảo trì.

  2. Mạng ngang hàng (Peer-to-Peer): Các Agent giao tiếp trực tiếp với nhau, không có nút điều khiển trung tâm. Phi tập trung, khả năng chịu lỗi cao, một Agent hỏng không ảnh hưởng toàn cục. Nhưng chi phí phối hợp cao, dễ lộn xộn.

  3. Giám sát viên (Supervisor - trung tâm điều phối): Một Agent Supervisor quản lý một nhóm Agent Worker. Phân công nhiệm vụ, thu thập kết quả, giải quyết xung đột. Cấp bậc rõ ràng, dễ quản lý. Nhưng Supervisor là điểm hỏng duy nhất, cũng là nút cổ chai hiệu suất.

Ba loại còn lại (Supervisor-as-Tool, phân cấp, hỗn hợp tùy chỉnh) là biến thể và tổ hợp của ba loại trước. Sách nói rất thực tế:Cấu trúc liên kết bạn cần phụ thuộc vào độ phức tạp nhiệm vụ của bạn. Nhiệm vụ càng tách nhỏ, chi phí giao tiếp càng cao, đến một mức độ nhất định, mô hình Supervisor thực ra hiệu quả hơn mô hình phân cấp.

Cảm nhận của tôi là, nhiều người khi xây dựng Multi-Agent đã dành 80% thời gian trên giao thức giao tiếp, quên hỏi một câu hỏi cơ bản hơn: Nhiệm vụ này thực sự cần nhiều Agent không? Sách viết rất rõ, Single Agent Level 2 + Reflection thường đã đủ dùng. Level 3 là dành cho những tình huống mà Single Agent thực sự không thể giải quyết.

Mô hình Memory ba lớp, trước đây tôi đã cảm nhận mơ hồ nhưng chưa đặt tên

Chương Memory này tôi thấy đồng cảm nhất, vì khi viết hai bài về Obsidian + Claude, tôi đã luôn suy nghĩ một vấn đề: Bộ nhớ của Agent nên phân lớp như thế nào?

Sách đưa ra câu trả lời:

  1. Session (lớp phiên làm việc): Cửa sổ ngữ cảnh của cuộc hội thoại hiện tại, đây là bộ nhớ ngắn nhất, hết phiên là mất. Mô hình ngữ cảnh dài chỉ phóng to cửa sổ này, nhưng về bản chất vẫn là tạm thời, và mỗi lần suy luận phải xử lý toàn bộ cửa sổ, vừa đắt vừa chậm.

  2. State (lớp trạng thái): Dữ liệu tạm thời đang diễn ra trong nhiệm vụ hiện tại. Ví dụ 'nhiệm vụ đang làm là gì', 'đã hoàn thành đến bước nào', 'giữa chừng sinh ra dữ liệu gì'. Dài hơn Session, nhưng kết thúc nhiệm vụ là dọn dẹp, sách dùng cơ chế State của Google ADK để làm ví dụ hoàn chỉnh.

  3. Memory (lớp bền vững): Bộ nhớ dài hạn xuyên phiên, xuyên nhiệm vụ. Sở thích người dùng, kinh nghiệm học được, quyết định lịch sử quan trọng, lưu trữ trong cơ sở dữ liệu hoặc vector database, truy xuất ngữ nghĩa. Sách nhấn mạnh một điểm rất quan trọng: Memory không chỉ là lưu lại, mà còn phải thiết kế cả một bộ chiến lược về 'lưu cái gì, khi nào lưu, truy xuất thế nào'. Lưu quá nhiều thì nhiễu lớn, lưu quá ít thì không đủ dùng.

Trước đây tôi viết bài về Clawdbot có đề cập đến 'file trạng thái' và 'tài liệu workspace', về bản chất chính là đang xây dựng thủ công lớp State và lớp Memory, sách đã đóng khung hóa việc này.

Năm giả định, cái thứ năm quái đản nhất

Cuối sách đề cập năm giả định về tương lai của Agent, bốn cái đầu vẫn nằm trong phạm vi suy diễn hợp lý: Agent đa năng từ viết code đến quản lý dự án, cá nhân hóa sâu chủ động phát hiện nhu cầu của bạn, trí tuệ thể chất bước ra khỏi màn hình vào thế giới vật lý, Agent trở thành thực thể kinh tế độc lập.

Cái thứ năm làm tôi chấn động:Multi-Agent có thể biến hình.

Bạn chỉ tuyên bố mục tiêu, ví dụ 'làm một doanh nghiệp thương mại điện tử bán cà phê đặc sản'. Hệ thống tự động quyết định: đầu tiên tạo ra 'Agent nghiên cứu thị trường' và 'Agent thương hiệu'. Chạy một vòng dữ liệu xong, tự đánh giá Agent thương hiệu không cần nữa, tách thành ba Agent mới: 'Agent thiết kế Logo', 'Agent xây dựng website', 'Agent chuỗi cung ứng'. Nếu Agent xây dựng website trở thành nút cổ chai, hệ thống sẽ tự động nhân bản ra ba Agent song song cùng làm các trang khác nhau. Trong suốt quá trình, hệ thống liên tục tự động tối ưu prompt của mỗi Agent, không ngừng tổ chức lại cấu trúc đội.

Sách gọi đây là 'hệ thống đa Agent tự biến hình, dẫn dắt bởi mục tiêu'. Nó không phải đang thực hiện kế hoạch bạn viết, mà là tự tạo kế hoạch, tự điều chỉnh kế hoạch, tự tổ chức lại đội ngũ thực hiện.

Điều này làm tôi nhớ đến AutoResearch của Karpathy: viết một program.md, định nghĩa mục tiêu, chỉ số, ranh giới, nhấn 'Khởi động'. Con người ở bên ngoài vòng lặp. Nhưng cuốn sách này đẩy xa hơn: ngay cả việc đội Agent được thành lập thế nào, tổ chức lại ra sao, đều giao cho hệ thống tự quyết định. Con người chỉ tuyên bố 'muốn gì'.

Ba việc có thể làm ngay

Sau khi đọc xong cuốn sách, tôi có ba hành động có thể triển khai ngay:

  • Thứ nhất, thêm một Critic cho Agent hiện tại của bạn. Bất kể bạn dùng Claude Code, CrewAI hay framework tự xây dựng, hãy thêm một bước ở cuối workflow hiện có: để một Agent khác (với system prompt khác) xem xét lại đầu ra của bước trước. Tạo code thì thêm xem xét code, viết bài thì thêm kiểm tra sự thật, lập kế hoạch thì thêm đánh giá tính khả thi. Tăng thêm một lần gọi LLM, nhưng chất lượng thường tăng gấp đôi. Mô hình Producer-Critic trong sách là plug-and-play.

  • Thứ hai, bắt đầu làm Context Engineering, không chỉ là Prompt Engineering. Xem lại file hướng dẫn bạn viết cho Agent. Nếu toàn là quy tắc 'bạn phải làm thế nào', thiếu ngữ cảnh 'bạn đang đối mặt với môi trường gì', hãy bổ sung. Nói cho Agent biết nó đang ở dự án nào, trước đây đã quyết định gì, sở thích người dùng là gì. Chương Context Engineering trong sách và file AGENTS.md của bạn là hai cách diễn đạt của cùng một việc.

  • Thứ ba, đừng vội sử dụng Multi-Agent. Hãy làm cho Single Agent của bạn đạt Level 2: có công cụ, có Reflection, có Memory. Sách nhấn mạnh đi nhấn mạnh lại, Single Agent Level 2 cộng với Producer-Critic và Context Engineering, có thể bao phủ tuyệt đại đa số tình huống thực tế. Level 3 là dành cho những nhiệm vụ thực sự đa lĩnh vực, nhiều giai đoạn, cần phân công song song. Vấn đề của hầu hết mọi người không phải là không đủ Agent, mà là một Agent còn chưa được điều chỉnh tốt.

Cuốn sách này 453 trang, Springer xuất bản năm 2025. Ví dụ code bao phủ LangChain/LangGraph, Google ADK, CrewAI, OpenAI API. Lời nói đầu do Google Cloud AI VP viết, còn có một lời giới thiệu từ CIO của Goldman Sachs, ngoài dự đoán là hay.

Nhưng lý do tôi giới thiệu nó không phải là 'toàn diện'. Là bạn sẽ nhận ra một điều sau khi đọc xong: những cái hố bạn đã vấp trên Agent trong nửa năm qua, đều có người tổng hợp thành mẫu rồi. Bạn không cần phải phát minh lại Reflection, không cần phải đoán Memory nên phân lớp như thế nào, không cần phải thử xem Multi-Agent nên dùng cấu trúc liên kết giao tiếp nào.

Đã có người vẽ bản đồ thay bạn, phần còn lại là bước đi.

Bạn có đang dùng AI Agent để phát triển không? Agent hiện tại của bạn đang ở Level mấy?

Câu hỏi Liên quan

QTác giả nhận định điều gì về phần lớn 'AI' mà mọi người đang sử dụng trong sách?

ATác giả nhận định phần lớn 'AI' mọi người đang sử dụng chỉ là 'Level 0': chỉ là mô hình ngôn ngữ lớn thuần túy, không có công cụ, không có trí nhớ, không biết hành động. Sách nói thẳng: những thứ ở Level 0 không phải là Agent.

QContext Engineering trong sách được định nghĩa thế nào và nó quan trọng ra sao so với Prompt Engineering truyền thống?

AContext Engineering là việc quản lý 'trước khi hỏi, Agent đang có gì trước mắt', bao gồm bốn lớp thông tin: system prompt, dữ liệu bên ngoài, dữ liệu ngầm và vòng lặp phản hồi. Nó quan trọng vì không chỉ là 'bạn hỏi gì' (Prompt Engineering), mà là quản lý môi trường và bối cảnh để Agent đưa ra quyết định chính xác hơn, tránh bị ngập trong thông tin.

QMô hình Reflection (Phản ánh) trong sách được khuyến nghị triển khai ra sao để hiệu quả nhất?

AMô hình Reflection hiệu quả nhất cần sử dụng hai Agent khác nhau: một Producer (tạo ra) và một Critic (phê bình), với các system prompt khác nhau để tránh điểm mù. Quy trình là một vòng lặp: Producer tạo đầu ra → Critic đánh giá → Producer sửa theo phản hồi → lặp lại cho đến khi Critic hài lòng hoặc đạt số lần lặp tối đa (sách khuyến nghị tối đa 3 lần). Cần tránh theo đuổi sự hoàn hảo vì chi phí token sẽ tăng cao.

QSách phân loại bộ nhớ (Memory) của Agent thành mấy lớp? Hãy nêu tên và mô tả ngắn gọn từng lớp.

ASách phân loại bộ nhớ của Agent thành ba lớp: 1) Session (Lớp phiên): Bộ nhớ ngắn hạn trong cửa sổ ngữ cảnh hiện tại, hết phiên là mất. 2) State (Lớp trạng thái): Dữ liệu tạm thời trong quá trình thực hiện một nhiệm vụ cụ thể, sẽ bị xóa khi nhiệm vụ kết thúc. 3) Memory (Lớp bền vững): Bộ nhớ dài hạn xuyên phiên, xuyên nhiệm vụ, được lưu trữ trong cơ sở dữ liệu hoặc vector database để truy xuất ngữ nghĩa.

QTheo bài viết, ba hành động có thể thực hiện ngay sau khi đọc sách này là gì?

ABa hành động có thể thực hiện ngay là: 1) Thêm một Critic Agent vào workflow hiện có để kiểm tra và cải thiện chất lượng đầu ra. 2) Bắt đầu thực hành Context Engineering, bổ sung ngữ cảnh môi trường cho Agent thay vì chỉ tập trung vào Prompt Engineering. 3) Tập trung hoàn thiện một Agent đơn lẻ lên Level 2 (có công cụ, Reflection, Memory) trước khi vội vàng xây dựng hệ thống Multi-Agent phức tạp.

Nội dung Liên quan

Từ Token đến Lao động Máy móc: AI đang chuyển từ Công cụ thành 'Người lao động'

Từ công cụ thành "công nhân": AI đang trở thành lực lượng lao động máy móc Bài viết phân tích sự chuyển dịch trong thị trường AI: từ việc bán token hay giờ GPU đơn thuần, sang một thị trường "lao động máy móc" mới, nơi chính công việc được hoàn thành bởi phần mềm trở thành đối tượng được định giá và giao dịch. Tác giả dự đoán cơ chế định giá AI sẽ phát triển qua bốn giai đoạn: token thô -> thị trường năng lực LLM tiêu chuẩn hóa -> thị trường lao động theo ngành -> thị trường kết quả có thể lập trình. Trong tương lai, doanh nghiệp có thể không còn quan tâm công việc do model hay GPU cụ thể nào thực hiện, mà chỉ quan tâm liệu nó có được giao đúng tiêu chuẩn về độ trễ, độ chính xác, độ tin cậy và chi phí hay không. Điều này cũng làm thay đổi vai trò của con người, chuyển sang giám sát, chịu trách nhiệm, quản lý ngữ cảnh và đưa ra phán quyết cuối cùng - những yếu tố có thể trở nên có giá trị hơn. Bài viết nhấn mạnh AI không chỉ đơn thuần thay thế lao động mà mở rộng thị trường tổng thể. Khi chi phí công việc giảm, nhu cầu có thể tăng lên, tạo ra những loại hình công việc và dịch vụ mới khả thi về mặt kinh tế. Thị trường lao động máy móc sẽ bắt đầu từ những công việc có thể được xác định rõ ràng và đo lường được, hướng tới việc biến lao động máy móc thành một yếu tố sản xuất mới có thể được thu mua, thanh toán và giao dịch.

marsbit7 phút trước

Từ Token đến Lao động Máy móc: AI đang chuyển từ Công cụ thành 'Người lao động'

marsbit7 phút trước

Việc giảm giá 99% của Xiaomi MiMo không phải là chiêu trò marketing! Luo Fuli đăng X để phản bác những kẻ bi quan

Trong bài viết, tác giả phân tích động thái giảm giá API lên tới 99% cho dòng MiMo-V2.5 của Xiaomi và phản bác các ý kiến cho rằng đây chỉ là chiến lược marketing hay "bán lỗ cướp thị trường". Lộ Phúc Lợi, người đứng đầu MiMo, đã công bố một blog kỹ thuật dài 5000 chữ để giải thích cơ sở kỹ thuật của mức giá mới. Bài viết mô tả sáu trụ cột công nghệ chính cho phép mức giảm giá này: 1. **Kiến trúc Hybrid SWA (Sliding Window Attention):** Giảm dung lượng bộ nhớ tạm (KVCache) xuống còn 1/7 so với Full Attention truyền thống. 2. **Quản lý KVCache hai bể riêng biệt:** Tối ưu hóa việc phân bổ bộ nhớ để triệt để tận dụng lợi thế của SWA, tăng gấp 5 lần số lượng người dùng đồng thời. 3. **Hệ thống tiền tố cache được cải tiến:** Đảm bảo an toàn và nâng cao tỷ lệ trúng cache lên tới 93-95%, khiến phần lớn yêu cầu đọc lặp lại hầu như không cần tính toán lại. 4. **Hệ thống lưu trữ phân tán GCache:** Triển khai trực tiếp trên ổ SSD của máy GPU, giảm chi phí lưu trữ xuống gần bằng 0. 5. **Hệ thống điều phối LLM-Router:** Tối ưu định tuyến và lập lịch, ưu tiên các yêu cầu có cache, tăng hiệu suất tổng thể. 6. **Dự đoán đa token (MTP):** Giảm chi phí tạo văn bản (output), hoàn thiện vòng tròn giảm chi phí cho toàn bộ quá trình xử lý. Những cải tiến này, khi kết hợp, tạo ra một chuỗi tối ưu toàn diện làm giảm đáng kể chi phí tính toán và lưu trữ cho mỗi yêu cầu. Bài viết kết luận rằng mức giảm 99% không phải là con số tiếp thị, mà là kết quả có thể chứng minh của một hệ thống kỹ thuật hoàn chỉnh, một phương pháp giảm chi phí đáng để ngành tham khảo.

marsbit2 giờ trước

Việc giảm giá 99% của Xiaomi MiMo không phải là chiêu trò marketing! Luo Fuli đăng X để phản bác những kẻ bi quan

marsbit2 giờ trước

260 tỷ USD, "đội hình toàn Hoa" làm nên công ty lập trình AI có định giá cao nhất toàn cầu

260 tỷ USD, công ty lập trình AI Cognition với đội ngũ sáng lập toàn người Hoa đã trở thành công ty AI lập trình có định giá cao nhất toàn cầu sau vòng gọi vốn mới. Chỉ sau hơn 8 tháng kể từ khi đạt mốc định giá 102 tỷ USD, Cognition AI đã huy động thành công hơn 10 tỷ USD với định giá sau đầu tư lên tới 260 tỷ USD. Vòng này do các quỹ Lux Capital, General Catalyst và 8VC dẫn đầu. Cognition nổi tiếng với "kỹ sư phần mềm AI" đầu tiên trên thế giới tên là Devin. Tuy nhiên, sau khi gây sốt ban đầu, Devin vấp phải những nghi ngờ về khả năng thực sự và tỷ lệ hoàn thành nhiệm vụ không cao trong môi trường thực tế, cùng với mức giá khởi điểm cao. Bước ngoặt quan trọng giúp Cognition định hình lại câu chuyện là việc mua lại tài sản còn lại của Windsurf, một công ty IDE AI. Điều này giúp Cognition bổ sung một công cụ phát triển tích hợp AI mà các lập trình viên có thể kiểm soát trực tiếp, bên cạnh mô hình agent tự trị Devin xử lý công việc bất đồng bộ. Sự kết hợp "hai chân" này cho phép Cognition phục vụ cả nhu cầu hỗ trợ viết code hàng ngày và nhu cầu tự động hóa các tác vụ kỹ thuật có thể ủy thác cho doanh nghiệp. Dữ liệu tăng trưởng ấn tượng - lượng sử dụng doanh nghiệp tăng hơn 10 lần trong năm nay, run-rate doanh thu đạt 492 triệu USD - cùng danh sách khách hàng lớn như Goldman Sachs, Mercedes-Benz, NASA, Lục quân & Hải quân Mỹ đã thuyết phục các nhà đầu tư. Họ không chỉ nhìn thấy một công cụ cho lập trình viên, mà là tiềm năng trở thành hạ tầng cơ sở mới cho kỹ thuật phần mềm doanh nghiệp trong kỷ nguyên AI.

marsbit2 giờ trước

260 tỷ USD, "đội hình toàn Hoa" làm nên công ty lập trình AI có định giá cao nhất toàn cầu

marsbit2 giờ trước

Phân tích lại thao tác thần thánh của chị gỗ trên Circle

Trong bài viết này, tác giả phân tích những thao tác đầu tư "thần thánh" của Cathie Wood (biệt danh "Mũi tên gỗ") vào cổ phiếu Circle (CRCL), từ khi công ty này lên sàn IPO. Wood đã thực hiện một loạt động thái chính xác: đăng ký mua cổ phiếu với giá phát hành 31 USD, bán ra một phần ở mức giá cao khoảng 210 USD khi cổ phiếu tăng mạnh nhờ tác động từ dự luật ổn định, và mua lại khi giá giảm sâu xuống vùng 80-130 USD. Bài viết nhấn mạnh ba bài học chính từ chiến lược của Wood: 1. **Có quan điểm độc lập về triển vọng dài hạn:** Bà tin tưởng vào mô hình kinh doanh của Circle và vị thế của USDC trong cơ sở hạ tầng tài chính số, điều này dẫn dắt mọi quyết định mua/bán. 2. **Giao dịch theo từng giai đoạn, không cố đoán đỉnh/đáy:** Wood bán ra và mua vào thành nhiều lần ở các mức giá khác nhau, tạo thành một đường cong "bán cao, mua thấp" rõ ràng thay vì cố gắng chọn thời điểm hoàn hảo. 3. **Kỷ luật về tỷ trọng danh mục:** Quy tắc tái cân bằng khi một cổ phiếu vượt quá 10% trong danh mục đã buộc bà chốt lời khi giá tăng quá cao và giữ lại tiền mặt để mua lại khi giá giảm. Tác giả cảnh báo rằng việc "đuổi đỉnh" ngay khi IPO (như giá mở cửa 69 USD và đỉnh 299 USD) là rất rủi ro cho các nhà đầu tư nhỏ lẻ, vì họ dễ mua ở vùng giá bị đẩy lên cao do mất cân bằng cung-cầu tạm thời. Thành công của Wood đến từ lợi thế giá phát hành, tầm nhìn, và kỷ luật mà người thường thường thiếu.

marsbit6 giờ trước

Phân tích lại thao tác thần thánh của chị gỗ trên Circle

marsbit6 giờ trước

CEO của Sharplink: Tương lai của Ethereum đang diễn ra

Tác giả Joseph Chalom, cựu giám đốc điều hành tại BlackRock và hiện là CEO của Sharplink, nhấn mạnh rằng các tranh cãi quanh Ethereum Foundation (EF) và giá ETH đang làm lu mờ bức tranh lớn hơn. Ông cho rằng Ethereum đang chiến thắng trong việc xây dựng cơ sở hạ tầng tài chính tương lai nhờ ba yếu tố then chốt mà các tổ chức cần: niềm tin, bảo mật và tính thanh khoản. Ethereum hiện dẫn đầu trong việc quyết toán giá trị stablecoin toàn cầu, tài sản thế giới thực được mã hóa (RWA) và các giao dịch DeFi giá trị cao. Những thành tựu này là kết quả của lộ trình phát triển kỹ thuật nghiêm ngặt kéo dài một thập kỷ từ EF, với các bản nâng cấp lớn như The Merge, EIP-1559, Dencun và hướng tới khả năng mở rộng theo cấp số nhân cùng khả năng chống lượng tử. Chalom bác bỏ ý kiến cho rằng tính phi tập trung là điểm yếu, mà khẳng định đó chính là lợi thế then chốt thu hút các tổ chức, vì họ cần một hệ thống trung lập, đáng tin cậy không bị kiểm soát bởi một bên duy nhất. Ông so sánh Ethereum với Amazon thời kỳ đầu, khi tiềm năng thực sự nằm ở việc chiếm lĩnh thị trường tài chính toàn cầu chứ không chỉ là giao dịch tiền mã hóa. Ông kêu gọi cách tiếp cận "khi người khác sợ hãi, tôi tham lam" – đầu tư vào tài sản chất lượng như ETH trong thời kỳ bi quan của thị trường, giống như chiến lược của Buffett hay BlackRock. Cuối cùng, Chalom cho rằng cộng đồng Ethereum cần lên tiếng mạnh mẽ hơn để thúc đẩy việc áp dụng Ethereum bởi các tổ chức, và Sharplink cùng các đối tác đang tích cực đầu tư và ủng hộ cho tương lai này.

marsbit6 giờ trước

CEO của Sharplink: Tương lai của Ethereum đang diễn ra

marsbit6 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片