Agentic Design Patterns: Một cuốn sách khiến tôi hiểu lại 'Agent thực sự là gì'

链捕手Xuất bản vào 2026-05-25Cập nhật gần nhất vào 2026-05-25

Tóm tắt

Tác giả Yanhua chia sẻ những hiểu biết sâu sắc từ cuốn sách "Agentic Design Patterns" của Antonio Gullí (Google), giúp định nghĩa lại "Agent thực sự là gì". Cuốn sách phân loại AI Agent thành 4 cấp độ: - **Cấp 0 (Không phải Agent):** LLM thuần túy, không công cụ, không hành động. - **Cấp 1 (Dùng công cụ):** Tự nhận thức khi cần và biết sử dụng công cụ (tìm kiếm, API). - **Cấp 2 (Suy nghĩ chiến lược):** Có khả năng lập kế hoạch và "Context Engineering" - tinh chỉnh ngữ cảnh để tối ưu hiệu quả, cùng với phản ánh (Reflection) để tự sửa lỗi. - **Cấp 3 (Đa tác nhân):** Nhiều Agent cộng tác như một đội, với các cấu trúc giao tiếp khác nhau. Bài viết nhấn mạnh ba khái niệm then chốt: 1. **Context Engineering:** Quan trọng hơn Prompt Engineering, tập trung vào việc chuẩn bị thông tin ngữ cảnh (system prompt, dữ liệu bên ngoài, ngầm định, vòng phản hồi) cho Agent một cách tinh gọn. 2. **Reflection (Mô hình Producer-Critic):** Sử dụng hai Agent riêng biệt (một sản xuất, một phê bình) trong một vòng lặp để tự động cải thiện chất lượng đầu ra, áp dụng cho viết code, lập kế hoạch... 3. **Bộ nhớ ba lớp:** Cần phân tách bộ nhớ thành Session (phiên), State (trạng thái tạm thời của tác vụ) và Memory (lưu trữ lâu dài) để quản lý hiệu quả. Thông điệp chính: Thay vì vội xây dựng hệ thống đa Agent phức tạp (Cấp 3), hãy tập trung phát triển Agent đơn lẻ lên Cấp 2 trước bằng cách áp dụng Reflection và Context Engineering. Cuốn sách cung cấp bản đồ các mẫu thiết kế đã được kiểm chứng, giúp nhà...

Tác giả:Yanhua

Antonio Gullí là Giám đốc Kỹ thuật tại Google. Ông đã viết một cuốn sách 453 trang, phân tách việc phát triển AI Agent thành 21 mẫu thiết kế.

Nhưng đây không phải là một bài đánh giá sách. Động cơ tôi đọc cuốn sách này rất cụ thể: Tôi đã viết về Harness Engineering, viết về kinh nghiệm lỗi với Clawdbot, viết bài 'AI Agent không phải ma thuật' từ việc đốt Token đến bảy bước ngoặt thực sự hữu ích, mỗi lần viết xong đều có một câu hỏi chưa được nghĩ thấu đáo hoàn toàn:Có phải đằng sau những thứ này là một logic nền tảng có thể tái sử dụng không?

Cuốn sách này đã cho tôi câu trả lời, và sâu sắc hơn tôi nghĩ.

Thứ bạn viết có thể hoàn toàn không phải là Agent

Nhận định khốc liệt nhất của cuốn sách ẩn trong phần lời nói đầu.

'AI' mà hầu hết mọi người đang sử dụng chỉ là Level 0: LLM trần, không có công cụ, không có bộ nhớ, không biết hành động. Bạn hỏi nó phim nào sẽ đoạt giải Oscar năm 2025, nó đoán mò. Sách viết rất thẳng thắn:Thứ Level 0, không phải là Agent.

Đi lên trên mới là Agent thực sự:

  • Level 1: Người sử dụng công cụ

    Agent bắt đầu sử dụng công cụ: tìm kiếm, API, cơ sở dữ liệu. Nhưng nó không chỉ là 'có thể gọi API', mà còn phải tự đánh giá khi nào nên gọi, gọi cái gì, kết quả dùng thế nào. Sách đưa ra một ví dụ rất cụ thể: người dùng hỏi 'Gần đây có phim mới nào hay?', Agent tự nhận thức thông tin này không có trong dữ liệu huấn luyện, chủ động gọi công cụ tìm kiếm để tìm, rồi tổng hợp kết quả. Bước quan trọng nằm ở 'tự nhận thức'. Không phải con người bảo nó 'bạn tìm kiếm đi', mà là nó tự đánh giá cần phải tìm. Khả năng đánh giá này, là ngưỡng cửa của Level 1.

  • Level 2: Người suy nghĩ chiến lược

    Thêm hai thứ: lập kế hoạch và Context Engineering. Sách định nghĩa Context Engineering: không phải chất đống thông tin, mà là lựa chọn, cắt gọt, đóng gói ngữ cảnh một cách tinh tế. Ví dụ rất hay: người dùng muốn tìm quán cà phê giữa hai địa điểm. Agent đầu tiên gọi công cụ bản đồ để lấy một đống dữ liệu, rồi tự đánh giá 'bước tiếp theo chỉ cần tên đường', cắt đầu ra bản đồ thành một danh sách ngắn, rồi đưa cho công cụ tìm kiếm địa phương. Mỗi bước đều đang thực hiện giảm nhiễu thông tin.

    Sách có một câu tôi đã đọc đi đọc lại nhiều lần: 'Để AI đạt được độ chính xác cao nhất, phải cho nó ngữ cảnh ngắn gọn, tập trung, mạnh mẽ.' Context Engineering chính là làm việc này.

    Đến cấp độ này, Agent còn có thể tự phản ánh. Sau khi hoàn thành công việc tự xem xét lại một lần, phát hiện vấn đề tự sửa. Tôi sẽ nói chi tiết hơn ở phần sau.

  • Level 3: Đa Agent cộng tác

    Quan điểm của sách rất rõ ràng: đừng suốt ngày nghĩ đến việc tạo ra một super agent toàn năng. Cách làm thực sự đáng tin cậy là giống như xây dựng một đội, Agent quản lý dự án + Agent nghiên cứu + Agent thiết kế + Agent soạn thảo văn bản. Ví dụ trong sách là ra mắt sản phẩm mới: một 'Agent quản lý dự án' làm tổng điều phối, phân công nhiệm vụ cho 'Agent nghiên cứu thị trường', 'Agent thiết kế sản phẩm', 'Agent marketing'. Điểm quan trọng là giao tiếp: các Agent truyền dữ liệu như thế nào, đồng bộ trạng thái ra sao, xử lý xung đột thế nào. Chương này vẽ sáu cấu trúc liên kết giao tiếp, từ đơn Agent đơn giản nhất đến hỗn hợp tùy chỉnh linh hoạt nhất, mỗi loại phù hợp với tình huống nào đều có giải thích.

Xem hết bốn cấp độ này, tôi bỗng hiểu tại sao nhiều người nói 'Agent của tôi không tốt'. Mô hình không có vấn đề, vấn đề là bạn đang sử dụng nó như một chatbot, nó có thể còn chưa đến Level 1.

Context Engineering: Khái niệm bị đánh giá thấp nhất trong sách

Tôi đã viết một bài về Harness Engineering, nói rằng thiết kế đường đua quan trọng hơn sức ngựa động cơ. Sau khi đọc cuốn sách này tôi phát hiện, Context Engineering chính là ánh xạ của Harness Engineering ở cấp độ prompt.

Prompt Engineering truyền thống chỉ quản lý 'bạn hỏi như thế nào'. Context Engineering trong sách quản lý 'trước khi hỏi, trước mắt Agent đang có gì'. Nó bao gồm bốn lớp thông tin:

  1. Lớp thứ nhất, system prompt. Xác định Agent là ai, giọng điệu gì, ranh giới nào. Hầu hết mọi người chỉ viết lớp này.

  2. Lớp thứ hai, dữ liệu bên ngoài. Tài liệu được truy xuất bởi RAG, giá trị trả về từ việc gọi công cụ, dữ liệu API thời gian thực. Đây là nơi hầu hết mọi người bị kẹt: biết phải cung cấp dữ liệu, nhưng không biết cách cung cấp sao cho không làm chìm đắm mô hình.

  3. Lớp thứ ba, dữ liệu ngầm. Danh tính người dùng, lịch sử tương tác, trạng thái môi trường. Những thứ bạn không nói rõ nhưng Agent nên biết. Ví dụ, bạn nói với Agent 'Giúp tôi gửi email xác nhận cuộc họp ngày mai cho John', nó nên biết cuộc họp ngày mai trong lịch của bạn là gì, mối quan hệ giữa bạn và John thế nào.

  4. Lớp thứ tư, vòng lặp phản hồi. Sau mỗi lần đầu ra, Agent tự động đánh giá chất lượng, điều chỉnh chiến lược ngữ cảnh cho lần sau. Sách gọi đây là 'tối ưu hóa context tự động', Vertex AI Prompt Optimizer của Google là triển khai kỹ thuật hóa theo hướng suy nghĩ này.

Khi tôi đọc đến đây đã nhớ lại bài viết trước đó 'AI Agent không phải ma thuật', trong đó có một kinh nghiệm là 'Agent của bạn cần quy tắc, và là rất nhiều quy tắc'. Nhìn lại bây giờ, về bản chất những quy tắc đó chính là phiên bản thủ công của Context Engineering, sách đã hệ thống hóa nó.

Reflection: Hai Agent thực sự tốt hơn một

Đây là một Pattern có giá trị thực chiến nhất với tôi trong cả cuốn sách.

Core của Reflection rất đơn giản: Agent tự xem xét lại công việc sau khi hoàn thành, tự phát hiện vấn đề tự sửa. Nhưng cách thức thực hiện có điểm cần chú ý. Sách nói rất rõ:Producer và Critic phải sử dụng hai Agent khác nhau, với system prompt khác nhau. Cùng một persona xem xét lại thứ của chính mình, chắc chắn có điểm mù. Bạn để cùng một LLM viết code trước rồi tự xem xét lại code mình viết, nó rất có thể sẽ nói 'khá tốt'.

Sách đưa ra một ví dụ code hoàn chỉnh.

  • Prompt của Producer là 'Bạn là một lập trình viên Python, viết một hàm tính giai thừa, xử lý điều kiện biên và ngoại lệ'.

  • Prompt của Critic là 'Bạn là một kỹ sư cấp cao cực kỳ khắt khe, xem xét code từng dòng, kiểm tra Bug, phong cách, điều kiện biên bị bỏ sót, những điểm có thể cải thiện. Nếu hoàn hảo thì xuất ra CODE_IS_PERFECT, ngược lại liệt kê tất cả vấn đề'.

  • Sau đó là một vòng lặp for: Producer viết code → Critic xem xét → Producer sửa theo ý kiến → Critic xem xét lại → cho đến khi Critic nói CODE_IS_PERFECT hoặc đạt số lần lặp tối đa.

Đơn giản như vậy thôi. Nhưng sách nhắc nhở một vấn đề chi phí dễ bị bỏ qua: mỗi vòng lặp phản ánh là một lần gọi LLM mới, càng lặp nhiều càng đắt. Và khi lịch sử hội thoại phình ra, cửa sổ ngữ cảnh bị các phiên bản trước đó và ý kiến phê bình chiếm hết, không gian suy luận thực sự có thể dùng đang thu hẹp lại. Vì vậy best practice của Reflection là:Đặt một số lần lặp tối đa hợp lý (sách dùng 3), một khi Critic hài lòng thì dừng, đừng theo đuổi sự hoàn hảo.

Ứng dụng xa hơn việc viết code. Viết bài, lập kế hoạch, tóm tắt tài liệu, giải quyết bài toán logic, mô hình Producer-Critic đều có thể áp dụng. Sách liệt kê bảy loại tình huống ứng dụng, logic core giống nhau: đầu tiên tạo ra, sau đó xem xét, rồi chỉnh sửa.

Multi-Agent không phải càng phức tạp càng tốt

Trong chương Multi-Agent Collaboration, tôi thích nhất là sáu sơ đồ cấu trúc liên kết giao tiếp đó. Nhiều người ngay từ đầu đã làm phức tạp, nhưng thực tế hầu hết tình huống chỉ cần ba loại là đủ:

  1. Single Agent (thực hiện độc lập): Nhiệm vụ có thể tách thành các vấn đề con không phụ thuộc lẫn nhau, mỗi Agent tự giải quyết của mình. Đơn giản, dễ bảo trì.

  2. Mạng ngang hàng (Peer-to-Peer): Các Agent giao tiếp trực tiếp với nhau, không có nút điều khiển trung tâm. Phi tập trung, khả năng chịu lỗi cao, một Agent hỏng không ảnh hưởng toàn cục. Nhưng chi phí phối hợp cao, dễ lộn xộn.

  3. Giám sát viên (Supervisor - trung tâm điều phối): Một Agent Supervisor quản lý một nhóm Agent Worker. Phân công nhiệm vụ, thu thập kết quả, giải quyết xung đột. Cấp bậc rõ ràng, dễ quản lý. Nhưng Supervisor là điểm hỏng duy nhất, cũng là nút cổ chai hiệu suất.

Ba loại còn lại (Supervisor-as-Tool, phân cấp, hỗn hợp tùy chỉnh) là biến thể và tổ hợp của ba loại trước. Sách nói rất thực tế:Cấu trúc liên kết bạn cần phụ thuộc vào độ phức tạp nhiệm vụ của bạn. Nhiệm vụ càng tách nhỏ, chi phí giao tiếp càng cao, đến một mức độ nhất định, mô hình Supervisor thực ra hiệu quả hơn mô hình phân cấp.

Cảm nhận của tôi là, nhiều người khi xây dựng Multi-Agent đã dành 80% thời gian trên giao thức giao tiếp, quên hỏi một câu hỏi cơ bản hơn: Nhiệm vụ này thực sự cần nhiều Agent không? Sách viết rất rõ, Single Agent Level 2 + Reflection thường đã đủ dùng. Level 3 là dành cho những tình huống mà Single Agent thực sự không thể giải quyết.

Mô hình Memory ba lớp, trước đây tôi đã cảm nhận mơ hồ nhưng chưa đặt tên

Chương Memory này tôi thấy đồng cảm nhất, vì khi viết hai bài về Obsidian + Claude, tôi đã luôn suy nghĩ một vấn đề: Bộ nhớ của Agent nên phân lớp như thế nào?

Sách đưa ra câu trả lời:

  1. Session (lớp phiên làm việc): Cửa sổ ngữ cảnh của cuộc hội thoại hiện tại, đây là bộ nhớ ngắn nhất, hết phiên là mất. Mô hình ngữ cảnh dài chỉ phóng to cửa sổ này, nhưng về bản chất vẫn là tạm thời, và mỗi lần suy luận phải xử lý toàn bộ cửa sổ, vừa đắt vừa chậm.

  2. State (lớp trạng thái): Dữ liệu tạm thời đang diễn ra trong nhiệm vụ hiện tại. Ví dụ 'nhiệm vụ đang làm là gì', 'đã hoàn thành đến bước nào', 'giữa chừng sinh ra dữ liệu gì'. Dài hơn Session, nhưng kết thúc nhiệm vụ là dọn dẹp, sách dùng cơ chế State của Google ADK để làm ví dụ hoàn chỉnh.

  3. Memory (lớp bền vững): Bộ nhớ dài hạn xuyên phiên, xuyên nhiệm vụ. Sở thích người dùng, kinh nghiệm học được, quyết định lịch sử quan trọng, lưu trữ trong cơ sở dữ liệu hoặc vector database, truy xuất ngữ nghĩa. Sách nhấn mạnh một điểm rất quan trọng: Memory không chỉ là lưu lại, mà còn phải thiết kế cả một bộ chiến lược về 'lưu cái gì, khi nào lưu, truy xuất thế nào'. Lưu quá nhiều thì nhiễu lớn, lưu quá ít thì không đủ dùng.

Trước đây tôi viết bài về Clawdbot có đề cập đến 'file trạng thái' và 'tài liệu workspace', về bản chất chính là đang xây dựng thủ công lớp State và lớp Memory, sách đã đóng khung hóa việc này.

Năm giả định, cái thứ năm quái đản nhất

Cuối sách đề cập năm giả định về tương lai của Agent, bốn cái đầu vẫn nằm trong phạm vi suy diễn hợp lý: Agent đa năng từ viết code đến quản lý dự án, cá nhân hóa sâu chủ động phát hiện nhu cầu của bạn, trí tuệ thể chất bước ra khỏi màn hình vào thế giới vật lý, Agent trở thành thực thể kinh tế độc lập.

Cái thứ năm làm tôi chấn động:Multi-Agent có thể biến hình.

Bạn chỉ tuyên bố mục tiêu, ví dụ 'làm một doanh nghiệp thương mại điện tử bán cà phê đặc sản'. Hệ thống tự động quyết định: đầu tiên tạo ra 'Agent nghiên cứu thị trường' và 'Agent thương hiệu'. Chạy một vòng dữ liệu xong, tự đánh giá Agent thương hiệu không cần nữa, tách thành ba Agent mới: 'Agent thiết kế Logo', 'Agent xây dựng website', 'Agent chuỗi cung ứng'. Nếu Agent xây dựng website trở thành nút cổ chai, hệ thống sẽ tự động nhân bản ra ba Agent song song cùng làm các trang khác nhau. Trong suốt quá trình, hệ thống liên tục tự động tối ưu prompt của mỗi Agent, không ngừng tổ chức lại cấu trúc đội.

Sách gọi đây là 'hệ thống đa Agent tự biến hình, dẫn dắt bởi mục tiêu'. Nó không phải đang thực hiện kế hoạch bạn viết, mà là tự tạo kế hoạch, tự điều chỉnh kế hoạch, tự tổ chức lại đội ngũ thực hiện.

Điều này làm tôi nhớ đến AutoResearch của Karpathy: viết một program.md, định nghĩa mục tiêu, chỉ số, ranh giới, nhấn 'Khởi động'. Con người ở bên ngoài vòng lặp. Nhưng cuốn sách này đẩy xa hơn: ngay cả việc đội Agent được thành lập thế nào, tổ chức lại ra sao, đều giao cho hệ thống tự quyết định. Con người chỉ tuyên bố 'muốn gì'.

Ba việc có thể làm ngay

Sau khi đọc xong cuốn sách, tôi có ba hành động có thể triển khai ngay:

  • Thứ nhất, thêm một Critic cho Agent hiện tại của bạn. Bất kể bạn dùng Claude Code, CrewAI hay framework tự xây dựng, hãy thêm một bước ở cuối workflow hiện có: để một Agent khác (với system prompt khác) xem xét lại đầu ra của bước trước. Tạo code thì thêm xem xét code, viết bài thì thêm kiểm tra sự thật, lập kế hoạch thì thêm đánh giá tính khả thi. Tăng thêm một lần gọi LLM, nhưng chất lượng thường tăng gấp đôi. Mô hình Producer-Critic trong sách là plug-and-play.

  • Thứ hai, bắt đầu làm Context Engineering, không chỉ là Prompt Engineering. Xem lại file hướng dẫn bạn viết cho Agent. Nếu toàn là quy tắc 'bạn phải làm thế nào', thiếu ngữ cảnh 'bạn đang đối mặt với môi trường gì', hãy bổ sung. Nói cho Agent biết nó đang ở dự án nào, trước đây đã quyết định gì, sở thích người dùng là gì. Chương Context Engineering trong sách và file AGENTS.md của bạn là hai cách diễn đạt của cùng một việc.

  • Thứ ba, đừng vội sử dụng Multi-Agent. Hãy làm cho Single Agent của bạn đạt Level 2: có công cụ, có Reflection, có Memory. Sách nhấn mạnh đi nhấn mạnh lại, Single Agent Level 2 cộng với Producer-Critic và Context Engineering, có thể bao phủ tuyệt đại đa số tình huống thực tế. Level 3 là dành cho những nhiệm vụ thực sự đa lĩnh vực, nhiều giai đoạn, cần phân công song song. Vấn đề của hầu hết mọi người không phải là không đủ Agent, mà là một Agent còn chưa được điều chỉnh tốt.

Cuốn sách này 453 trang, Springer xuất bản năm 2025. Ví dụ code bao phủ LangChain/LangGraph, Google ADK, CrewAI, OpenAI API. Lời nói đầu do Google Cloud AI VP viết, còn có một lời giới thiệu từ CIO của Goldman Sachs, ngoài dự đoán là hay.

Nhưng lý do tôi giới thiệu nó không phải là 'toàn diện'. Là bạn sẽ nhận ra một điều sau khi đọc xong: những cái hố bạn đã vấp trên Agent trong nửa năm qua, đều có người tổng hợp thành mẫu rồi. Bạn không cần phải phát minh lại Reflection, không cần phải đoán Memory nên phân lớp như thế nào, không cần phải thử xem Multi-Agent nên dùng cấu trúc liên kết giao tiếp nào.

Đã có người vẽ bản đồ thay bạn, phần còn lại là bước đi.

Bạn có đang dùng AI Agent để phát triển không? Agent hiện tại của bạn đang ở Level mấy?

Câu hỏi Liên quan

QTác giả nhận định điều gì về phần lớn 'AI' mà mọi người đang sử dụng trong sách?

ATác giả nhận định phần lớn 'AI' mọi người đang sử dụng chỉ là 'Level 0': chỉ là mô hình ngôn ngữ lớn thuần túy, không có công cụ, không có trí nhớ, không biết hành động. Sách nói thẳng: những thứ ở Level 0 không phải là Agent.

QContext Engineering trong sách được định nghĩa thế nào và nó quan trọng ra sao so với Prompt Engineering truyền thống?

AContext Engineering là việc quản lý 'trước khi hỏi, Agent đang có gì trước mắt', bao gồm bốn lớp thông tin: system prompt, dữ liệu bên ngoài, dữ liệu ngầm và vòng lặp phản hồi. Nó quan trọng vì không chỉ là 'bạn hỏi gì' (Prompt Engineering), mà là quản lý môi trường và bối cảnh để Agent đưa ra quyết định chính xác hơn, tránh bị ngập trong thông tin.

QMô hình Reflection (Phản ánh) trong sách được khuyến nghị triển khai ra sao để hiệu quả nhất?

AMô hình Reflection hiệu quả nhất cần sử dụng hai Agent khác nhau: một Producer (tạo ra) và một Critic (phê bình), với các system prompt khác nhau để tránh điểm mù. Quy trình là một vòng lặp: Producer tạo đầu ra → Critic đánh giá → Producer sửa theo phản hồi → lặp lại cho đến khi Critic hài lòng hoặc đạt số lần lặp tối đa (sách khuyến nghị tối đa 3 lần). Cần tránh theo đuổi sự hoàn hảo vì chi phí token sẽ tăng cao.

QSách phân loại bộ nhớ (Memory) của Agent thành mấy lớp? Hãy nêu tên và mô tả ngắn gọn từng lớp.

ASách phân loại bộ nhớ của Agent thành ba lớp: 1) Session (Lớp phiên): Bộ nhớ ngắn hạn trong cửa sổ ngữ cảnh hiện tại, hết phiên là mất. 2) State (Lớp trạng thái): Dữ liệu tạm thời trong quá trình thực hiện một nhiệm vụ cụ thể, sẽ bị xóa khi nhiệm vụ kết thúc. 3) Memory (Lớp bền vững): Bộ nhớ dài hạn xuyên phiên, xuyên nhiệm vụ, được lưu trữ trong cơ sở dữ liệu hoặc vector database để truy xuất ngữ nghĩa.

QTheo bài viết, ba hành động có thể thực hiện ngay sau khi đọc sách này là gì?

ABa hành động có thể thực hiện ngay là: 1) Thêm một Critic Agent vào workflow hiện có để kiểm tra và cải thiện chất lượng đầu ra. 2) Bắt đầu thực hành Context Engineering, bổ sung ngữ cảnh môi trường cho Agent thay vì chỉ tập trung vào Prompt Engineering. 3) Tập trung hoàn thiện một Agent đơn lẻ lên Level 2 (có công cụ, Reflection, Memory) trước khi vội vàng xây dựng hệ thống Multi-Agent phức tạp.

Nội dung Liên quan

PA Hình ảnh | Một hình ảnh hiểu rõ các sự kiện Web3 đáng chú ý trong tháng 6

Bản tóm tắt sự kiện Web3 đáng chú ý tháng 6: Thị trường tiền mã hóa tháng 6 tập trung vào các yếu tố chính: dữ liệu kinh tế vĩ mô của Mỹ (như CPI, phi nông nghiệp), quyết định lãi suất từ Cục Dự trữ Liên bang Mỹ (FOMC), Ngân hàng Trung ương Châu Âu và Ngân hàng Nhật Bản, tiếp tục ảnh hưởng đến kỳ vọng thanh khoản và tâm lý thị trường. Một số dự án như SUI, ENA sẽ có đợt mở khóa token, cần lưu ý rủi ro tiềm ẩn. Về tin tức sản phẩm, Coinbase dự kiến ra mắt hợp đồng tương lai chỉ số chứng khoán, trong khi CME Group lên kế hoạch cho hợp đồng tương lai chỉ số tiền mã hóa Nasdaq. Tình trạng thanh lý dự án vẫn tiếp diễn, với các dịch vụ như trình duyệt Bitcoin Ordinals (Ord.io) ngừng hoạt động, người dùng cần chú ý đến việc rút và di chuyển tài sản. Các sự kiện công nghệ và truyền thống đáng chú ý khác bao gồm World Cup, Hội nghị Nhà phát triển Toàn cầu của Apple (WWDC26), SpaceX lên sàn chứng khoán, và thượng hội IPO của công ty robot Unitree. Tóm lại, tháng 6 hứa hẹn tiếp tục là giai đoạn thị trường tìm kiếm phương hướng mới dưới tác động của kỳ vọng thanh khoản, biến động chính sách và sự luân chuyển trong hệ sinh thái.

marsbit47 phút trước

PA Hình ảnh | Một hình ảnh hiểu rõ các sự kiện Web3 đáng chú ý trong tháng 6

marsbit47 phút trước

Alibaba 'Bán Hàng', ByteDance 'Luyện Công'

Tuần cuối tháng 5, hai sự kiện AI liền kề đã phơi bày hai cách tiếp cận khác biệt của các gã khổng lồ công nghệ Trung Quốc. Alibaba tập trung vào tích hợp và thương mại hóa AI. Họ kết nối ứng dụng Qwen với Taobao, cho phép mua sắm và sử dụng các tính năng AI như thử đồ, so giá. Tổ chức được tái cấu trúc để tập trung vào AI, với động lực rõ ràng từ thị trường vốn. Doanh thu bên ngoài của Alibaba Cloud tăng 40%, cho thấy chiến lược "lắp AI vào quầy thu ngân" đang tạo ra dòng tiền. Tuy nhiên, cách tiếp cận thực dụng này có thể đi kèm rủi ro nếu có sự chênh lệch lớn về năng lực mô hình nền trong tương lai. Ngược lại, ByteDance theo đuổi giới hạn công nghệ thông qua bộ phận Seed. Họ đạt được thành tích đỉnh cao với mô hình tạo video Seedance 2.0 và đầu tư mạnh vào nghiên cứu cơ bản, thu hút nhân tài với các mục tiêu thuần túy học thuật. Ngân sách vốn (capex) của ByteDance được báo cáo là tăng vọt, lên tới 4700 tỷ NDT vào năm 2026, được tài trợ chủ yếu từ lợi nhuận. Lợi thế lớn của họ là không bị áp lực thị trường công khai, cho phép tập trung vào nghiên cứu dài hạn. Bài viết chỉ ra rằng sự khác biệt chiến lược này không chỉ là triết lý, mà chủ yếu bị chi phối bởi việc công ty có niêm yết hay không. Các công ty đại chúng như Alibaba chịu áp lực phải thể hiện kết quả tài chính ngắn hạn, dẫn đến chiến lược "bán AI". Các công ty chưa niêm yết như ByteDance có "sự xa xỉ" để "làm AI" và tập trung vào đột phá công nghệ. Tương lai của con đường nghiên cứu dài hạn tại ByteDance có thể được kiểm chứng nếu công ty này tiến hành IPO.

marsbit55 phút trước

Alibaba 'Bán Hàng', ByteDance 'Luyện Công'

marsbit55 phút trước

Tại sao nhiều AI Agent hơn không đồng nghĩa với năng suất cao hơn?

Biên tập viên: Khi AI Agent ngày càng rẻ và dễ gọi, phát triển phần mềm đang bước vào giai đoạn mới. Vấn đề không còn là có thể chạy nhiều Agent hơn hay không, mà là liệu con người có đủ sự chú ý để quản lý, đánh giá và hợp nhất đầu ra của chúng hay không. Bài viết giới thiệu khái niệm "thuế điều phối". Chi phí khởi chạy Agent rất thấp, chỉ cần một Prompt hoặc một cú nhấp chuột. Nhưng các bước tiếp theo mới thực sự đắt đỏ: kiểm tra kết quả, hiểu tác động đến kiến trúc hệ thống, xử lý xung đột giữa các Agent, và quyết định mã nào được đưa vào nhánh chính. Những công việc này không thể song song hóa đơn giản, mà vẫn phải quay về một tài nguyên tuần tự duy nhất: khả năng phán đoán của con người. Tác giả ví nhà phát triển như "GIL" trong hệ thống AI Agent - khóa luồng đơn hạn chế thông lượng cuối cùng của hệ thống đồng thời. Nhiều Agent có thể chạy cùng lúc, nhưng một khi bước vào giai đoạn đánh giá kiến trúc, xem xét mã và hợp nhất xung đột, chúng phải đi qua bộ não của nhà phát triển. Do đó, càng nhiều Agent không nhất thiết có nghĩa là sản lượng cao hơn, mà có thể chỉ làm cho hàng đợi công việc chờ xem xét dài hơn, khiến nhà phát triển mệt mỏi vì chuyển đổi ngữ cảnh liên tục. Điều dễ bị bỏ qua trong cơn sốt công cụ lập trình AI hiện nay là cảm giác hiệu quả không phải lúc nào cũng đồng nghĩa với năng suất thực. Một bảng điều khiển đầy Agent đang chạy tạo ra ảo giác "năng suất cao", nhưng nếu nhà phát triển không thực sự hiểu, xem xét và tích hợp các thay đổi, hệ thống cuối cùng tích lũy có thể là nợ kỹ thuật và nợ nhận thức. Vì vậy, bài viết thảo luận về "cách thiết kế lại quy trình làm việc xoay quanh sự chú ý của con người". Trong thời đại Agent, năng lực then chốt không chỉ là biết đặt câu hỏi và phân công nhiệm vụ, mà là biết nhiệm vụ nào có thể giao cho máy móc xử lý song song, nhiệm vụ nào phải dành cho con người đánh giá; khi nào nên xem xét hàng loạt, khi nào nên dừng điều phối để tập trung lại vào một vấn đề cốt lõi. AI đang mở rộng khả năng xử lý đồng thời trong sản xuất phần mềm, nhưng sự chú ý của con người vẫn là tài nguyên khan hiếm và không thể nhân bản nhất trong hệ thống. Một quy trình làm việc với Agent thực sự trưởng thành không phải là ném mọi nhiệm vụ cho máy móc, mà là thiết kế kiến trúc sự chú ý của chính mình một cách cẩn thận, giống như thiết kế một hệ thống sản xuất.

marsbit2 giờ trước

Tại sao nhiều AI Agent hơn không đồng nghĩa với năng suất cao hơn?

marsbit2 giờ trước

Ba năm sau: Nhìn lại nhận định của tôi về ChatGPT vào năm 2023

**Tóm tắt tiếng Việt:** Năm 2026, tác giả Vương Kiến Thạc nhìn lại 20 dự đoán của mình về ChatGPT từ năm 2023, sử dụng AI (41 agent Opus 4.8) để đối chiếu với dữ liệu thực tế. **Kết quả chính:** Phần lớn các dự đoán về **cơ chế và xu hướng** là đúng: * **Đúng:** Kiến trúc RAG + tìm kiếm trở thành chuẩn để giảm ảo giác. LUI (Giao diện ngôn ngữ tự nhiên) tạo ra một "lục địa mới" cho tương tác máy tính. Mạng lưới agent với giao thức kết nối mới đang hình thành. Trung Quốc thu hẹp khoảng cách về mô hình lớn có thể sử dụng. ChatGPT không có ý thức, vượt qua bài kiểm tra Turing nhờ biểu diễn. Nó là bước tiến lớn nhưng chưa phải AGI, chưa gây ra làn sóng thất nghiệp hàng loạt. * **Sai/Sai một phần:** Dự đoán cụ thể **GPT-4 có 100 nghìn tỷ tham số** là sai hoàn toàn (thực tế ~1.8 nghìn tỷ). Nhận định **LLM không thể tự học toán** bị bác bỏ khi các mô hình giành huy chương IMO. **Giá trị sẽ thuộc về lớp ứng dụng** bị chứng minh ngược lại khi lợi nhuận khổng lồ thuộc về lớp nền tảng tính toán (như NVIDIA). **AI có thể né tránh vấn đề bản quyền** là sai, với các vụ kiện và khoản bồi thường lớn. Dự đoán **chi phí đào tạo mô hình lớn chỉ 5-10 tỷ USD** là quá thấp so với thực tế. **Bài học rút ra:** 1. **Dự đoán xu hướng và cơ chế đáng tin cậy hơn nhiều so với các con số cụ thể hay mức độ tuyệt đối.** 2. **Có xu hướng đánh giá quá cao tốc độ thay đổi trong ngắn hạn, nhưng lại đánh giá thấp mức độ thay đổi trong dài hạn.** 3. **Sai lầm tinh vi thường nằm ở "sự phân bố":** tổng thể đúng nhưng tác động không đồng đều (ví dụ: việc làm). 4. **Những phát biểu có giới hạn, thận trọng thường đứng vững theo thời gian.** 5. **Ba năm là chưa đủ để kết luận cho một số vấn đề sâu xa** (như ý thức máy móc, sự xuất hiện năng lực). Bài viết kết luận rằng việc nhìn đúng hướng đi lớn không quá khó, nhưng thừa nhận những sai lầm trong ước tính chi tiết, tốc độ và phân bố mới là điều đáng ghi nhớ cho những dự đoán trong tương lai.

marsbit8 giờ trước

Ba năm sau: Nhìn lại nhận định của tôi về ChatGPT vào năm 2023

marsbit8 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片