Văn | Phòng thí nghiệm AI Xia Guang
Gần đây, một chủ đề được thảo luận sôi nổi trong giới công nghệ AI là việc công ty Anthropic vô tình tiết lộ mã nguồn đầy đủ của công cụ lập trình AI Claude Code, với số lượng mã vượt quá 512.000 dòng. Những mã bị rò rỉ này, mặc dù không cho thấy các thuật toán mới đột phá, nhưng đã tiết lộ hoàn toàn thực tiễn kỹ thuật Agent của các nhà sản xuất hàng đầu.
Vào ngày 10 tháng 4, Zhu Zheqing, người sáng lập Pokee.ai, đã tham gia buổi họp trực tuyến kín "Deep Talk with Builders" do Quỹ JinQiu tổ chức, và chia sẻ chủ đề "Nhìn từ việc rò rỉ Claude Code: Kỹ thuật Harness và Post-training hiện tại".
Ông cho rằng, kiến trúc này của Anthropic rất phù hợp với mô hình Claude, và việc di chuyển trực tiếp sang các mô hình khác sẽ làm giảm hiệu quả đáng kể, nhưng tư tưởng thiết kế Harness, cấu trúc mô-đun hóa, và cách tiếp cận gắn liền sâu với hậu huấn luyện (Post-training) của nó có giá trị tham khảo cực kỳ lớn cho việc tự nghiên cứu Agent.
Ba năm qua, mô hình lớn đã phát triển từ khả năng API đơn thuần, trở thành mô-đun cốt lõi của sản phẩm; ngành công nghiệp cũng đã chuyển từ "công ty vỏ bọc mô hình" sang hệ thống Agent phức tạp được điều khiển bởi Harness — mô hình không còn là cốt lõi duy nhất, việc gọi công cụ, môi trường thực thi, quản lý ngữ cảnh, cơ chế xác minh cùng quyết định hiệu quả cuối cùng.
Harness là gì? Dịch trực tiếp là bộ yên cương, dây cương. Nếu ví mô hình lớn như một con ngựa chiến sẵn sàng lao đi, thì Harness chính là dây cương mà con người dùng để kéo, điều khiển con ngựa chiến đó. Khi trí tuệ nhân tạo chính thức bước vào thời đại được điều khiển bởi Harness, đối với người sử dụng, khả năng thực sự khan hiếm không nằm trong mô hình, mà nằm bên ngoài mô hình — làm thế nào để tìm được một bộ dây cương vừa vặn, và điểm đến rõ ràng, chính xác trong lòng người cầm lái.
Bài viết này dựa trên nội dung chia sẻ của Zhu Zheqing, được tổng hợp và sắp xếp bởi AI, và được hiệu đính thủ công, nhằm cố gắng trình bày những nội dung tinh túy của buổi chia sẻ này.
Harness có thể hiểu là toàn bộ kiến trúc kỹ thuật để vận hành mô hình, tác dụng cốt lõi của nó là tối đa hóa khả năng của mô hình, chứ không chỉ đơn thuần là xuất ra các tokens. Harness của Claude Code được phân giải rõ ràng thành sáu thành phần cốt lõi:
1. System Prompt (Lời nhắc hệ thống) đa cấp độ
System Prompt hiện đại đã vượt xa "bạn là một trợ lý hữu ích", mà là một tập lệnh phức tạp, có quy mô siêu lớn, phân tầng, có thể lưu vào bộ nhớ đệm:
Phần cố định được lưu đệm: Bao gồm danh tính Agent, lệnh Co, định nghĩa công cụ, quy chuẩn ngữ khí, chính sách an ninh, kích thước có thể lên tới hàng trăm nghìn token, bất kỳ thay đổi nào cũng sẽ làm mất hiệu lực bộ nhớ đệm, làm tăng đáng kể chi phí và thời gian;
Phần có thể thay thế động: Trạng thái phiên, thời gian hiện tại, tệp có thể đọc, phụ thuộc gói mã, v.v., linh hoạt chuyển đổi theo nhiệm vụ;
Thực tiễn kỹ thuật: Thông qua A/B test để tinh chỉnh Prompt cho người dùng khác nhau, tối ưu hóa chính xác tỷ lệ hoàn thành nhiệm vụ, giảm tỷ lệ lỗi.
So sánh lại, kiến trúc của Claude Code đơn giản hơn, gánh nặng chú ý của mô hình thấp hơn, ảo giác ít hơn; trong khi kiến trúc liên quan của OpenAI phức tạp hơn, cần đọc nhiều tệp, dễ gây ra ảo giác ký ức.
2. Tool Schema (Định dạng công cụ)
Định nghĩa công cụ trực tiếp quyết định độ chính xác của lệnh gọi, các điểm thiết kế cốt lõi:
Công cụ cốt lõi tích hợp sẵn: Đọc/ghi/sửa tệp, Bash, xử lý hàng loạt Web và các công cụ cơ bản khác được điều chỉnh hoàn thành trong giai đoạn đào tạo mô hình, khi suy luận không cần cung cấp thêm mô tả công cụ;
Quyền hạn và an ninh: Trong các tình huống cấp doanh nghiệp, từ chối các công cụ của bên thứ ba không có kiểm tra quyền hạn, tránh các thao tác độc hại;
Gọi công cụ song song: Có thể nâng cao tốc độ thực thi, nhưng hậu huấn luyện cực kỳ khó — các lệnh gọi song song không có phụ thuộc trước sau, khi huấn luyện dễ xảy ra lệch thời gian, tín hiệu Reward khó căn chỉnh.
3. Tool Call Loop (Vòng lặp gọi công cụ)
Đây là phần cốt lõi nhất của Harness, cũng là chìa khóa cho sự tích hợp giữa huấn luyện và suy luận:
Chế độ lập kế hoạch (Plan Mode): Nhiệm vụ có chuỗi dài trước tiên hiểu nhiệm vụ, sắp xếp hệ thống tệp, xác định rõ công cụ khả dụng, tạo ra phương án thực thi, sau đó mới vào thực thi; tránh thử sai mù quáng (như liên tục gọi công cụ tìm kiếm không khả dụng), giảm tiêu hao token vô ích;
Chế độ thực thi (Execute Mode): Thực thi công cụ theo kế hoạch trong hộp cát (Sandbox), lấy kết quả để đóng vòng lặp;
Giá trị cốt lõi: Loại bỏ lỗi trung gian trong quá trình thực thi chuỗi dài, giảm chi phí thử lại, nhưng cũng khiến việc huấn luyện khả năng lập kế hoạch khó hơn — tín hiệu Reward về chất lượng kế hoạch dễ bị nhiễu từ các khâu thực thi.
4. Context Manager (Trình quản lý ngữ cảnh)
Giải quyết vấn đề sử dụng hiệu quả ngữ cảnh với hàng triệu token:
Sử dụng Bộ nhớ dạng chỉ mục con trỏ: Không lưu trữ trực tiếp nội dung đầy đủ, chỉ ghi lại con trỏ tệp và nhãn chủ đề;
Hợp nhất, loại bỏ trùng lặp, liên kết tệp tự động ở nền sau;
Hiện trạng: Vẫn đang ở giai đoạn heuristic, không thể giải quyết hoàn hảo vấn đề suy luận xuyên chuỗi đa tệp (như tệp liên quan bị bỏ sót), hiện chưa có giải pháp tối ưu end-to-end.
5. Sub Agent (Tác nhân phụ)
Sự hợp tác đa tác nhân chủ lưu thiếu đảm bảo lý thuyết: không có mục tiêu chung, không có thuật toán huấn luyện chung, chỉ có thể "tự huấn luyện, phối hợp tùy duyên".
Trong khi đó, kiến trúc Agent Chính - Phụ về bản chất là học tăng cường phân tầng:
Agent chính định nghĩa nhiệm vụ con (Option) cho Agent phụ, trạng thái kết thúc nhiệm vụ con được dùng làm điểm khởi đầu tiếp theo của Agent chính;
Chia sẻ KV Cache và ngữ cảnh đầu vào, sau khi Agent phụ thực thi chỉ bổ sung kết quả, không tăng thêm tiêu hao token, chi phí thấp hơn nhiều so với thực thi nối tiếp;
Ứng dụng điển hình: Công việc ContextFormer của Byte và các công việc khác có tư tưởng nhất quán cao với điều này.
6. Verification Hooks (Cổng kiểm tra xác minh)
Giải quyết vấn đề mô hình "tự làm đẹp, báo cáo ảo hoàn thành":
Mô hình mạnh tồn tại sự ưu tiên tự thân, tỷ lệ chính xác tự đánh giá cao hơn nhiều so với đánh giá chéo, dễ chủ động "nói dối" hơn là chỉ đơn thuần là ảo giác;
Giải pháp kỹ thuật: Giới thiệu bộ phân loại nền, chỉ xem kết quả thực thi công cụ, bỏ qua văn bản do mô hình tạo ra, thoát khỏi độ lệch sinh để kiểm tra khách quan;
Tác dụng: Không cần Reward có thể xác minh hoàn toàn, vẫn có thể thực hiện kiểm tra kết quả thực thi nhẹ nhàng và thanh lịch.
Môi trường huấn luyện RL (Học tăng cường) truyền thống bị tách rời nghiêm trọng với môi trường suy luận, trong khi Harness đạt được sự tích hợp môi trường huấn luyện - sản xuất: Chuỗi lệnh gọi công cụ = bước quỹ đạo, chạy thử nghiệm và cổng phân loại = tín hiệu Reward, nhiệm vụ người dùng = Episode hoàn chỉnh.
Xoay quanh sáu thành phần trên, Post-training (Hậu huấn luyện) hình thành sáu hướng cốt lõi:
1. System Prompt (Lời nhắc hệ thống) điều khiển sự căn chỉnh hành vi
System Prompt sẽ xác định rõ mục tiêu nhiệm vụ, ngân sách Token và chiến lược công cụ khả dụng, từ đó ràng buộc đáng kể không gian hành vi của mô hình, khiến học tăng cường chỉ cần học chế độ thực thi tối ưu trong phạm vi giới hạn. Chúng ta có thể thiết kế hệ thống tính điểm dựa trên quy tắc trong System Prompt, để mô hình được huấn luyện gần như end-to-end dưới quỹ đạo sạch hơn, ít nhánh hơn, xuất ra hành vi phù hợp với mong đợi một cách ổn định.
2. Huấn luyện end-to-end cho lệnh gọi công cụ chuỗi dài
Loại bỏ "huấn luyện kiểu chụp nhanh từng bước" truyền thống, chuyển sang huấn luyện quỹ đạo hoàn chỉnh:
Ghi lại kết quả thực thi từng bước, lấy Reward quá trình và Reward nhiệm vụ cuối cùng;
Tập trung vào tính ổn định chuỗi dài, đảm bảo tỷ lệ chính xác tổng thể của hàng trăm bước gọi công cụ, chứ không chỉ đúng từng bước gọi.
3. Huấn luyện tích hợp Plan-Execute
Harness loại bỏ nhiễu giữa lập kế hoạch và thực thi:
Khóa trước chuỗi công cụ trong kế hoạch, không có tầng can thiệp thủ công bổ sung;
Kết quả thực thi được kiểm tra khách quan bởi cổng phân loại, tín hiệu Reward cho kế hoạch rõ ràng hơn;
Đạt được khả năng lập kế hoạch có thể huấn luyện, tránh chế độ thô là "chỉ thực thi, không lập kế hoạch".
4. Huấn luyện chuyên đề Nén bộ nhớ (Memory Compression)
Coi việc nén ngữ cảnh như một nhiệm vụ độc lập: Mô hình thượng nguồn xuất ra bộ nhớ nén, hiệu quả thực thi nhiệm vụ hạ nguồn được dùng làm tiêu chuẩn kiểm tra; mục tiêu là giữ lại thông tin cốt lõi, không ảnh hưởng đến tỷ lệ thành công của nhiệm vụ hạ nguồn.
5. Huấn luyện sắp xếp phối hợp Sub Agent
Nhắm vào đầu ra siêu dài (cảnh mã/tài liệu hàng triệu token):
Agent chính không trực tiếp tạo nội dung, mà là sắp xếp Sub Agent, phân phối nhiệm vụ và Prompt;
Sub Agent thực thi song song rồi hợp nhất kết quả, Agent chính kiểm tra;
Phụ thuộc vào Harness để thực hiện kiểm soát tiến trình cơ bản, tránh xung đột đọc ghi và thất bại thực thi.
6. Học tăng cường liên hợp đa mục tiêu
Pipeline RL hiện đại kéo dài đáng kể, cần tối ưu hóa đồng thời sáu mô-đun:
Lệnh gọi công cụ không ảo giác, kiểm tra phân loại chính xác, nén ngữ cảnh hiệu quả, đa Agent không cản trở, lập kế hoạch hợp lý, xác minh đáng tin;
Ngành công nghiệp chuyển từ hội tụ thuật toán sang trăm hoa đua nở, mỗi khâu cần thuật toán huấn luyện chuyên dụng, việc hợp nhất đa mục tiêu trở thành vấn đề cốt lõi.
Đầu tiên là sự thay đổi nhu cầu nhân tài. Kỹ thuật Prompt Engineering không còn là cốt lõi độc lập, làm tốt Harness có thể hoàn thành 70% công việc. Do đó, nhân tài tổng hợp có khả năng hiểu AI, kỹ thuật backend, cơ sở hạ tầng sẽ được ưa chuộng hơn, trong khi sức cạnh tranh của kỹ sư Prompt thuần túy sẽ giảm mạnh.
Thứ hai là sự tái cấu trúc thị trường. Dưới áp lực từ các nhà sản xuất mô hình và doanh nghiệp lĩnh vực dọc, các "công ty vỏ bọc mô hình" trung gian chỉ còn lại hai con đường khả thi, hoặc có năng lực mô hình và cơ sở hạ tầng đỉnh cao, hoặc có rào cản dữ liệu/kinh nghiệm độc quyền trong lĩnh vực dọc (như giao dịch tần suất cao, kiến thức chuyên ngành riêng).
Thứ ba, việc triển khai Agent thực sự đang hướng tới riêng tư hóa, an ninh cao, tích hợp end-to-end. Đối với doanh nghiệp, ưu tiên tái sử dụng thiết kế Harness trưởng thành, kết hợp tùy chỉnh theo cảnh dọc, tập trung vào an ninh và triển khai riêng tư, mới có thể đạt được quy mô thương mại hóa thực sự của Agent.
Giá trị cốt lõi của việc rò rỉ Claude Code, không nằm ở bản thân mã code, mà ở việc tiết lộ Agent đã bước vào thời đại được điều khiển bởi Harness. Năng lực mô hình chỉ là nền tảng, kiến trúc kỹ thuật, môi trường thực thi, sự phối hợp đa tác nhân, cơ chế xác minh mới là chìa khóa quyết định giới hạn trên.









