Vào giữa và cuối tháng 5 năm 2026, Deepseek đã thành lập nội bộ một đội ngũ Harness hoàn toàn mới, định hướng phát triển sản phẩm tác nhân thông minh về mã, đối trọng nội bộ với Claude Code của Anthropic. Thôi Thiên Nhất, kỹ sư định lượng nổi tiếng trước đây của Jane Street, đã gia nhập đội ngũ này vào tháng 3. Nhà nghiên cứu kỳ cựu Trần Đắc Lý đã xác nhận công khai và phụ trách tuyển dụng. Trong mô tả công việc (JD) tuyển dụng của Deepseek, rõ ràng ghi một công thức: "Model + Harness = Agent". Khi năng lực của các mô hình cơ bản dần san bằng, thời đại chỉ cạnh tranh về tham số đang qua đi. Việc Deepseek tự mình xuống sân thành lập đội ngũ công cụ, đánh dấu chiến trường cạnh tranh chính của AI trong nước đang chuyển từ "luyện mô hình lớn" sang "xây dựng công cụ và ứng dụng thực tế vào công việc".
Tại Sao Deepseek Tự Mình Xuống Sân Làm Harness?
Trong một thời gian dài, kỳ vọng của cộng đồng nhà phát triển dành cho Deepseek chỉ dừng lại ở việc mở mã nguồn các mô hình cơ sở mạnh hơn. Nhưng khả năng về mã mạnh không đồng nghĩa với việc các nhà phát triển sẽ sử dụng nó như một công cụ sản xuất. Thứ thực sự thay đổi cách làm việc không phải là câu trả lời mã trong hộp chat, mà là một tác nhân thông minh có thể đi vào terminal, hiểu dự án, đọc ghi file, chạy lệnh và sửa lỗi. Trước khi chính thức ra tay, cộng đồng nhà phát triển đã dựa trên mô hình Deepseek để tạo ra các tác nhân terminal mã nguồn mở đa dạng. Việc Deepseek lúc này thành lập đội ngũ Harness nhằm nắm quyền thiết kế giao diện và vòng lặp dữ liệu huấn luyện khép kín, biến những con đường mà cộng đồng đã khai phá thành sản phẩm chính thức của hãng.
Để hiểu ý đồ chiến lược này, trước tiên phải làm rõ Harness thực chất là gì. Với những độc giả không có nền tảng kỹ thuật, từ "Harness" có thể còn xa lạ. Trong công thức của Deepseek, mô hình phụ trách suy luận, còn Harness phụ trách mọi thứ khác. Harness vốn có nghĩa "dụng cụ kiểm soát" hoặc "dây an toàn" trong lĩnh vực kỹ thuật, khi mở rộng sang lĩnh vực AI, nó đề cập đến "cơ sở hạ tầng thời gian chạy" của Agent.
Để hiểu theo cách thông tục hơn, chúng ta có thể ví mô hình lớn như "bộ não" và "trí tuệ" của một người lao động có trí thông minh cao, còn Harness chính là "bản mô tả công việc, tiêu chuẩn đánh giá KPI, tường lửa văn phòng và hộp công cụ" của người lao động này. Nó không phải là "giàn giáo" lắp ráp trước khi chạy, cũng không phải là "khung" cung cấp các khối xây dựng, mà là một hệ thống chạy liên tục. Nó chịu trách nhiệm sắp xếp chu trình thực thi, phân phối các lệnh gọi công cụ, quản lý ngữ cảnh, thực hiện kiểm tra an toàn và chịu trách nhiệm khôi phục lỗi cũng như lưu trữ trạng thái. Bản thân mô hình lớn là không trạng thái, không có khả năng tương tác với môi trường, nó chỉ có thể nhận đầu vào văn bản và xuất ra văn bản. Harness bù đắp những thiếu sót này, cho phép mô hình thực sự tương tác với thế giới bên ngoài và thực hiện các nhiệm vụ cụ thể.
Tại sao công ty mô hình cơ sở phải tự nắm giữ thời gian chạy này? Cốt lõi nằm ở chỗ sản phẩm Agent không chỉ là đầu ra năng lực của mô hình, mà còn là sân tập luyện năng lực của mô hình. JD của Deepseek nhấn mạnh "thực hiện sự tiến hóa chung của mô hình và Harness". Trong các nhiệm vụ phức tạp thực tế, mô hình sẽ gặp phải nhiều thất bại do hạn chế môi trường, lỗi trả về từ công cụ. Harness ghi lại các lộ trình thất bại này, có thể bổ sung ngược lại cho quá trình huấn luyện mô hình, tạo thành hiệu ứng bánh xe lăn. Nếu để cộng đồng tự xây dựng thay, các hãng cung cấp mô hình sẽ mất đi phản hồi dữ liệu cốt lõi nhất ở tầng ứng dụng, và chỉ còn là nhà cung cấp năng lực tính toán và trọng số.
Từ góc độ kỹ thuật, tối ưu hóa Harness quyết định thành bại của Agent hơn là chỉ tối ưu hóa Prompt. Theo phân tích của chuyên gia kỹ thuật, trong quá trình chạy Agent, đầu ra công cụ chiếm 67.6% nội dung thực tế mà Agent thấy trong ngữ cảnh, trong khi prompt hệ thống chỉ chiếm 3.4%. Điều này có nghĩa là phần lớn "tầm nhìn" của mô hình bị chiếm bởi kết quả của các lệnh gọi công cụ. Nếu Harness xử lý định dạng đầu ra công cụ không đúng, hoặc không thể nén hiệu quả thông tin thừa, mô hình sẽ rơi vào tình trạng "ngữ cảnh bị hỏng", dẫn đến chất lượng suy luận tiếp theo giảm mạnh.
Nguy hiểm hơn là vấn đề lỗi phức hợp. Một quá trình Agent bao gồm 10 bước, mỗi bước có độ tin cậy 99%, thì tỷ lệ thành công end-to-end là khoảng 90%; khi độ phức tạp nhiệm vụ tăng lên 50 bước, tỷ lệ thành công giảm mạnh xuống còn 60%. Trong các tình huống bảo trì kho mã thực tế hoặc tự động hóa văn phòng doanh nghiệp, các thao tác liên tục hàng chục bước là bình thường. Lúc này, dù khả năng suy luận của mô hình mạnh đến đâu, cũng không thể bù đắp được sự hao hụt tích lũy về xác suất. Chỉ thông qua cơ chế xử lý và khôi phục lỗi trong Harness, mới có thể thử lại hoặc sửa đường đi khi một bước thất bại. Đây chính là giá trị kỹ thuật của Harness, và cũng là lý do Deepseek phải tự mình xuống sân.
Tencent Làm Connector, Alibaba Thâm Nhập Front-end: Các Con Đường Công Cụ Khác Biệt Của Ông Lớn
Sự chuyển hướng của Deepseek không phải là một trường hợp đơn lẻ. Theo các phương tiện truyền thông ngành, việc tăng cường năng lực Agent đã trở thành một hướng phát triển quan trọng của các mô hình cơ bản trong nước vào năm 2026. Mô hình cơ bản dần trở thành "hạ tầng cơ bản như điện, nước, khí đốt", chiến trường cạnh tranh chính chuyển sang tầng ứng dụng. Các ông lớn khác trong nước cũng đang tìm kiếm vị trí đứng khác biệt thông qua công cụ, nhưng với các con đường khác nhau, phản ánh sự khác biệt về tài nguyên hệ sinh thái và người dùng mục tiêu của mỗi hãng.
Tencent vào tháng 6 năm 2026 đã tung ra lá bài mới Agent doanh nghiệp, ra mắt WorkBuddy phiên bản doanh nghiệp. Định vị cốt lõi của nó là bàn làm việc thông minh đa tác nhân cho mọi tình huống nơi làm việc, tập trung vào việc chuyển từ hiệu quả cá nhân sang hợp tác tổ chức. WorkBuddy phiên bản doanh nghiệp hỗ trợ nhiều Agent chạy song song và kết nối với Connector của hệ thống nghiệp vụ, cố gắng chiếm lấy cổng vào thống nhất cho AI trong công việc. Logic xác lập vị trí của Tencent dựa vào hệ sinh thái WeChat Work và Tencent Cloud khổng lồ của họ. Đối với các doanh nghiệp lớn, điểm đau của AI trong công việc không nằm ở trải nghiệm tối ưu của một công cụ đơn lẻ, mà ở việc có thể kết nối các hệ thống công việc nội bộ cô lập hay không. Tencent bằng cách làm connector, cho phép Agent có thể trực tiếp điều phối dữ liệu và quy trình doanh nghiệp, tập trung vào sự hợp tác ở cấp độ tổ chức và giao nhiệm vụ phức tạp. Ưu điểm của con đường này là rào cản cao, một khi đã kết nối vào quy trình nghiệp vụ cốt lõi của doanh nghiệp, chi phí thay thế là rất lớn; thách thức là cần có khả năng dịch vụ doanh nghiệp mạnh mẽ và hỗ trợ tùy chỉnh cao.
Alibaba thì đi một con đường khác, chọn cách giảm ngưỡng tự động hóa ở phía Web. Alibaba đã mở mã nguồn khung GUI Agent chạy hoàn toàn trong trình duyệt PageAgent. Khung này không cần triển khai backend, chỉ một dòng mã là có thể tích hợp khả năng AI operator cho website. Logic xác lập vị trí của Alibaba nằm ở việc trao quyền cho nhà phát triển Web, biến bất kỳ trang web nào thành ứng dụng AI-native trong vài giây. Trong thực tế, nhiều hệ thống doanh nghiệp truyền thống không thể cung cấp API, việc thực hiện tự động hóa thông qua thao tác DOM front-end là một con đường tấn công thiết thực và hiệu quả. Ưu điểm của con đường này là nhẹ, dễ tích hợp, có thể nhanh chóng bao phủ số lượng lớn các trang web dài hạn; nhưng cấu trúc DOM front-end thay đổi thường xuyên cũng có thể tạo ra thách thức về ổn định, đòi hỏi khả năng phục hồi lỗi của Harness phải cao hơn.
So sánh lại, các hãng không còn chỉ cạnh tranh về điểm số mô hình đơn thuần, mà xây dựng công cụ dựa trên tài nguyên hệ sinh thái của riêng mình. Tencent làm connector, Alibaba thâm nhập front-end, Deepseek thì tiếp cận từ kịch bản kỹ thuật mã - nhu cầu cứng nhất của nhà phát triển. Sự phân hóa này cho thấy, ngành AI trong nước đã nhận ra rằng không có Agent tổng quát hoàn hảo, chỉ có các giải pháp chuyên sâu được mài giũa thông qua kỹ thuật Harness vững chắc trong các tình huống cụ thể. Đối với việc mua sắm doanh nghiệp, việc chọn công cụ của hãng nào, về bản chất là chọn con đường tự động hóa nào: là liên kết sâu với hệ sinh thái công việc, hay linh hoạt nhúng vào hệ thống Web hiện có, hoặc là trao quyền cho quy trình làm việc kỹ thuật của nhà phát triển.
ARR 20 Triệu USD Của Viktor Chứng Minh: Doanh Nghiệp Sẵn Sàng Trả Tiền Cho Khả Năng Tự Thực Thi
Sự trưởng thành của công cụ đang thay đổi mô hình mà AI tham gia vào lĩnh vực công việc. Logic của Copilot gốc là "soạn thảo và chờ con người hoàn thành", AI tạo ra một đoạn văn bản hoặc một đoạn mã, bước cuối cùng vẫn cần sự can thiệp của con người để sửa và thực thi. Ở chế độ này, AI chỉ là một công cụ tăng hiệu suất, không thể thay thế thực sự lực lượng lao động. Nhân viên doanh nghiệp cần liên tục theo dõi đầu ra của AI, kiểm tra và triển khai, điều này thực chất làm tăng gánh nặng nhận thức.
Thị trường nước ngoài đã xuất hiện tín hiệu rõ ràng về sự chuyển dịch mô hình. Là một tín hiệu tham chiếu xu hướng nước ngoài, công ty tự động hóa công việc AI Viktor của Ba Lan định vị là nhân viên AI bên trong Slack, đã đạt doanh thu hàng năm hóa 20 triệu USD (ARR) mà không có đội ngũ bán hàng, phục vụ 30 nghìn doanh nghiệp, và vào tháng 5 năm 2026 đã huy động được 75 triệu USD vòng Series A. Mô hình của Viktor đại diện cho hình thái cuối cùng của nhân viên AI kiểu mới: sở hữu máy tính đám mây, có thể làm việc liên tục trong thời gian dài, nắm chắc ngữ cảnh khổng lồ, và giao kết quả trực tiếp.
Viktor được định vị là AI Coworker Hạng 3, điều này có nghĩa là nó xử lý không còn là các nhiệm vụ hỏi đáp đơn giản, mà là các nhiệm vụ phức tạp cần nhiều bước, chạy lâu dài như kiểm toán tiếp thị, quản lý quảng cáo, nghiên cứu đầu mối. Phía doanh nghiệp có mong muốn trả tiền lớn cho loại AI không cần xác nhận cuối cùng của con người, có thể làm việc liên tục trong thời gian dài như vậy. Sự bùng nổ của dữ liệu thương mại này đã chứng minh rằng điểm neo giá trị của tự động hóa công việc đã chuyển từ "hỗ trợ tạo sinh" sang "tự thực thi".
Các hãng trong nước bố trí Harness và công cụ Agent, chính là để đón đầu xu hướng này. Khi Harness có thể cung cấp đủ hàng rào an toàn, khả năng lưu trữ trạng thái và khôi phục lỗi, AI có thể chuyển từ "thực tập sinh" cần con người liên tục theo dõi, thành "nhà thầu phụ" có thể giao kết quả công việc độc lập. Điểm quan tâm của việc mua sắm doanh nghiệp cũng sẽ chuyển từ kích thước tham số mô hình, sang việc Agent có thể chạy ổn định 8 giờ mà không sập không, có thể tự xử lý giới hạn API và thay đổi cấu trúc trang web hay không. Đối với nhà phát triển, điều này có nghĩa là trọng tâm xây dựng ứng dụng AI sẽ chuyển từ "làm thế nào để viết Prompt tốt" sang "làm thế nào để thiết kế môi trường thời gian chạy vững chắc".
Sự Bùng Nổ Token Và Rào Cản Kỹ Thuật Của "Khung Dày"
Sau khi chuyển sang cạnh tranh công cụ, những thách thức mà việc mua sắm doanh nghiệp và nhà phát triển phải đối mặt trong triển khai thực tế không giảm đi, mà ngược lại càng tập trung hơn vào khía cạnh kỹ thuật.
Vấn đề đầu tiên và cấp bách nhất là sự bùng nổ Token. Agent chạy dài hạn trong chu trình "suy nghĩ, hành động, phản hồi" rất dễ bị đầu ra công cụ thừa làm cho ngữ cảnh phình to nhanh chóng. Cộng đồng nhà phát triển thảo luận rộng rãi về vấn đề nan giải này, cho rằng nó không chỉ đẩy cao chi phí suy luận, mà còn khiến sự chú ý của mô hình phân tán, tỷ lệ thất bại nhiệm vụ tăng mạnh. Ví dụ, khi thực hiện nhiệm vụ thu thập dữ liệu trang web, nếu Harness nhồi toàn bộ mã nguồn HTML của trang web vào ngữ cảnh mà không xử lý, mô hình sẽ nhanh chóng lạc lối trong thông tin thừa, quên mất mục tiêu nhiệm vụ ban đầu. Do đó, khả năng nén ngữ cảnh và quản lý bộ nhớ của Harness trở thành chỉ số đánh giá cốt lõi khi doanh nghiệp mua sắm. Một Harness xuất sắc phải biết thông tin lịch sử nào có thể loại bỏ, kết quả trả về từ công cụ nào cần tóm tắt, điều này đòi hỏi khả năng kiến trúc kỹ thuật sâu, chứ không phải trí thông minh của bản thân mô hình.
Điều này cũng làm dấy lên sự cảnh giác của nhà phát triển đối với các khung "mỏng" chỉ là lớp vỏ. Nếu Harness mà các hãng mô hình lớn đưa ra chỉ là đóng gói API đơn giản, cung cấp cửa sổ hội thoại cơ bản và giao diện gọi công cụ, sẽ thiếu giá trị gỡ lỗi thực tế. Tính dễ vỡ trong môi trường sản xuất yêu cầu Harness phải có các tính năng "khung dày" như cách ly sandbox, kiểm soát quyền chi tiết, tiếp tục từ điểm ngắt. Chỉ có thời gian chạy với rào cản kỹ thuật sâu mới có thể thực sự giải quyết nhu cầu ổn định của ứng dụng cấp doanh nghiệp. Ví dụ, trong kịch bản thực thi mã, Harness phải cung cấp môi trường sandbox an toàn, ngăn mã độc do mô hình tạo ra phá hủy hệ thống chủ; trong nhiệm vụ dài hạn, phải hỗ trợ tiếp tục từ điểm ngắt, tránh việc toàn bộ nhiệm vụ phải bắt đầu lại từ đầu do mạng không ổn định.
Ngoài ra, các yếu tố địa chính trị đã để lại một khoảng trống thị trường khổng lồ cho Harness nội địa. Các sản phẩm tác nhân thông minh kỹ thuật hàng đầu nước ngoài như Claude Code áp dụng hạn chế truy cập đối với Trung Quốc đại lục và các doanh nghiệp có vốn Trung Quốc. Các nhà phát triển trong nước trong tình trạng không thể sử dụng trực tiếp các công cụ hàng đầu này, chỉ có thể tìm kiếm giải pháp thay thế nội địa. Việc Deepseek thành lập đội ngũ Harness không chỉ là theo kịp xu hướng công nghệ, mà còn là phản ứng trước nhu cầu thay thế khổng lồ này.
Đối với việc mua sắm doanh nghiệp và nhà phát triển, việc hiểu giá trị của Harness có nghĩa là khi lựa chọn sản phẩm AI, không còn bị mê hoặc bởi các demo hội thoại hào nhoáng, mà phải đặt câu hỏi về cơ chế khôi phục lỗi của nó là gì, chiến lược quản lý ngữ cảnh là gì, và liệu nó có thể thực sự hòa nhập vào quy trình làm việc hiện tại hay không. Trong giai đoạn cạnh tranh công cụ, doanh nghiệp nên ưu tiên xem xét khả năng giao hàng kỹ thuật và khả năng tương thích hệ sinh thái của hãng cung cấp, thay vì chỉ so sánh điểm số mô hình đơn thuần; nhà phát triển nên chú ý đến mức độ mở của khung Harness và độ hoàn thiện của công cụ gỡ lỗi, chọn nền tảng có thể cung cấp thời gian chạy sâu và kiểm soát được.








