Tác giả: Garry's List
Biên dịch: Deep Tide TechFlow
Deep Tide导读: Anthropic mới đây đã công bố nghiên cứu toàn diện nhất từ trước đến nay về việc sử dụng AI Agent trong thực tế, dữ liệu cốt lõi là: kỹ thuật phần mềm chiếm gần 50% lưu lượng gọi công cụ Agent, trong khi các lĩnh vực chuyên sâu như y tế, pháp lý, giáo dục và 14 lĩnh vực khác cộng lại còn chưa bằng một nửa phần còn lại, mỗi lĩnh vực đều có thị phần dưới 5%.
Đây không phải là tín hiệu thị trường bão hòa, mà là bản đồ của 300 kỳ lân AI chuyên sâu — điều có giá trị hơn là một phát hiện phản trực giác được bài viết trích dẫn: mô hình đã có thể làm việc độc lập gần 5 giờ, nhưng người dùng thực tế chỉ cho nó làm việc 42 phút, chính "khoảng cách niềm tin" này là cơ hội sản phẩm tiếp theo.
Toàn văn như sau:
Kỹ thuật phần mềm chiếm gần 50% tổng lượt gọi công cụ AI Agent. Các lĩnh vực chuyên sâu như y tế, pháp lý, tài chính và 13 lĩnh vực khác hầu như chưa được chạm tới, mỗi lĩnh vực đều dưới 5%. Điều này có nghĩa là có 300 kỳ lân AI chuyên sâu đang chờ được xây dựng.
Nếu hôm nay tôi khởi nghiệp, tôi sẽ nhìn chằm chằm vào vùng màu đỏ trên biểu đồ cột kia cho đến khi tôi nhìn thấy tương lai của mình.
Người sáng lập Box, Aaron Levie cho biết:
Biểu đồ này là một lời nhắc nhở tốt về cơ hội lớn đến thế nào trong lĩnh vực AI Agent hiện nay.
Chắc chắn sẽ có rất nhiều cơ hội Agent theo chiều ngang, nhưng cũng có rất nhiều quy trình công việc đòi hỏi kiến thức chuyên môn sâu về lĩnh vực mới thực sự giúp người dùng tự động hóa các quy trình độc đáo trong lĩnh vực của họ.
Khuôn mẫu là: Xây dựng phần mềm Agent tích hợp dữ liệu độc quyền, để xử lý hiệu quả quy trình công việc theo cách kết nối người dùng với sự hợp tác của Agent, đồng thời có khả năng xử lý ngữ cảnh chuyên sâu theo lĩnh vực cụ thể, cũng như khả năng thúc đẩy quản lý thay đổi phía khách hàng.
Hiện tại, nhiều lĩnh vực vẫn còn khoảng trống rất lớn.
Kỹ thuật phần mềm chiếm một nửa hoạt động AI Agent. Nửa còn lại phân tán trên 16 lĩnh vực chuyên sâu, không lĩnh vực nào vượt quá 9%. Y tế chiếm 1%, pháp lý 0.9%, giáo dục 1.8%. Đây không phải là những thị trường bão hòa, mà là những thị trường gần như chưa tồn tại.
Anthropic vừa công bố nghiên cứu toàn diện nhất từ trước đến nay về việc sử dụng AI Agent thực tế. Phát hiện cốt lõi là: Kỹ thuật phần mềm chiếm 49.7% lưu lượng gọi công cụ Agent trên API của họ. Kết luận cốt lõi bị chôn vùi phía sau là: mọi thứ khác đều là thị trường màu mỡ.
Triển khai chậm trễ
Một dữ liệu nên khiến các nhà khởi nghiệp phấn khích: khả năng của mô hình đã vượt xa ranh giới mà người dùng sẵn sàng tin tưởng nó.
Đánh giá năng lực của METR cho thấy, Claude có thể giải quyết các nhiệm vụ mà con người cần gần năm giờ để hoàn thành. Nhưng trong sử dụng thực tế, thời lượng phiên ở phần trăm thứ 99.9 chỉ vào khoảng 42 phút. Khoảng cách này — khoảng cách giữa những gì AI có thể làm và những gì chúng ta cho phép nó làm — là một cơ hội khổng lồ.
Hình: Thời lượng đào tạo dài nhất của Claude Code đã gần như tăng gấp đôi trong ba tháng. Điều này không chỉ nâng cao năng lực mà còn tăng cường niềm tin.
Nguồn:x.com
Từ tháng 10/2025 đến tháng 1/2026, thời lượng phiên đơn lẻ ở phần trăm thứ 99.9 đã tăng gần gấp đôi, từ dưới 25 phút lên hơn 45 phút. Sự tăng trưởng ổn định trên các phiên bản mô hình khác nhau. Đây không chỉ là mô hình trở nên mạnh hơn, mà là người dùng từng lần một học hỏi trong khi sử dụng, dần dần mở rộng niềm tin vào Agent.
"Từ tháng 8 đến tháng 12, tỷ lệ thành công của Claude Code trong các nhiệm vụ khó khăn nhất của người dùng nội bộ đã tăng gấp đôi, đồng thời, số lần can thiệp thủ công mỗi phiên giảm từ 5.4 lần xuống 3.3 lần."
Năng lực đã có ở đó, việc triển khai chưa theo kịp. Đây không phải là vấn đề, mà là cơ hội sản phẩm.
Niềm tin tiến hóa như thế nào
20% người dùng mới sẽ tự động phê duyệt thao tác của Claude Code. Đến phiên thứ 750, hơn 40% phiên chạy hoàn toàn ở chế độ phê duyệt tự động. Nhưng có một phát hiện phản trực giác: người dùng có kinh nghiệm lại can thiệp nhiều hơn, chứ không phải ít hơn. Người dùng mới can thiệp trong 5% số lượt, người dùng cũ là 9%.
Hình: Niềm tin là một kỹ năng tích lũy không ngừng. 20% người dùng mới sẽ tự động phê duyệt phiên. Đến phiên thứ 750, tỷ lệ này sẽ vượt quá 40%.
Hình ảnh: Anthropic
Nguồn: x.com
Điều này không mâu thuẫn, mà là sự thay đổi chiến lược giám sát. Người mới bắt đầu phê duyệt từng bước trước khi thao tác xảy ra, người dùng cũ thì ủy quyền trước, rồi can thiệp sau nếu có vấn đề — họ đã chuyển từ phê duyệt trước sang giám sát chủ động.
Đây là một phát hiện đáng chú ý ở khía cạnh bảo mật: Trong các nhiệm vụ phức tạp, tần suất Claude Code chủ động yêu cầu làm rõ cao hơn hơn hai lần tần suất can thiệp chủ động của con người. Agent sẽ tạm dừng để xác nhận, thay vì lao thẳng tới đích. Đây là tính năng, không phải lỗi.
"Bài học cốt lõi từ nghiên cứu này là: Quyền tự chủ mà Agent thực thi trong thực tế được xây dựng chung bởi mô hình, người dùng và sản phẩm. Claude sẽ tạm dừng đặt câu hỏi khi không chắc chắn, từ đó hạn chế tính độc lập của chính nó. Người dùng xây dựng niềm tin trong quá trình hợp tác với mô hình và điều chỉnh chiến lược giám sát cho phù hợp."
Chiến lược AI chuyên sâu của Levie
Aaron Levie chỉ ra khối tài sản và giá trị khổng lồ đang chờ được mở khóa: Xây dựng phần mềm Agent tích hợp dữ liệu độc quyền, để nó thực sự giải quyết con người và vấn đề thực tế, nhồi nhét ngữ cảnh để tối đa hóa đầu ra thông minh, và — đây là phần hầu hết nhà khởi nghiệp bỏ qua — thúc đẩy quản lý thay đổi phía khách hàng.
Điểm cuối cùng này chính là lý do khiến AI chuyên sâu khó bị sao chép đến vậy. Bất kỳ ai cũng có thể gói một API, nhưng rất ít người có thể thực sự điều hướng các quy trình công việc, ràng buộc quy định và sức cản tổ chức đặc thù trong thanh toán hóa đơn y tế, phát hiện pháp lý hoặc phê duyệt giấy phép xây dựng.
SaaS đã tăng trưởng gấp mười lần mỗi thập kỷ trong vài thập kỷ qua. 20 năm qua, hơn 40% vốn đầu tư mạo hiểm đổ vào các công ty SaaS. Ngành này đã sinh ra hơn 170 kỳ lân SaaS. Logic rất đơn giản: mỗi một trong những kỳ lân này, đều có một phiên bản AI chuyên sâu đang chờ xuất hiện. Và phiên bản AI có thể lớn hơn gấp mười lần, bởi nó thay thế không chỉ phần mềm, mà cả nhân viên vận hành.
Bản chất của việc cùng xây dựng
Phát hiện cốt lõi của Anthropic đáng để bất kỳ ai tham gia hoạch định chính sách AI quan tâm nghiêm túc. Quyền tự chủ không phải là thuộc tính cố hữu của mô hình, mà được xây dựng chung bởi mô hình, người dùng và sản phẩm. Đánh giá trước triển khai không thể nắm bắt điều này, bạn phải đo lường nó trong sử dụng thực tế.
Anthropic chính thức tuyên bố:
Kỹ thuật phần mềm chiếm khoảng 50% lưu lượng gọi công cụ Agent trên API của chúng tôi, nhưng chúng tôi cũng thấy các ngành khác đang nổi lên. Khi ranh giới giữa rủi ro và quyền tự chủ tiếp tục mở rộng, việc giám sát sau triển khai trở nên tối quan trọng. Chúng tôi khuyến khích các nhà phát triển mô hình khác mở rộng nghiên cứu này.
Các con số ở khía cạnh bảo mật rất đáng yên tâm: 73% lượt gọi công cụ có sự tham gia của con người trong vòng lặp (human-in-the-loop), chỉ 0.8% thao tác là không thể đảo ngược. Các kịch bản triển khai rủi ro cao nhất — như rò rỉ khóa API hoặc giao dịch mã hóa tự chủ — chủ yếu là đánh giá bảo mật, chứ không phải môi trường sản xuất thực tế.
"Các yêu cầu quy định cụ thể về chế độ tương tác — chẳng hạn yêu cầu con người phê duyệt mọi thao tác — sẽ chỉ tạo ra ma sát, mà không nhất thiết mang lại lợi ích bảo mật."
Chính sách bắt buộc "phê duyệt mọi thao tác" sẽ giết chết lợi ích năng suất, nhưng không tăng tính bảo mật. Mục tiêu tốt hơn là đảm bảo con người có thể giám sát và can thiệp, chứ không quy định cụ thể quy trình phê duyệt.
Kỳ lân ẩn nấp ở đâu
Bản đồ đã được vẽ ra. Kỹ thuật phần mềm đã có người làm. Y tế, pháp lý, tài chính, giáo dục, dịch vụ khách hàng, hậu cần — 16 lĩnh vực chuyên sâu, mỗi lĩnh vực đều có thị phần một con số — đang chờ ai đó nhúng thực sự kiến thức chuyên môn ngành vào Agent.
Trước đây đã sinh ra 300 kỳ lân SaaS, 300 kỳ lân AI chuyên sâu tiếp theo sắp xuất hiện. Những nhà sáng lập chọn lĩnh vực chuyên sâu, nhúng kiến thức chuyên môn ngành vào Agent, và tìm ra cách thúc đẩy quản lý thay đổi, sẽ sở hữu thị trường phần mềm doanh nghiệp của thập kỷ tới.
Mô hình đã có thể làm việc năm giờ, người dùng chỉ cho nó làm việc 42 phút. Đây chính là tín hiệu: chúng ta vẫn đang ở giai đoạn cực kỳ sớm, còn rất nhiều thứ có thể xây dựng, và ở vô số nơi còn chưa thấy trí thông minh phát huy tác dụng dù chỉ một phút.







