Tiêu đề gốc:Token Budget Wars
Tác giả gốc:Jaya Gupta
Biên dịch gốc:Peggy
Lời giới thiệu của biên tập viên: AI doanh nghiệp đang chuyển từ giai đoạn "có nên áp dụng hay không" sang giai đoạn "tính toán chi phí như thế nào".
Hai năm qua, nhiều công ty thúc đẩy nhân viên sử dụng AI, chủ yếu để theo kịp xu hướng công nghệ và áp lực cạnh tranh. Nhưng khi chi phí suy luận AI từ ngân sách thử nghiệm trở thành chi phí hoạt động liên tục, CEO và CFO bắt đầu đặt ra một câu hỏi thực tế hơn: AI thực sự tạo ra giá trị gì? Mỗi đô la chi phí token đổi lại được kết quả thực tế nào?
Đây chính xác là cốt lõi của "Cuộc Chiến Ngân Sách Token". Chiến tranh ngân sách token không chỉ đơn thuần là việc doanh nghiệp muốn giảm hóa đơn AI, mà còn là việc đánh giá lại nghiệp vụ nào đáng đầu tư nhiều sức mạnh tính toán hơn, tác vụ nào nên chuyển sang mô hình rẻ hơn, quy trình nào có thể thay thế bằng thuê ngoài hoặc lao động thủ công, và phần nào chỉ là tiêu hao vô ích.
Điều đáng chú ý nhất trong bài viết là, mức độ sử dụng AI không tương đương với giá trị. Thời kỳ SaaS, mức độ sử dụng thường đồng nghĩa với phần mềm được áp dụng; nhưng trong thời đại AI, mức tiêu thụ token chỉ có thể cho thấy "đồng hồ tính tiền đang chạy". Cùng một quy trình công việc, có thể tạo ra sự chênh lệch chi phí gấp nhiều lần do sự khác biệt về lời nhắc, ngữ cảnh, lựa chọn mô hình và số lần thử lại. Hóa đơn tăng cao, có thể do AI đang thực sự làm việc, cũng có thể do hệ thống đang xoay sở vô ích.
Vì vậy, giai đoạn tiếp theo của AI doanh nghiệp, chìa khóa không chỉ nằm ở năng lực mô hình, mà còn ở khả năng tương ứng hóa chi phí token với kết quả kinh doanh. Giai đoạn đầu đã chứng minh AI có thể hoàn thành công việc; giai đoạn thứ hai phải trả lời câu hỏi: Những công việc này có thực sự đáng để trả phí không.
Dưới đây là bài viết gốc:
AI Doanh Nghiệp Đã Chuyển Từ "Có Áp Dụng Hay Không" Sang "Phân Bổ Như Thế Nào".
Tại cấp cao trong công ty, "đồng tiền" mới là khả năng định lượng ROI cho đầu tư AI. Mỗi bộ phận chức năng đều được hỏi cùng một câu hỏi: Bạn đã tạo ra sản phẩm gì? Chi phí là bao nhiêu? Hai năm qua, các CEO vừa thức dậy sáng sớm xem Jim Cramer (#bearish) trên CNBC, vừa nhìn đối thủ cạnh tranh công bố tăng năng suất, rồi yêu cầu toàn công ty sử dụng AI. Giờ đây, điều thực sự tạo áp lực, là câu hỏi tiếp theo đó: Hãy chứng minh giá trị cho tôi xem.
Claude được phát hành vào tháng 11 năm 2025, trong khi đó ngân sách năm 2026 của hầu hết doanh nghiệp đã được khóa. Đến quý đầu tiên, mức sử dụng thực tế của doanh nghiệp đã vượt xa kế hoạch ban đầu. Chi phí suy luận không còn chỉ là một hạng mục ngân sách dùng cho thử nghiệm, mà đã trở thành chi phí hoạt động phát sinh liên tục. Đi theo đó, là một câu hỏi mới: AI thực sự đang tạo giá trị ở đâu?
Câu hỏi này rất khó trả lời, vì hiệu quả của token không được định lượng. Hóa đơn không thể cho bạn biết, khoản chi này rốt cuộc là thay thế lao động thủ công, tạo ra doanh thu, giảm thiểu rủi ro, tăng tốc quy trình, hay chỉ là một nhóm kỹ sư cuồng token để lên bảng xếp hạng (#metamates). Khi chi tiêu chỉ vài trăm nghìn đô la, nó vẫn trông giống một thí nghiệm. Nhưng vượt qua một ngưỡng nhất định, chẳng hạn lên đến bảy con số, nó sẽ trở thành hạ tầng. Sự khác biệt kỹ thuật bắt đầu tác động thực chất đến báo cáo lỗ lãi: cùng một quy trình công việc, cùng một đầu vào, chi phí token của hai lần chạy có thể chênh lệch gấp 5 đến 10 lần, trong khi bề ngoài trông chẳng có vấn đề gì. Ở quy mô thử nghiệm, sự dao động này đã khá tốn kém; nhưng một khi bước vào quy mô hạ tầng, nó trở thành con số mà CFO phải giải thích cho CEO.
Có thể gọi nó là "hiệu quả biên của token": giá trị thương mại được tạo ra bởi mỗi đô la chi phí suy luận thêm. Đây là con số thực sự quan trọng ở giai đoạn mở rộng quy mô, và cũng là con số mà hầu hết công ty hiện tại không nhìn thấy.
Câu hỏi trong hội đồng quản trị đang chuyển từ "AI có hữu ích không" sang "AI thực sự tạo đòn bẩy ở đâu". Cũng chính vì vậy, cái gọi là cuộc chiến ngân sách token, bản chất là cuộc chiến giành quyền phân bổ token.
Mà cuộc tranh giành về quyền sở hữu token đang nhanh chóng nóng lên, vì nó đang đụng độ với bản năng điều hành đã kéo dài ba mươi năm: đội ngũ lớn đồng nghĩa với vị trí lớn, phạm vi trách nhiệm lớn và quyền lực lớn hơn. Trước đây, dấu hiệu hữu hình cho sự thành công của nhà quản lý cấp cao, là quy mô đội ngũ họ quản lý - cấp dưới trực tiếp, cấp dưới gián tiếp, và số người trong cơ cấu tổ chức.
Nhưng khi trí tuệ trở thành tài nguyên khan hiếm, dấu hiệu mới là: Bạn có thể điều động bao nhiêu trí tuệ.
Chi tiêu AI về bản chất đang cạnh tranh với chi phí nhân công.
Hầu hết đề xuất ngân sách AI, bản chất là một trong ba loại đề xuất: thay thế lao động thuê ngoài, thay thế lao động nội bộ, hoặc tạo ra doanh thu mới.
Một nhân viên có lương. Một hợp đồng BPO (Thuê ngoài quy trình kinh doanh) có giá định theo đơn hàng, khiếu nại, hóa đơn hoặc đánh giá. Con người có thể hiểu các đơn vị đo lường này. Nhưng chi phí suy luận phức tạp hơn, vì chi phí cuối cùng để hoàn thành một nhiệm vụ, phụ thuộc vào cách hệ thống vận hành trong quá trình thực thi. Một nhiệm vụ khiếu nại cần ba lần thử lại, chỉnh sửa thủ công và gọi mô hình tiên phong, có thể đắt hơn cả nguồn nhân lực thuê ngoài mà nó dự định thay thế. Cũng chính vì vậy, thảo luận đang chuyển hướng: Chi phí để hoàn thành một kết quả là bao nhiêu? Ví dụ: chi phí cho mỗi phiếu hỗ trợ đã giải quyết, mỗi khiếu nại đã xử lý, mỗi hợp đồng đã rà soát, mỗi hóa đơn đã hoàn thành, mỗi vị trí tuyển dụng mới tránh được, mỗi khách hàng giữ lại, hoặc chi phí cho mỗi đô la doanh thu chuyển đổi.
Các nhà điều hành đã nhận ra, BPO là nơi dễ nhất để thiết lập chuẩn mực, vì công việc này vốn đã được định giá theo đơn vị "hoàn thành". Ngược lại, so sánh giữa nhân viên nội bộ với AI khó khăn hơn nhiều, vì nhân viên làm nhiều việc mỗi ngày, kể cả lướt TikTok vào giờ nghỉ trưa; tăng năng suất thường thể hiện qua việc tránh tuyển dụng hoặc giải phóng công suất phân tán; và các nhà quản lý cũng sẽ kháng cự việc cắt giảm quy mô đội ngũ chỉ dựa trên tự động hóa một phần. BPO cung cấp cho các nhóm nghiệp vụ một đường cơ sở có thể định lượng.
Điều này khác với logic của SaaS. SaaS từng huấn luyện doanh nghiệp coi mức độ sử dụng là chỉ số đại diện cho giá trị.
Nhưng AI phá vỡ điều này. Cùng một quy trình công việc tiêu tốn bao nhiêu tài nguyên suy luận, có thể khác biệt lớn do lời nhắc, ngữ cảnh truy xuất được, mô hình được chọn, công cụ được gọi, số lần thử lại, và việc tác nhân có bị kẹt hay không.
Nói chính xác hơn: tín hiệu và nhiễu sử dụng cùng một đơn vị đo lường. Hóa đơn token tăng lên, có thể nghĩa là công việc thực sự đang được hoàn thành; nhưng cũng có thể nghĩa là sức mạnh tính toán đang bị lãng phí vào lời nhắc kém, ngữ cảnh không liên quan, lời gọi công cụ không cần thiết, suy luận lặp lại và mô hình thừa năng lực. Hóa đơn token của hai doanh nghiệp có thể hoàn toàn giống nhau, nhưng hoạt động nghiệp vụ bên dưới hoàn toàn khác biệt: một bên đang chuyển hóa suy luận thành kết quả, bên kia đang trả tiền cho sự xoay sở vô ích, và hai tình huống này trông hoàn toàn giống nhau trên mục hóa đơn.
Mức độ sử dụng SaaS cho bạn biết: phần mềm đã được áp dụng. Mức độ sử dụng AI chỉ có thể cho bạn biết: đồng hồ tính tiền đang chạy. Nó không thể cho bạn biết, công ty có thực sự vận hành hay không.
Tại Sao Hiệu Quả Biên Của Token Khó Thấy?
Chủ yếu có ba điểm.
Thứ nhất là đuôi dài của lần thử lại. Nếu xác suất một tác nhân hoàn thành đúng quy trình công việc ngay lần đầu tiên là p, thì mức tiêu thụ token dự kiến cho mỗi quy trình công việc đã giải quyết sẽ mở rộng theo tỷ lệ T/p, trong đó T là chi phí cơ bản. Nếu tỷ lệ hoàn thành giảm từ 90% xuống 70%, chi phí hiệu quả cho mỗi lần giải quyết vấn đề sẽ tăng khoảng 28%, chứ không phải 20%, vì thất bại tạo ra hiệu ứng kép. Trong quy trình công việc doanh nghiệp, đầu vào thường lộn xộn, và các tình huống ngoại lệ cũng quan trọng. Thất bại không chỉ làm giảm độ chính xác, mà còn thay đổi bài toán kinh tế.
Thứ hai là sự bành trướng ngữ cảnh. Đối với các thao tác phụ thuộc nhiều vào cơ chế chú ý, chi phí suy luận sẽ tăng lên theo O(n2) với chiều dài ngữ cảnh. Vì vậy, chiều dài ngữ cảnh tăng gấp đôi, chi phí suy luận sẽ tăng gần gấp bốn. Mọi người đều muốn mô hình nắm đủ thông tin, nên hệ thống có xu hướng cung cấp quá mức: vốn chỉ cần năm tài liệu, việc truy xuất lại lấy năm mươi tài liệu; bộ kết nối đổ nguyên chuỗi email vào; tác nhân mang theo lịch sử hội thoại đã lỗi thời tiếp tục chạy.
Thứ ba là định tuyến. Khi đội ngũ không biết mô hình nào là "đủ tốt", họ sẽ mặc định sử dụng mô hình mạnh nhất. Một tác vụ phân loại cơ bản, có thể chạy trên cùng một mô hình vốn dùng cho suy luận phức tạp. Khi số lần gọi lên đến hàng triệu, việc giao tác vụ đơn giản cho mô hình nhỏ, hay giao mọi tác vụ cho mô hình tiên phong, thường là ranh giới giữa hóa đơn có thể kiểm soát và vấn đề cấp hội đồng quản trị.
Ngành công nghiệp phi phần mềm sẽ cảm nhận nỗi đau này dưới dạng một "chuyển đổi". Công ty phần mềm sẽ thấy vấn đề này đầu tiên, vì công việc được tối ưu hóa vốn đã được đo lường đầy đủ. Nhóm kỹ thuật có PR, commit, triển khai, sự cố, thời gian chu kỳ, MTTR (thời gian sửa chữa trung bình) và các chỉ số khác, và những chỉ số này kết nối với sản phẩm. Mặc dù không hoàn hảo, nhưng loại công việc này dễ đo lường hơn.
Doanh nghiệp phi phần mềm sẽ cảm nhận vấn đề này sâu sắc hơn, vì công việc của họ mang tính vận hành. Ví dụ: khiếu nại, bảo hiểm, phiếu hỗ trợ khách hàng, rà soát tuân thủ, bất thường chuỗi cung ứng, tranh chấp thanh toán. Hoặc, những công ty sở hữu tài sản thế giới thực cũng sẽ đối mặt vấn đề tương tự. Các quy trình công việc này trước đây thường được đo lường bằng lao động thủ công, thời gian chu kỳ, tỷ lệ đạt SLA và tỷ lệ sai sót, và thường có yêu cầu cao hơn, cần phải đứng vững trong kiểm toán, không chỉ đơn thuần là đúng trên trung bình. Đơn vị công việc và đơn vị chi phí không sử dụng cùng một ngôn ngữ, cũng không ở cùng một tổ chức. Nhóm kỹ thuật có thể thấy mức tiêu thụ token, bộ phận nghiệp vụ có thể thấy thay đổi quy trình công việc, nhưng để kết nối hai bên, cần nhiều nhóm nhất trí về "đang đo lường cái gì".
Tôi cho rằng, công ty phần mềm sẽ trải nghiệm cuộc chiến ngân sách token như một vấn đề đo lường năng suất, điều này cũng tương ứng với nhiều vụ "cắt giảm nhân sự AI" trước đây; còn doanh nghiệp phi phần mềm sẽ trải nghiệm nó như một vấn đề chuyển đổi.
Lớp thiếu sót, là quy kết từ token đến kết quả. Doanh nghiệp cần một lớp chuyển đổi, kết nối chi tiêu suy luận với công việc đã hoàn thành, kết quả kinh doanh đã tạo ra. Lớp này phải trả lời ba câu hỏi: Chi phí thực tế của quy trình công việc này là bao nhiêu, bao gồm cả thử lại và chỉnh sửa? Trong đường đi thực thi của tác nhân, phần nào thực sự quan trọng, phần nào chỉ là xoay sở vô ích? Công việc này có thay đổi mô hình vận hành không - ví dụ mỗi nhân viên hỗ trợ khách hàng xử lý ít phiếu hơn, chu kỳ khiếu nại ngắn hơn, ngân sách BPO nhỏ hơn, tuyển dụng bị hoãn lại? Lớp tiếp theo, là quy kết kết quả bằng ngôn ngữ nghiệp vụ. Không đơn giản nói "quy trình công việc này tốn 2.13 đô la", mà phải nói: Loại khiếu nại này do tác nhân xử lý rẻ hơn BPO, nhưng nếu hợp đồng yêu cầu tệp ngoại lệ bổ sung, đuôi dài của lần thử lại sẽ phá hủy tính kinh tế.
Đo lường sẽ trở thành ghi nhớ. Để kết nối một token với một kết quả, doanh nghiệp phải nắm bắt mọi thứ ở giữa xảy ra: tác nhân thấy gì, truy xuất gì, gọi công cụ nào, bỏ qua gì, thử lại ở đâu, khi nào bị ghi đè thủ công, quy tắc ngoại lệ nào được áp dụng, tiền lệ nào có tác dụng, và tại sao một đường đi thành công còn đường kia thất bại. Lớp đo lường phải ghi lại đường đi quyết định, và đây chính xác là thứ doanh nghiệp trước đây hầu như chưa từng thực sự sở hữu. Hệ thống ghi chép có thể nắm bắt chuyện gì đã xảy ra, nhưng hiếm khi nắm bắt được tại sao. Ví dụ, CRM có thể cho bạn biết một giao dịch bị trì hoãn, nhưng không thể cho bạn biết những phán đoán đằng sau dự báo bán hàng chưa được ghi lại.
Lý do quyết định là một trong những tài sản dễ hư hỏng, dễ biến mất nhất trong công ty, vì nó tồn tại trong luồng Slack, chuỗi email, cuộc họp cấp cao và trong đầu người. Nhưng vấn đề là, người ta sẽ rời đi, và quy trình cũng thay đổi.
AI thay đổi điều này, vì tác nhân sẽ tạo ra đường đi. Mỗi lần truy xuất, gọi công cụ, thử lại, nâng cấp, chỉnh sửa thủ công và quyết định cuối cùng, sẽ trở thành một phần của đường đi từ ngữ cảnh đến hành động rồi đến kết quả. Ban đầu, công ty nắm bắt các đường đi này, là để chứng minh tính hợp lý của chi tiêu. Nhưng một khi các đường đi này được nắm bắt, chúng sẽ có giá trị hơn chính báo cáo chi phí, vì chúng sẽ trở thành một bản ghi bền vững, ghi lại cách tổ chức thực sự ra quyết định. (À, đồ thị ngữ cảnh, mặc dù gần đây tôi thực sự đã chán nghe từ này.)
Lớp phân bổ mới là phần thưởng thực sự. Nếu suy luận trở thành một tài nguyên tính phí theo lượng trong mô hình vận hành khách hàng, thì mỗi đô la phải chứng minh mình đáng tiêu. Nhà cung cấp nào có thể giải thích token khi nào chuyển hóa thành kết quả, khi nào không, và tại sao?
Doanh nghiệp sẽ không tự mình khám phá hoàn toàn việc này. Họ sẽ mua nó như một cuộc chuyển đổi. Các công ty Fortune 500 trước đây đã nhiều lần diễn lại kịch bản này: thắt chặt dây an toàn, thuê McKinsey, tuyển mọi cựu nhân viên Palantir trên thị trường, rồi để CEO thúc đẩy thay đổi từ trên xuống. Việc quy kết từ token đến kết quả cũng sẽ xuất hiện theo cách tương tự như ERP, BI và chuyển đổi số: đến như một "dự án" được hậu thuẫn bởi lãnh đạo cấp cao, kèm theo một bộ hạ tầng hỗ trợ bên dưới, và cuối cùng trở thành nguồn dữ liệu thực tế mới. Những nhà sáng lập có thể làm được điều này, sẽ xây dựng các loại đội ngũ sáng lập khác nhau, bản thân họ cũng sẽ khác với nguyên mẫu nhà khởi nghiệp truyền thống.
Ai nắm được việc quy kết từ token đến kết quả, người đó sẽ đưa ra quyết định phân bổ: quy trình công việc nào đáng có thêm sức mạnh tính toán, quy trình nào nên đặt giới hạn, quy trình nào nên chuyển sang mô hình rẻ hơn, quy trình nào tiếp tục do con người hoàn thành, quy trình nào có thể thay thế BPO. Và một khi bạn có thể đưa ra các quyết định này, bạn kiểm soát dòng chi tiêu AI trong nội bộ doanh nghiệp, và giành được sự tin tưởng cần thiết để phân bổ nguồn lực này.
Giai đoạn đầu tiên của AI doanh nghiệp đã chứng minh: mô hình có thể hoàn thành công việc. Giai đoạn tiếp theo sẽ quyết định: Những công việc này rốt cuộc có bao nhiêu phần đáng để trả phí. Như Charlie Munger đã nói: Cho tôi xem động lực, tôi sẽ cho bạn biết kết quả.
Liên kết bài viết gốc






