Tác giả: Sarah Guo
Biên dịch: TechFlow
Lời dẫn từ TechFlow: Khi các mô hình lớn bắt đầu đè bẹp con người trên mọi bảng xếp hạng, các nhà đầu tư rơi vào tuyệt vọng: ngoài Anthropic và NVIDIA, còn gì đáng để đầu tư? Nhà đầu tư hàng đầu Thung lũng Silicon này dùng dữ liệu và ví dụ để chỉ ra rằng, hào bảo vệ thực sự không nằm trên bảng xếp hạng – nó ẩn mình ở những nơi không thể đo lường bằng benchmark.
Giữa năm 2026, phiên bản lẫn lộn tinh thần AI của nhà đầu tư là một sự tuyệt vọng: Không còn gì đáng để đầu tư nữa, chúng ta nên bỏ hết tiền vào Anthropic và NVIDIA rồi về nhà.
Tôi chưa bao giờ có cảm giác đó. Tôi đã tin chắc mô hình thông minh hơn tôi vài phiên bản phụ, tôi rất sẵn lòng mua Anthropic và NVIDIA với giá thị trường, tất cả những người bạn thông minh nhất của tôi đều khá chắc chắn rằng khả năng tự cải tiến sẽ sớm thành công – nhưng tôi vẫn không cảm thấy sự tuyệt vọng này.
Sự tuyệt vọng đó không ngu ngốc. Logic là: nếu mô hình tiếp tục trở nên tốt hơn ở mọi thứ, thì mọi công ty xây dựng trên nó chỉ là một lớp vỏ mỏng, đang chờ bị hấp thụ, và giá trị duy nhất có thể tồn tại là sức mạnh tính toán và trọng lượng ở tuyến đầu.
Lấy phần mềm làm ví dụ, đây là trường hợp mà những người theo thuyết tuyệt vọng dựa vào nhiều nhất. Devin khi ra mắt năm 2024 chỉ giải quyết được 13% nhiệm vụ trên benchmark phần mềm tiêu chuẩn, về cơ bản bị phớt lờ. Một năm rưỡi sau, agent tốt nhất có thể đạt hơn 80 điểm, chúng đang làm việc thực tế bên trong Goldman Sachs và Quân đội Mỹ. Hầu hết mọi người đều rút ra bài học sai lầm giống nhau: mô hình đã nuốt chửng kỹ thuật phần mềm. Nhưng khi mô hình nuốt chửng phần dễ đo lường nhất của kỹ thuật phần mềm, chúng ta đang nhận ra lại điều mà nhiều nhóm đã biết từ lâu – kỹ thuật vẫn luôn kháng cự việc đo lường, phần dễ đo lường nhất có thể không phải là phần quan trọng duy nhất.
Mert Demirer của MIT và các cộng tác viên cuối cùng đã đưa ra con số: trong hơn 100.000 nhà phát triển, agent mã hóa mới nhất đã tăng lượng mã viết lên khoảng 180%, trong khi lượng mã thực sự được phát hành tăng khoảng 30%. Viết mã trở nên rẻ hơn. Phần còn lại vẫn phải thông qua con người, và nó quan trọng. Tất nhiên, tác động ròng vẫn rất đáng kinh ngạc.
Benchmark là thứ bạn có thể đo lường, và thứ bạn có thể đo lường là thứ bạn có thể huấn luyện dựa vào nó. Do đó, agent mã hóa chín muồi trước: trình biên dịch là bộ kiểm tra miễn phí, bộ thử nghiệm là bộ kiểm tra miễn phí, khi câu trả lời tự kiểm tra chính nó miễn phí, bạn có thể liên tục mài giũa dựa trên kiểm tra đó cho đến khi đánh bại nó. Nhưng vượt qua bài kiểm tra chưa bao giờ nói với bạn rằng, liệu thay đổi này có phải là đúng đối với một kho mã cũ mười năm với ba mô-đun chưa được ghi chép lý do tồn tại, pipeline triển khai duy trì nhờ một cron job mà không ai muốn thừa nhận là mình viết hay không.
Loại tính chính xác đó không thể đọc được từ bảng xếp hạng, thực tế cũng không thể đọc được từ bất cứ thứ gì. Bạn học bằng cách chạy đủ lâu trong thế giới thực để phát hiện ra một hệ thống phức tạp như vậy có hiệu quả hay không, và mô hình thông minh hơn không làm thế giới chạy nhanh hơn. Không ai làm kiểm tra đơn vị cho thứ ở quy mô của Google rồi tin vào dấu tích màu xanh lá; bạn tin nó vì nó đã chịu được khối lượng công việc thực tế trong nhiều năm. Tính chính xác như vậy không chỉ là riêng tư, nó còn là loại hào bảo vệ chậm chạp mà vốn không thể san bằng. Ngay cả những người lạc quan cũng thừa nhận đồng hồ không thể nhảy cóc: Noam Brown, người tiên phong về mô hình suy luận tại OpenAI, gần đây đã viết, phương pháp đáng tin cậy duy nhất để đánh giá một agent trong khoảng thời gian một năm có lẽ là... chạy nó một năm.
Như Gabe Pereyra đã nói, tự động hóa thực sự không chỉ là mô hình trở nên tốt hơn. Đó là sản phẩm, mô hình, quy trình làm việc và công ty cùng di chuyển, và trong bốn thứ đó, có ba thứ di chuyển theo tốc độ của tổ chức.
Những người di chuyển là phần benchmark không chạm tới: khiến một đối tác đa nghi thay đổi cách cô ấy xử lý công việc, giữ cho đội ngũ đoàn kết trong quá trình xây dựng lại. Đó là lý do tại sao khi chúng tôi tuyển CEO, khả năng xử lý con người quan trọng ít nhất bằng khả năng phân tích, và mô hình thông minh hơn không thay đổi trọng số đó. Phản hồi mơ hồ, khung thời gian tính bằng năm, niềm tin thuộc về một người. Mọi công ty tôi biết đều cho tất cả kỹ sư sử dụng mô hình mã hóa tiên tiến, nhưng không công ty nào thay đổi tổ chức kỹ thuật của họ với tốc độ gần bằng vậy. Việc áp dụng mất một quý, đó là một quý tăng trưởng token kỳ diệu biết bao! Nhưng việc xây dựng lại đang mất nhiều năm.
Cái có thể thấy là thứ đang rời đi. Công việc có giá trị về cấu trúc là vô hình: bất cứ thứ gì bạn có thể đặt lên bảng xếp hạng, bạn đều có thể huấn luyện dựa vào nó, vì vậy bất cứ thứ gì có thể đo lường đều đang trên đường trở thành hàng hóa. Quá trình này cần thời gian và sẽ không bao giờ hoàn toàn, nhưng hướng đi không bao giờ đảo ngược. Dùng thuật ngữ tiền bạc của bạn tôi Matt MacInnis ở Rippling: token chi cho việc trả lời câu hỏi chung chung hầu như vô giá trị, vì mô hình của bất kỳ ai cũng có thể trả lời nó, còn token chi cho việc suy luận về dữ liệu công ty của bạn có giá trị cao hơn nhiều, vì nó làm điều bạn thực sự muốn, không chỉ là điều có vẻ hợp lý.
Công việc có thể thấy bị nuốt chửng từ hai hướng. Từ phía dưới, bão hòa nhiệm vụ: một khi một công việc có thể được kiểm tra rẻ tiền, người mua không còn hỏi mô hình nào làm nó nữa, mà bắt đầu hỏi nó tốn bao nhiêu tiền, và công việc rơi vào mô hình mã nguồn mở hoặc chưng cất rẻ nhất tuần đó. Ở bất cứ nơi nào chúng có thể tạo tác động, biên lợi nhuận cuối cùng đều quan trọng. Từ phía trên, các phòng thí nghiệm đang cố gắng để mô hình nuốt chửng giàn giáo của chính nó. Truy xuất, định tuyến giữa các lệnh gọi rẻ và đắt, sử dụng công cụ, thậm chí chiến lược suy luận, tất cả các thiết bị từng bao bọc mô hình đều bị kéo vào trọng số, cho đến khi lớp bao bọc chính là mô hình. Đó là sự hấp thụ tiên tiến. Áp lực biên lợi nhuận cũng cắt giảm ngược lại: agent chung chung phải sẵn sàng cho mọi thứ, điều đó rất tốn kém, trong khi ứng dụng chuyên sâu có thể điều chỉnh một quy trình làm việc cho đến khi nó chạy trên một phần nhỏ chi tiêu token, và không giống như phòng thí nghiệm bán những token này, nó giữ lại chênh lệch giá.
Vì vậy, chúng ta có thể hỏi hai điều về bất kỳ loại công việc nào. Tính chính xác của nó có phải là riêng tư và tốn kém để xây dựng không, loại sự thật chỉ tồn tại bên trong dữ liệu của ai đó? Nó có bị cô lập không, bị khóa trong hệ thống bạn không thể vào? So sánh những điều này với mức độ bão hòa của nhiệm vụ, bạn có một ma trận 2x2. Công việc bão hòa có đáp án công khai là token hàng hóa, mô hình mã nguồn mở sở hữu nó. Công việc tiên tiến có đáp án công khai, nơi benchmark mã hóa tồn tại, là nơi phòng thí nghiệm chiến thắng, vì khi đánh giá miễn phí, việc sở hữu nó chẳng là gì. Giải thưởng nằm ở góc cuối cùng, góc không thể huấn luyện: công việc tiên tiến mà tính chính xác chỉ tồn tại trong lĩnh vực riêng tư. Bạn có thể thấy nó trong đám mây suy luận chứa chấp những người tiên phong AI bản địa, phần lớn token được tạo bởi mô hình tùy chỉnh, không phải mô hình mã nguồn mở chung chung.
Bức tường đi vào góc cuối cùng đó có độ cao khác nhau. Kho mã đồ chơi của một nhà phát triển đơn lẻ có thể di chuyển và tiêu chuẩn hóa, nên việc leo lên rất ngắn. Hệ thống sản xuất của ngân hàng không phải cả hai, bạn sẽ không có quyền root chỉ vì thông minh hơn 2% trên SWE-Bench Verified.
Năng lực nuốt chửng nhiều thứ, nhưng mô hình tốt hơn không biến sự thật cơ bản riêng tư thành công khai. Nó không nắm giữ giấy phép, không ký trách nhiệm, cũng không sở hữu tài liệu của công ty, nó không thể là bên bị kiện khi câu trả lời sai. Sự thông minh không phải là nút cổ chai ở đây. Giấy phép là, trách nhiệm cũng là. Bạn có thể tưởng tượng một mô hình thông minh hơn bất kỳ ai rất nhiều, nó vẫn phải được phép vào cửa, vẫn phải có người ký tên cho việc nó làm.
Cánh cửa đó có một ổ khóa và một then cửa. Ổ khóa là môi trường: bạn chỉ có thể xác minh AI có làm việc hữu ích hay không sau khi được tin tưởng bên trong hệ thống, sau khi xem xét an ninh, tích hợp, hợp đồng bạn ký tên cho kết quả. Then cửa là người dùng. Hiện nay hầu hết bác sĩ Mỹ mở OpenEvidence mỗi ngày, không lượng sức mạnh tính toán nào có thể mua được điều này. Phòng thí nghiệm ngày mai có thể huấn luyện một mô hình y tế hoàn hảo, vẫn không thể đi vào thói quen của bác sĩ, hoặc vào quy trình ra quyết định của UCSF, vì niềm tin được xây dựng chậm rãi, dựa trên mối quan hệ, cần sự đồng ý ngầm của người dùng, không phải xóa sạch gradient descent của họ.
Đây cũng là công việc. Một ứng dụng giành được vị trí của nó ở góc không thể huấn luyện bằng cách làm công việc thầm lặng: sắp xếp thực tế riêng tư của công ty để mô hình có thể hành động dựa trên nó, cung cấp công cụ cho mô hình hành động, hợp tác với khách hàng để thay đổi thực tế nhân viên của họ. Một công ty mang đến bản dịch rất khó sao chép – và bản dịch không bao giờ kết thúc. Tích hợp và bảo trì kéo dài lâu như mối quan hệ, được giành bởi các nhóm đặt kỹ sư chuyên ngành và công cụ bên cạnh khách hàng.
Lấy một ví dụ, tại một công ty luật hạng sang hàng đầu, chỉ riêng hoạt động M&A mỗi năm đã chạy gần một nghìn giao dịch. Vì lý do bảo mật và nhiều lý do khác, bạn không thể để hàng trăm trợ lý riêng lẻ tải tài liệu khách hàng về máy tính để bàn và yêu cầu agent chung lật qua chúng, ngay cả khi bạn có thể, những gì bạn học được sẽ là mảnh vỡ, một sửa chữa cho mỗi trợ lý một lần, không thấy toàn bộ giao dịch chảy như thế nào. Tín hiệu quan trọng tồn tại ở cấp độ giao dịch, và giao dịch có một hình dạng: với M&A là thỏa thuận bảo mật, bảng điều khoản, thẩm định, thỏa thuận mua bán, tài liệu phụ lục, danh sách nghiệm thu; với kiện tụng sở hữu trí tuệ, là các đề nghị, khám phá chứng cứ, trình độ hiện có, thêm đề nghị. Mỗi lĩnh vực kinh doanh có riêng của mình, luật sư và công cụ không thể hoán đổi qua lại giữa các lĩnh vực. Và vấn đề công ty luật thực sự giải quyết nằm ở một cấp độ trên tất cả những điều này: chạy song song mỗi lĩnh vực kinh doanh, giống như các đối tác hàng đầu đồng thời chạy hàng trăm vụ việc, đồng thời đưa vào vụ việc mới và đào tạo trợ lý. Chuyển đổi một công ty luật như vậy không phải là một nhiệm vụ đơn lẻ bạn có thể viết đánh giá cho nó. Nó cần một người vận hành làm bằng cách phân tích dữ liệu, mục tiêu cực kỳ mơ hồ, phản hồi không đầy đủ, khung thời gian dài, trong một môi trường không đứng yên.
Thật không may, giá trị vô hình cũng khó bán, vì lý do tương tự nó khó trở thành hàng hóa: công ty không thể đánh giá từ bên ngoài liệu AI có chuyển đổi hoạt động của họ không, giống như benchmark không thể đánh giá. Vì vậy, các doanh nghiệp mạnh nhất ngừng cố gắng chứng minh nó từ bên ngoài, mà đi vào bên trong, định giá kết quả. Sierra tính phí khi agent của họ giải quyết vấn đề của khách hàng, không tính phí khi chuyển vấn đề cho con người, vì vậy giá trở thành đánh giá, điều này chỉ hiệu quả khi Sierra sở hữu định nghĩa "đã giải quyết". Devin của Cognition làm điều tương tự trong phần mềm, cung cấp "bảo đảm hiệu suất", điều chỉ có thể đưa ra cho kết quả trong hệ thống bạn được tin tưởng để vào.
Ngay cả token dịch vụ, thứ mà mọi người thích gọi là lớp hàng hóa thuần túy, cũng không hoạt động như hàng hóa. Các công ty AI bản địa tốt nhất tập trung dịch vụ của họ vào một hoặc hai nhà cung cấp (Baseten hoặc Fireworks), vì chi phí mỗi token được kế hoạch hóa thành hàng hóa, trong khi độ tin cậy dưới lưu lượng thực và đảm bảo tiếp cận năng lực tính toán khan hiếm thì không. Bạn phục vụ ở đâu là một lựa chọn khác với bạn sử dụng mô hình nào. Giá cả là phần duy nhất trong suy luận hoạt động như hàng hóa.
Một phản đối thường được đưa ra là, phòng thí nghiệm là nhà cung cấp của bạn – tại sao họ không chạy sản phẩm cấp một của chính mình với giá dưới chi phí để vắt kiệt bạn, hoặc thu hồi quyền truy cập API và tự chiếm thị trường? Đây là phiên bản thực sự của thuyết tuyệt vọng, nó chỉ hiệu quả nếu tầng mô hình là trò chơi một người chơi. Rõ ràng không phải – nó trông giống một cuộc đua tử thần với ba bên rưỡi hơn, một nhóm người chơi quốc tế tụt lại sau sáu tháng huấn luyện, giải phát triển có quy mô gấp 5 lần năm ngoái. Khách hàng muốn có cạnh tranh giữa các nhà cung cấp, các phòng thí nghiệm muốn thị phần hơn là để bất kỳ ứng dụng nào chết.
Bạn có thể thấy điều này trên thị trường mà các phòng thí nghiệm đối đầu trực tiếp. Trong trò chuyện người tiêu dùng, mô hình tốt nhất chưa bao giờ đơn giản chiến thắng. ChatGPT duy trì vị trí dẫn đầu trong nhiều năm cạnh tranh thực tế, thị phần nó mất hiện nay đang chuyển sang Gemini, nhờ sức mạnh của Android và tìm kiếm, không phải mô hình tốt hơn. Anthropic, công ty mà thị trường dự đoán (và không khí internet) hiện đánh giá là có mô hình tốt nhất, hầu như không là một yếu tố trong trò chuyện người tiêu dùng, mà xây dựng doanh nghiệp của mình trong doanh nghiệp và mã hóa. Nếu mô hình tốt hơn không thể lấy đi người dùng của đối thủ ở ứng dụng cốt lõi nhất, nó sẽ không đi qua hồ sơ bệnh viện hoặc trách nhiệm ngân hàng bằng cách tích hợp. Lựa chọn của công chúng ngày nay không chỉ dựa trên mã hóa. Nếu tuyến đầu vẫn đông đúc, các lớp trên nó sẽ có giá trị.
Nếu công việc không thể được chấm điểm từ bên ngoài, một ai đó bên trong phải quyết định thậm chí câu trả lời tốt là gì, và quyết định đó là toàn bộ trò chơi. Đủ những quyết định này, viết ra, trở thành một benchmark. Harvey đã phát hành một cái cho luật, Sierra cho agent giọng nói. Bạn giành quyền định nghĩa điều gì có nghĩa là tốt cho một lĩnh vực bằng cách trở thành thứ mà lĩnh vực đó đã sử dụng, và các công ty này giành quyền đó thông qua cuộc đấu tranh áp dụng thực tế.
Đánh giá quyết định tiền thật là riêng tư và khác nhau tùy công ty: công ty này, trong vấn đề này, sẽ chấp nhận điều gì là công việc tốt, nó còn lâu mới hoàn thành, vì độ sâu của luật pháp làm lu mờ bất kỳ bài kiểm tra công cộng nào. OpenEvidence đang xác định câu trả lời lâm sàng an toàn trông như thế nào. Đây không phải là đo lường thực sự, đây là phán đoán về điều gì là thật và điều gì là tốt, được viết ra cho đến khi nó trở thành tiêu chuẩn mà tất cả những người khác bị đo lường dựa vào, và phòng thí nghiệm cơ bản dù thông minh đến đâu cũng không thể viết nó, vì địa vị đó chỉ tồn tại bên trong lĩnh vực đó. Thẩm quyền này có xu hướng rơi vào nơi nó đã ngồi. Luật sư kỳ cựu viết benchmark luật. Việc xác định câu trả lời lâm sàng an toàn rơi vào tay bác sĩ. Và "đã giải quyết" có nghĩa là bất cứ công ty nào đã có khách hàng nói nó có nghĩa vậy.
Việc hấp thụ tiên tiến liên tục tăng lên, vì chúng ta liên tục học cách đo lường nhiều công việc hơn, cái có thể đo lường bị nuốt chửng. Mặt đất không thể huấn luyện thu hẹp dưới chân bất kỳ ai đang đứng trên nó, vì vậy bạn không thể tìm một điểm có thể phòng thủ rồi nghỉ ngơi. Bạn liên tục tiến về phía bất cứ thứ gì chưa thể được chấm điểm, bạn liên tục tái bảo hiểm. Trên một nhiệm vụ hẹp, với dữ liệu riêng tư của bạn và đánh giá của riêng bạn, bạn có thể huấn luyện đến trình độ tiên tiến và đánh bại mô hình chung ở nơi quan trọng, và mô hình chuyên môn đó trở thành một phần của hào bảo vệ. Mặt khác, cạnh tranh trên mô hình chung là một cuộc chiến vốn, bạn sẽ thua người có nhiều sức mạnh tính toán nhất, đây là cái bẫy cho các công ty có quyền truy cập nông và nhiệm vụ có thể thấy. Nó hứa hẹn vượt qua huấn luyện tiên tiến trong phạm vi nhiệm vụ chung để tồn tại vào ngày đó, người chiến thắng dường như được quyết định nhiều nhất bởi quy mô trung tâm dữ liệu, và kết cục thường không phải là nhà vô địch độc lập mà là bán cho người giàu sức mạnh tính toán.
Tất cả những điều này là phòng thủ. Khó hơn là tấn công, lựa chọn xây dựng gì trước tiên. Đây là điều tôi dành một năm để tìm kiếm, tôi có lẽ tìm thấy ba lần. Mô hình không giúp được ở đây. Nó sẽ làm bất cứ điều gì bạn chỉ, nhưng không thể nói cho bạn biết điều gì đáng để chỉ, bạn không thể benchmark điều đó, vì vậy bạn không thể huấn luyện nó. Đây cũng là lý do các doanh nghiệp hiện có không lấy hết mọi thứ: họ giữ lãnh thổ họ có, thứ tiếp theo đến từ người phát hiện công dụng trước chúng ta. Có lẽ ý định là đầu vào khan hiếm hơn sức mạnh tính toán.
Thuyết tuyệt vọng đúng một nửa. Các lớp bao bọc mỏng thực sự đang bị hấp thụ, nhiều thứ trông giống công ty ngày nay là bao bọc mỏng. Nó sai về phần còn lại. Cơ chế rõ ràng; điểm đến thì không. Tôi sẽ đặt cược vào hướng đi: sự thông minh không ngừng trở nên rẻ hơn, giá trị không ngừng trượt về phía vài nơi mà mô hình không thể chạm tới. Không thể huấn luyện là giá trị có lịch sử. Vì vậy, hãy đi vào một cái, làm công việc dịch thuật thầm lặng, bắt đầu viết ra điều gì có nghĩa là tốt ở đó, vì một ai đó sẽ làm điều đó. Điểm benchmark được trích dẫn nhiều nhất năm nay là một bản đồ lãnh thổ sắp trở nên vô giá trị, và một thông báo về ai sắp mất quyền nói điều gì được tính là tốt.





