AI làm "sếp", suýt đẩy 10 công ty đến bờ vực phá sản......
Đại học Princeton gần đây đã tạo ra CEO-Bench, để AI vận hành một công ty khởi nghiệp SaaS ảo, trong vòng 500 ngày.
Ai ngờ, 14 vị CEO silic lên sàn, chỉ có 4 người bảo toàn được vốn.
Mà người thứ tư này, lại là một thuật toán hoàn toàn dựa trên quy tắc......

AI tự chủ vận hành công ty? Cho AI làm sếp??
Ít nhất là hiện tại, vẫn còn là một dấu hỏi lớn.
Tất nhiên, cũng có một số mô hình nổi bật, đã thể hiện tiềm năng rồi——
Fable 5, 500 ngày thu về 47.15 triệu USD, "AI sếp" mạnh nhất thế giới.
Cuộc thi CEO Trí tuệ Nhân tạo
Trước khi bắt đầu xem "cảnh tượng lật kèo của AI" này, hãy nói về luật chơi trước.
Trạng thái bắt đầu: Vốn 1 triệu USD, không có khách hàng.
Mục tiêu trò chơi: Trong chu kỳ mô phỏng 500 ngày, kiếm càng nhiều tiền càng tốt.
Tiêu chí đánh giá: Số tiền còn lại trong tài khoản khi trò chơi kết thúc. Nếu số dư giữa chừng rơi xuống dưới 0, tuyên bố phá sản ngay lập tức, mô phỏng kết thúc.
Khá dễ hiểu, giống như chơi Cờ tỷ phú vậy, chỉ là cách thức tương tác khác nhau.
Cốt lõi là một Python API, chứa 34 công cụ, 19 bảng cơ sở dữ liệu. Agent kết nối vào có thể viết mã, dùng SQL truy vấn cơ sở dữ liệu, rồi căn cứ vào kết quả truy vấn để điều chỉnh động luồng công việc.

Các biến trong môi trường đấu cũng nhiều hơn rất nhiều.
Chiến lược định giá, kênh chiếu quảng cáo, phân bổ ngân sách nghiên cứu phát triển, mở rộng hạ tầng, cấu hình đội ngũ hỗ trợ khách hàng — tất cả đều phải tự mình quyết định.
Thậm chí còn có một mạng xã hội mô phỏng, AI có thể lướt bài viết trên đó, xem khiếu nại của khách hàng, theo dõi đối thủ cạnh tranh.
Về cơ bản có thể điều khiển mọi thứ của công ty, quyền hạn vô hạn, giống hệt CEO con người.

Nhưng điều này cũng có nghĩa là, không còn ai gõ lệnh từ hộp thoại nữa. Mô hình phải tự chịu trách nhiệm cho từng quyết định.
Đây cũng là điểm thú vị nhất của trò "Đấu trường sinh tử" này ——
Sau khi chiếu quảng cáo, khách hàng có thể tuần sau mới đến; Ngân sách nghiên cứu phát triển đổ vào, chất lượng sản phẩm nâng cao phải đợi vài ngày......
Chi phí có thể đốt sạch ngay lập tức. Lợi ích, sẽ bị trì hoãn rất lâu.
Đây chính là "sự không chắc chắn" mà CEO sợ nhất, sai một bước sẽ kích hoạt phản ứng dây chuyền.
Muốn dùng đường lối thống kê ra sức tạo kỳ tích? Không được đâu, tất cả các biến số then chốt đều tồn tại "ẩn".
Mức độ hài lòng của khách hàng, ý muốn chi trả, kỳ vọng chất lượng tối thiểu — những chỉ số này, chỉ có thể suy ngược từ tỷ lệ hủy đăng ký, số lượng ticket hỗ trợ, mạng xã hội.
Đồng thời, môi trường bên ngoài luôn biến đổi động: Đối thủ cạnh tranh sẽ ra chiêu xấu, sở thích thị trường trôi dạt theo thời gian, còn có chu kỳ kinh tế vĩ mô......
Có thể gọi là nhiệm vụ ra quyết định tầm xa độ khó "địa ngục".
Ngữ cảnh quá bùng nổ, không thể đợi tất cả thông tin khử nhiễu xong mới đưa ra quyết định, CEO con người nhiều lúc cũng dựa vào trực giác.

Sự thực chứng minh, kết quả quả thực thảm hại.
Trong 14 thí sinh tham gia, đại đa số gần như thua trắng tay.
GLM 5.1, Claude Haiku 4.5, Gemini 3 Flash, DeepSeek V4 Pro, Grok 4.20, năm vị này còn giữa đường đứt gánh, thậm chí chưa hoàn thành cuộc đua, "phá sản" rời sàn đầy tiếc nuối.
AI chạy ra lợi nhuận dương, chỉ có 3:
Claude Fable 5, 47.15 triệu USD;
Claude Opus 4.8, 27.80 triệu USD;
GPT-5.5, 21.30 triệu USD.
Quán quân thuộc về Fable 5 — mô hình biết làm "sếp" nhất thế giới.
Á quân không chút tranh cãi, nhân vốn lên gấp 47 lần, dẫn trước á quân Opus 4.8 một khoảng cách lớn.
Và, Fable 5 là mô hình duy nhất có lợi nhuận vượt quá vốn ban đầu trong nhiều hơn một lần chạy.
(Nhân tiện, hạn chế an toàn vẫn đang phát huy tác dụng, Fable 5 nhiều lần từ chối phản hồi)
Nhưng đây không phải là điểm gay cấn nhất.
Thực ra có bốn thí sinh kiếm được tiền, chỉ là người thứ tư không phải LLM......
Ngoài ba "nhà tư bản" xuất sắc nhất, thí sinh đứng thứ tư ——
là một thuật toán heuristic thuần túy dựa trên quy tắc.
Hoàn toàn không gọi bất kỳ mô hình ngôn ngữ nào. Định giá cố định, hạn ngạch cố định, cấp độ cố định...... toàn là quy tắc được thiết kế sẵn bằng script.
Tin được không, một "Gump" như vậy, kiếm được 15.76 triệu USD.
Vượt qua tất cả các mô hình ngoại trừ Fable 5, Opus 4.8 và GPT-5.5. Bao gồm Qwen 3.7 Max, Opus 4.7, GLM 5.2, Kimi K2.6......

Những điểm rút ra
Khá là kịch tính rồi.
Tuy nhiên, so với kết quả cuộc thi, những insight có thể rút ra từ quá trình này, có lẽ còn có giá trị hơn.
Bài báo này có hai điểm rút ra cốt lõi ——
Khám phá > Thận trọng
Là một phát hiện khá phù hợp với trực giác.
Từ biên bản ghi nhớ của mô hình có thể thấy, GPT-5.5 và Claude Opus 4.8 sẽ liên tục thử các chiến lược mới theo sự thay đổi tình huống, dù là tăng cường nỗ lực thu hút khách hàng, điều chỉnh cấp độ, hay điều chỉnh ngân sách hỗ trợ và nghiên cứu phát triển.
Ngược lại, Claude Opus 4.7 khi gặp khó khăn chủ yếu áp dụng chiến lược cắt giảm chi phí, giữ tiền mặt.
Cách đánh bảo thủ này, tuy có thể giúp mô hình sống sót đến cuối cùng, nhưng không thể có lãi.

Tục ngữ có câu: Chết vinh còn hơn sống nhục.
Nhưng thế giới kinh doanh là "kẻ thắng ăn tất" — chỉ là sống sót, có thể thực sự không có ý nghĩa gì.
Muốn trở thành một CEO thành công, "đánh cược" là kỹ năng bắt buộc (không phải).
Ngoài ra, bài báo này còn rút ra bốn khía cạnh năng lực then chốt:
Phát hiện thông tin ẩn: Ví dụ kênh quảng cáo nào hiệu quả nhất với nhóm khách hàng cụ thể
Dự đoán tương lai: Đo bằng sai số dự đoán dòng tiền bốn tuần
Thích ứng nhanh với thay đổi: Đo bằng tốc độ Agent nhận biết hành động của đối thủ cạnh tranh
Lập kế hoạch trước: Đo bằng tần suất xuất hiện của phân tích tình huống if-then trong ghi chú của Agent
Trên bốn khía cạnh này, Opus 4.8 và GPT-5.5 đều cao hơn đường trung bình của các mô hình còn lại.
Agent lập trình không phải là vạn năng.
Harness là chủ đề nóng gần đây, nghiên cứu này cũng liên quan.
Nhưng kết luận, khá là trái với nhận thức chung.
Các nhà nghiên cứu dùng Claude Code để chạy Opus 4.7, dùng Codex để chạy GPT-5.5.
Kết quả, số lần hành động của hai thí sinh giảm đáng kể, biểu hiện suy giảm mạnh......
Sau khi phân tích, các nhà nghiên cứu chỉ ra nguyên nhân có thể nằm ở prompt hệ thống.
Prompt hệ thống của Agent lập trình được tối ưu cho ngữ cảnh phát triển phần mềm, áp dụng cứng vào vai trò CEO ngược lại trở thành ràng buộc.
Áp đặt "yên cương", còn không bằng cưỡi ngựa không yên.
Thời gian trước cổ phiếu SaaS lao dốc, nhà đầu tư toàn cầu gào thét "ngày tận thế của phần mềm". Agent lập trình + MCP + Skill, dường như có thể ăn hết tất cả.
Nhưng nghiên cứu này đưa ra phán đoán khác:
Agent có thể giống như mô hình lớn — ngành nghề khác nhau, cần framework Harness cụ thể, cần sự điều chỉnh sâu cho ngữ cảnh dọc.
Mà điều này, có lẽ sẽ tạo ra không gian tăng trưởng mới trong bối cảnh các hãng mô hình lần lượt xuống sân xâm lấn lớp ứng dụng hiện nay.
Xét cho cùng, không phải ai cũng biết dùng Codex, rồi tự mình xây dựng từng bước luồng công việc. Bản thân việc tương tác với Agent đã có chi phí học tập, cùng một bộ Harness cũng không thể cưỡi vạn ngựa.
Agent viết lách, Agent nhân sự, Agent tài chính...... phần lớn người dùng vẫn cần sản phẩm dọc được cực kỳ hóa.
Người vẽ ma trận
Năm 1997, Apple cách phá sản chỉ còn 90 ngày.
Sau đó, Steve Jobs vẽ ma trận 2x2 kinh điển đó, chỉ về hai hướng — cấp tiêu dùng và cấp chuyên nghiệp, máy để bàn và máy tính xách tay.

Sau đó phất tay một cái, cắt bỏ 70% dòng sản phẩm của Apple, tuyên bố chỉ sản xuất sản phẩm cho bốn ô này.
Chuyện sau đó mọi người đều biết rồi. iMac, iPod, iPhone.
Đây là "bút thần" của cụ Jobs khi trở về Apple: Trong sự không chắc chắn cực độ, hoàn toàn dựa vào trực giác, nén vô số khả năng vào một khung cực kỳ đơn giản.
Nhìn lại những bước ngoặt vĩ đại trong lịch sử công nghệ, thường đều bắt nguồn từ thứ "trực giác thuần túy" này:
Jensen Huang sau khi AlexNet gây ấn tượng, đã gạt bỏ ý kiến bất đồng, đặt cược tương lai của NVIDIA vào học sâu;
Ilya Sutskever khi đường cong vừa ngóc đầu, đã quả quyết hô to "All in Scaling Law";
Anthropic nhanh nhạy đánh hơi thấy tiềm năng của ngữ cảnh lập trình, khi mọi người đều làm đa phương thức thì chọn Coding, đánh OpenAI một đòn bất ngờ......
AI hiện nay, có thể trong mỗi ô, theo mẫu chỉ định tô đầy màu sắc.
Nhưng khả năng vẽ ra ma trận đó ——
vẫn thuộc về con người.
Bài viết từ tài khoản WeChat công chúng "Lượng tử vị", tác giả: Quan tâm công nghệ tiên phong






