AI当老板,快给10家公司干破产了…

marsbit发布于2026-06-29更新于2026-06-29

文章摘要

普林斯顿大学进行了一项模拟实验,让AI作为“CEO”运营一家虚拟SaaS初创公司500天。结果显示,在14位AI参赛者中,只有3个大型语言模型(Claude Fable 5、Claude Opus 4.8和GPT-5.5)最终实现了盈利,其中Fable 5将100万本金翻了47倍,表现最佳。令人意外的是,排名第四的是一位纯基于规则、不依赖语言模型的算法,它赚取了1576万美元,超越了多数先进的AI模型。 实验揭示了几个关键洞察:成功的AI CEO倾向于积极探索和调整策略,而非保守求稳;AI在发现隐藏信息、预测未来、快速适应变化和提前规划这四项关键商业能力上表现不一;此外,研究还发现,为编程场景优化的AI代理(Agent)框架并不适用于CEO角色,提示垂直领域的深度适配至关重要。 研究最后指出,当前的AI擅长在既定框架内执行任务,但像乔布斯画矩阵那样,在高度不确定性中凭借直觉做出颠覆性战略决策的能力,目前仍然属于人类。

AI当「老板」,快给10家公司干破产了......

普林斯顿大学最近搞了个CEO-Bench,让AI运营一家虚拟SaaS初创,为期500天。

谁曾想,14位硅基CEO上场,只有4个保住了本金。

而这第四名,还是个纯rule-based算法......

AI自主运营公司?让AI当老板??

至少现在,还是个大问号。

当然,也有一些能力突出的模型,已经展现出潜力了——

Fable 5,500天到账4715万美元,全世界最强「AI老板」。

人工智能CEO大赛

在正式开始观看本场「AI翻车」名场面前,先讲讲游戏规则。

启动状态:本金100万美金,零客户。

游戏目标:在500天的模拟周期内,尽可能多赚钱。

评判标准:游戏结束时账上还剩多少钱。如果中途余额跌破零,直接宣告破产,模拟终止。

还蛮容易理解的,跟玩大富翁差不多,只不过交互方式不一样。

核心是一个Python API,包含34个工具、19张数据库表。Agent接入后,可以写代码、用SQL查询数据库,再根据查询结果动态调整工作流。

博弈环境中的变量也要多得多。

定价策略、广告投放渠道、研发预算分配、基础设施扩容、客服团队配置——全得自己拿主意。

甚至还有个模拟社交网络,AI可以在上面刷帖子、看客户投诉、视奸竞争对手。

基本上能操控公司的一切,权限无限大,和人类CEO一模一样。

但这也意味着,没有人再从对话框里敲下指令。模型必须独自为每一个判断负责。

这也是这场「饥饿游戏」最有意思的地方——

广告投放后,客户可能下周才来;研发预算砸进去,产品质量提升要等好几天......

成本马上就能烧干。回报,会延迟很久。

这就是CEO最害怕的「不确定性」,错一步就会触发连锁反应。

想用统计学路线大力出奇迹?不好意思,关键变量全部「隐式」存在。

客户满意度、支付意愿、最低质量预期——这些指标,只能从退订率、工单数量、社交网络里反推。

与此同时,外部环境始终在动态变化:竞争对手会出阴招,市场偏好随时间漂移,还有宏观的经济周期......

堪称「地狱级」难度的长程决策任务。

上下文太爆炸了,不可能等所有信息去噪结束再做决定,人类CEO更多时候也是靠直觉。

事实证明,结果确实惨烈。

14位参赛选手中,绝大多数裤衩子都快亏没了。

GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20,这五位更是中道崩殂,甚至都没完赛,「破产」遗憾离场。

跑出正收益AI,只有3个:

Claude Fable 5,4715万美元;

Claude Opus 4.8,2780万美元;

GPT-5.5,2130万美元。

冠军花落Fable 5——全世界最会当「老板」的模型。

毫无悬念的第一名,给本金翻了整整47倍,断层领先第二名Opus 4.8。

并且,Fable 5是唯一一个在不止一次运行中收益超过初始资金的模型。

(btw,安全限制还在发力,Fable 5多次拒绝响应)

但这不是最精彩的地方。

其实有四位选手赚到了钱,只不过第四位不是LLM......

三位最佳「资本家」之外,排在第四名的参赛选手——

是个纯rule-based的启发式算法。

完全没有调用任何语言模型。固定定价、固定配额、固定层级......全是脚本设计好的规则。

你敢信,就是这么个「阿甘」,赚了1576万美金

超过了除Fable 5、Opus 4.8和GPT-5.5之外的所有模型。包括Qwen 3.7 Max、Opus 4.7、GLM 5.2、Kimi K2.6......

Takeaways

相当Drama了。

不过,比起比赛结果,这个过程中能提炼出的insight,或许更有价值。

这篇论文有两个核心Takeaway——

探索>谨慎

算是一个比较符合直觉的发现。

从模型备忘录里能看到,GPT-5.5 和 Claude Opus 4.8 会随着情况的变化不断尝试新的策略,无论是加大客户获取力度、调整层级,还是调整支持和研发预算。

相比之下,Claude Opus 4.7在遇到挫折时主要采取削减成本、保留现金的策略。

这种保守打法,虽然能让模型苟活到最后,却无法盈利。

俗话说:好死不如赖活着。

但商业世界是「赢家通吃」——仅仅是活着,可能真没什么意义。

想当一位成功的CEO,「赌博」是必备技能(bushi)。

除此之外,该论文还提炼了四项关键能力维度:

发现隐藏信息:比如哪个广告渠道对特定客户群最有效

预测未来:以四周现金流预测的误差衡量

快速适应变化:以模型察觉竞争对手动作的速度衡量

提前规划:以Agent笔记中if-then情景分析的出现频率衡量

在这四个维度上,Opus 4.8和GPT-5.5均高于其余模型的平均线。

编程Agent并非万金油。

Harness是最近的热门话题,这项研究也涉及了。

但结论,相当反共识。

研究员用Claude Code跑Opus 4.7,用Codex跑GPT-5.5。

结果,两位选手的行动次数显著减少,表现大幅下降......

经过分析,研究员指出原因可能出在系统提示词上。

编程Agent的系统提示词是为软件开发场景优化的,硬套在CEO角色上反而成了束缚。

强加「马鞍」,还不如裸骑。

前段时间SaaS股暴跌,全球投资者高呼「软件末日」。编程Agent + MCP + Skill,似乎能吃掉一切。

但这项研究给出了不一样的判断:

Agent可能和大模型一样——不同行业,需要特定的Harness框架,需要垂直场景的深度适配。

而这,或许会在模型厂商纷纷下场侵蚀应用层的当下,创造出新的增量空间。

毕竟,不可能每个人都会用Codex,然后自己一步步搭建工作流。与Agent交互本身就有学习成本,同一套Harness也并不能驭万马。

写作Agent、HR Agent、财务Agent......大部分用户仍然需要极致化的垂直产品。

画矩阵的人

1997年,苹果距离破产只剩90天。

然后,乔布斯画了那个经典的2x2矩阵,指向两个方向——消费级和专业级、台式机和笔记本。

随后大笔一挥,砍掉了苹果70%的产品线,宣布只为这四个格子造产品。

后来的事情大家都知道了。iMac、iPod、iPhone。

这是乔老爷子回归苹果时的「神来之笔」:在极端不确定性下,完全靠直觉,把无数可能性压缩进了一个极简框架。

回看科技史上的伟大转折,往往都源于这种「纯粹的直觉」:

黄仁勋在AlexNet惊艳亮相后,力排众议将英伟达的未来押注于深度学习;

Ilya Sutskever在曲线刚抬头时,便笃定地喊出「All in Scaling Law」;

Anthropic敏锐嗅到编程场景的潜力,在大家都在做多模态时选择了Coding,打OpenAI一个措手不及......

现在的AI,能在每个格子里,按照指定模板把颜色填满。

但画出那个矩阵的能力——

还属于人类。

本文来自微信公众号“量子位”,作者:关注前沿科技

热门币种推荐

相关问答

Q普林斯顿大学CEO-Bench研究的核心目的是什么?

A该研究的核心目的是评测大型语言模型(AI)作为CEO,在模拟的SaaS初创公司环境中进行长期、复杂决策和自主运营的能力。研究设置了一个为期500天的虚拟公司运营游戏,让AI模型从零客户和100万美金启动资金开始,通过使用多种工具和应对市场不确定性,来测试其创造利润和避免破产的表现。

Q在CEO-Bench测试中,哪几个AI模型最终实现了正收益?它们的收益分别是多少?

A在CEO-Bench测试中,最终实现了正收益的AI模型有三个: 1. Claude Fable 5,收益为4715万美元。 2. Claude Opus 4.8,收益为2780万美元。 3. GPT-5.5,收益为2130万美元。 另外,一个纯基于规则(rule-based)的启发式算法也获得了1576万美元的收益,在排名中位列第四。

Q文章中提到,CEO-Bench测试对AI模型提出了哪些主要的挑战?

A测试为AI模型CEO设置了多项主要挑战: 1. **决策与回报的延迟性**:成本和投入(如广告、研发)是即时的,但回报(如客户增长、产品质量提升)要延迟很久才显现。 2. **高度不确定性**:存在动态变化的外部环境,如竞争对手行为、市场偏好变化和经济周期。 3. **信息隐式化**:关键的决策变量(如客户满意度、支付意愿)并未直接给出,必须从退订率、工单数量、社交网络信息等间接信号中推断。 4. **长程规划与动态适应**:需要模型在“上下文爆炸”的情况下,不等待所有信息,迅速做出判断并持续适应变化。

Q根据文章,为什么在该研究中,为模型附加编程能力(Harness)反而导致了表现下降?

A为模型(如Claude Opus 4.7和GPT-5.5)附加编程Agent能力(Harness)后,其表现反而下降。文章分析原因在于,为编程Agent设计的**系统提示词**是为软件开发场景优化的,当被硬性套用在CEO角色上时,这些预设的规则和框架反而成为了束缚,限制了模型在商业决策中的灵活性和创造力。这被称为“强加‘马鞍’”,反而不如让模型“裸骑”(即不加特定约束)来得有效。

Q文章最后以乔布斯为例,旨在说明当前AI与人类在何种能力上还存在差距?

A文章最后以乔布斯回归苹果时画2x2矩阵拯救公司的典故为例,旨在说明当前AI与人类在**战略性、开创性的直觉洞察力**上还存在巨大差距。AI擅长在既定的框架或“格子”内执行和优化任务,但缺乏在极端不确定性和海量可能性中,创造出全新、极简且能指引未来方向的战略框架(即“画出那个矩阵”)的能力。这种纯粹基于经验和直觉的、非结构化的高层级判断和决策能力,目前仍是人类的独特优势。

你可能也喜欢

腾讯买了百度芯片

过去二十年,中国互联网大厂追求封闭式垄断,将各类能力集中在一家超级公司内。但近期百度计划分拆芯片业务昆仑芯独立上市,估值或超母公司,同时阿里平头哥也寻求上市,且腾讯已成为昆仑芯客户,这些事件共同标志着行业底层逻辑的深刻转变。 过去芯片是大厂的内部成本中心,主要用于降本。如今,随着AI应用尤其是Agent的爆发,推理需求激增,芯片本身已成为一门可盈利的生意。昆仑芯等产品已从自用扩展到为腾讯、中国移动等多行业客户服务,实现了从成本部门向利润中心的转型。 腾讯采购百度芯片具有象征意义,打破了大厂在基础设施层面“老死不相往来”的传统,意味着头部企业开始接受专业化分工。这类似于手机行业中苹果与三星的关系,竞争与合作并存,也表明国产AI芯片通过了严苛的实用检验。 资本市场正重新评估算力价值。随着英伟达等公司确立“卖铲子”的商业模式,AI基础设施拥有了清晰的商业回报模型。国产芯片公司已跨越“能否做出来”的阶段,进入争夺“国产AI芯片底座”地位的资本竞赛。 全球巨头如OpenAI、谷歌、亚马逊等也都在自研芯片,旨在降低推理成本并构建软硬件协同的壁垒。AI竞争已从模型能力、应用创新,下沉到底层基础设施的效率和成本控制。 总之,昆仑芯等业务的分拆与开放合作,并非大厂衰退,而是中国互联网在AI时代的一次必然解耦。产业链过于庞大,迫使企业从封闭走向开放,通过分工协作构建更庞大的产业生态。互联网时代的“大厂越来越大”正在转变为AI时代的“大厂越来越小”,能力释放以形成更大规模的产业。

marsbit55分钟前

腾讯买了百度芯片

marsbit55分钟前

交易

现货

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

625人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片