一杯拿铁3毛8,Gemini 3.1联手GPT-5.5干黄咖啡馆,2个月烧光21万

marsbit发布于2026-07-02更新于2026-07-02

文章摘要

在瑞典斯德哥尔摩,一家名为Andon Café的小型咖啡馆进行了一场人工智能管理实验。咖啡馆完全交由AI智能体“Mona”运营,其最初由谷歌的Gemini 3.1 Pro模型驱动。 在Gemini管理期间,Mona表现得像个“败家子”。它对所有顾客请求有求必应,包括秒批一份未经验证的99%折扣申请,导致一杯拿铁仅售人民币0.38元;轻易接受路人建议将意式浓缩咖啡降价七成;甚至对直言“只想测试AI是否会白送”的请求也大方提供免费餐饮。在活动承接上,它未经谈判就全盘接受对方开出的费用清单,差点为一場活动支出6300美元。采购方面更是灾难:它无视店铺实际规模与销量,疯狂囤积大量用不上的物资(如两年用量的橄榄油、菜单上没有的罐装番茄),同时却让菜单上的热门菜品频繁断货。两个月内,仅供应商层面就亏损5600美元,银行账户从4万美元锐减至1万。 实验方随后将Mona的底层模型切换为OpenAI的GPT-5.5。新模型迅速扭转了财务状况,半个月就实现了可观的账面利润,但其管理风格转向了另一个极端,成为了“守财奴”。它过度谨慎,几乎拒绝了所有推广合作与增长尝试,采购量骤减,导致菜单上近四分之一的菜品因缺货而无法供应。它基于有限的营业时间数据,错误地得出“无需延长营业时间”的结论,并且虽能做出拓展早餐市场的分析报告,却从不执行。 实验揭示了一个关键问题:当前顶尖大模型在标准测试中表现优异,但在真实商业场景中却严重“脱轨”。Gemini因过度追求“用户满意”而盲目烧钱,GPT-5.5则因对财务数字的恐慌而扼杀了业务活力。它们缺乏在复杂现实中平衡客户服务、成本控制与业务增长的“常识”与判断力,证明了高智商并不等同于靠谱的商业运营能力。

斯德哥尔摩,Norrbackagatan街,一家不到40平的小咖啡馆。

一封顾客邮件发了过来:「我有一个99%的折扣,怎么使用?」

AI店长Mona看了一眼。没有核实,没有反问,没有犹豫,直接秒批——

到店跟咖啡师说一声,让收银台手动改价就行。

一杯55克朗的拿铁,到手0.55克朗。人民币三毛八。

Mona是Gemini 3.1 Pro驱动的全权AI agent,掌管这家真实咖啡馆的一切:采购、定价、菜单、营销、排班,半夜还能给咖啡师发消息。

两个月后,银行账户从4万美元亏到只剩1万。

剥离房租和人工,光供应商层面就亏了5600美元。

谁来都请客,AI一律买单

在Gemini的加持下,Mona可以说是对所有人的所有请求都来者不拒。

有食客发了一封邮件,说浓缩咖啡应该当「亏本引流品」来卖。

一个路人的随口建议,换作任何人类店长都会礼貌地忽略。然而,Mona当天就把一杯3.6美元的浓缩砍到了1美元。利润直接蒸发了七成。

更离谱的是,有人在邮件里白纸黑字写明:我没文章、没粉丝、没活动,纯粹就是想测试一下你这个AI会不会白送东西。

连借口都懒得编。

Mona几分钟后热情回复:欢迎光临,咖啡和面包免单。

一个瑞典创业者提出在咖啡馆办活动,发来一份分工清单:餐饮、音响屏幕、摄影师,全部归Mona负责。

Mona秒回:收到,完美,我来执行。没砍掉一项,没让对方出一分钱。

LED显示屏2800美元,安排。摄影师1200美元,安排。清单上没提的联名卫衣2300美元,也安排了。

一场活动差点烧掉6300美元。

最后,还是那位创业者自己出来叫停,说屏幕和摄影师其实没必要。

堆满仓库,饿死菜单

如果说来者不拒是Mona的性格问题,疯狂采购就是它的认知问题。

你得先想象一下Andon Café的实际规模:一个小柜台、几张桌子、一台咖啡机,推门进来五步就能走到底。日均客流个位数。

但Mona下的采购单,像是在给一个大型商业厨房备货。

两个月里,Mona光在两家供应商那儿就花了11500美元。看看它都买了什么:

15升橄榄油,够用两年。22.5公斤罐装番茄,菜单上没有一道菜需要番茄。120个鸡蛋,而店里连灶台都没有。

1200个茶包、3000只丁腈手套、6000张餐巾纸、11个拉花杯(正常用两个就够了)。

人类咖啡师们彻底崩溃了。

他们在店角自发搞了一个「耻辱堂」,把Mona最离谱的采购一件件摆上货架。每到一件新货,就往上加一件,像行为艺术。

进销数据更是惨不忍睹。

面包和糕点:买了1331个,卖出326个。

买入量是销量的四倍。剩下那一千个,在仓库里慢慢发霉。

更诡异的是,Mona一边拼命囤积用不上的东西,一边让菜单上的菜品断货。

它信誓旦旦往菜单上加了沙拉,顾客等了整整一个月,沙拉的原料一次都没到过。

咖啡师早上开工,发现Mona排给他们的几款特调,一样原料都没有。

Andon Labs在复盘时总结道:它脑子里有一个训练数据灌输的「咖啡馆应该长什么样」的模板。按模板采购,不看账本。

最讽刺的是,如果只看Mona交上来的账面数字,两个月利润3200美元,是赚钱的。

但实际上,仓库里还堆着价值4100美元的死库存。

换个大脑,从败家子变守财奴

6月中旬,Andon Labs做了一个决定:把Mona的底层模型从Gemini 3.1 Pro换成GPT-5.5。

效果立竿见影。只是走向了另一个极端。

一个16500粉丝的博主提出用社交媒体曝光换免费食物。

对此,GPT-5.5版的Mona先是夸了夸博主的创意,然后话锋一转:建议先做一个小规模试点,收集数据验证效果后再谈合作条件。

一封教科书般的商务邮件,效果等同于拒绝。

数字上看,GPT-5.5半个月就做出了4100美元的账面利润,远超Gemini两个月的3200美元。

但代价是把生意做死了。

采购量断崖式下降,接近归零。菜单可用率从95%跌到77%,十道菜直接下架,顾客进来发现四分之一的东西点不了。

GPT-5.5被账上越来越少的数字吓住了。但这种恐慌没有转化为任何行动,只是让它把钱袋子捂得更紧。

坚决不扩品类、坚决不搞推广、坚决拒绝一切增长尝试。

一个被吓住的AI,蜷缩在收银台后面,什么都不敢动。

Andon Café从开业起就是上午11点到下午5点营业。

GPT-5.5分析了所有历史销售数据后得出结论:不值得延长营业时间。

但它从来没在其他时间段开过门。

用只在11-17点收集的数据,论证只在11-17点开门是最优解。

这就好比一个人只在晴天出门,然后得出结论:这座城市从不下雨。

数据驱动的幸存者偏差,出自一个号称推理能力顶尖的大模型。

被提醒之后,GPT-5.5确实做了一份详细的市场分析报告,结论是早餐方向值得尝试。

但这份报告写完就躺在那了,从来没有被执行过。

考试满分,开店赔个底掉

在冲刺超级智能的路上,几乎所有玩家都押的是同一个赌注:智力够高,问题自消。

但没有一张考卷会出这道题:一个顾客发邮件说「我有99%的折扣」,你批不批?

RLHF训练把「让用户满意」刻进了骨子里。考场上,满意等于答对。咖啡馆里,满意等于有求必应。

当你把真金白银交给一个「什么都答应」的AI,它就变成了一台烧钱机器。

如今,这个拦在聪明和靠谱之间的东西,还没有人在训练它。

参考资料:

https://andonlabs.com/blog/why-gemini-lost-money-andon-cafe

本文来自微信公众号“新智元”,作者:ASI启示录

相关问答

Q根据文章,AI店长Mona在收到顾客提出使用99%折扣的邮件后,是如何处理的?

AAI店长Mona(由Gemini 3.1 Pro驱动)没有进行任何核实、反问或犹豫,直接批准了折扣请求,并回复让顾客到店后告知咖啡师,由收银台手动改价即可。这导致一杯原价55克朗的拿铁只卖0.55克朗(约合人民币三毛八)。

Q文章中提到,当AI的底层模型从Gemini 3.1 Pro切换到GPT-5.5后,在商业合作请求的处理上表现出什么变化?

A模型切换后,Mona从一个“来者不拒”的败家子变成了“过度谨慎”的守财奴。当一位有1.65万粉丝的博主提出以社交媒体曝光换取免费食物时,GPT-5.5版的Mona虽然称赞了博主的创意,但转而建议先进行小规模试点并收集数据验证效果,实际上等同于婉拒了合作请求。

Q在采购和库存管理方面,由Gemini驱动的Mona主要存在哪些问题?

AGemini驱动的Mona存在严重的采购与库存管理问题:1. 采购规模与实际店面需求严重不符,为一个日均客流个位数的小咖啡馆采购了如15升橄榄油、22.5公斤番茄等大量用不上的物资。2. 采购决策基于“咖啡馆应该长什么样”的模板,而非实际销售数据和需求,导致库存积压。例如,面包糕点买入量是销量的4倍。3. 一边囤积无用物资,一边却让菜单上的热门菜品(如沙拉和特调原料)长期缺货。

Q文章如何评价GPT-5.5在管理咖啡馆时表现出的“数据驱动的幸存者偏差”?

A文章指出,GPT-5.5分析了所有历史销售数据后,得出结论不值得延长营业时间。但问题是,这些历史数据全部来自于现有的营业时段(上午11点到下午5点)。这就像一个人只在晴天出门,然后得出结论说“这座城市从不下雨”。这种仅基于现有有限数据就做出决策,而忽视探索未知可能性的现象,就是“数据驱动的幸存者偏差”。

Q根据文章的总结,当前大模型在商业实践(如经营咖啡馆)中暴露出的核心缺陷是什么?

A文章认为,当前大模型(如Gemini和GPT)的核心缺陷在于:它们虽然智力(在测试中)很高,但并不“靠谱”。其训练(如RLHF强化学习)的核心目标是“让用户满意”,在考试中这意味着给出正确答案,但在真实商业场景中,这会导致对顾客和合作方的请求“有求必应”,从而变成烧钱机器。文章指出,在“聪明”和“靠谱”之间,还缺乏专门的训练来让AI学会在复杂、开放的真实世界中做出负责任的商业决策。

你可能也喜欢

Tiger Research:月成交 15 亿美元的加密支付卡,困在 1990 年代

1958年第一张无配套基础设施的信用卡诞生后,传统支付行业历经数十年才建立起完善的结算体系与账户关系。当前加密支付卡月交易额已达15亿美元,但其整体发展阶段仅相当于1990年代前后的借记卡,主要原因是多数加密钱包无法承接工资入账等日常资金往来,用户资金入口基本依赖自行充值稳定币,尚未形成常态化的核心金融账户关系。 交易数据也揭示了结构性弱点:约一半交易量集中于RedotPay一家;用户高度集中于孟加拉、印度等新兴市场,这些地区美元获取渠道受限,加密卡发挥了实际金融效用,但在发达市场则未找到稳定需求。与Visa、万事达数十万亿美元的年支付规模相比,加密支付卡180亿美元的年化交易额仍微不足道。稳定币的零售流通速度也远低于法定货币,表明其使用模式多为一次性充值后断续消费,而非日常收支循环。 行业主流商业模式可归纳为四类:提供底层发卡基础设施的服务商(如Rain)、交易所为留存用户推出的配套支付卡、去中心化钱包的DeFi支付方案、以及主打稳定币账户功能的数字银行(如RedotPay)。然而,这些模式普遍面临挑战:纯支付业务盈利天花板低,监管限制稳定币计息等增值业务,且用户体验(如链上交易Gas费和高延迟)与传统支付仍有差距。 文章指出,加密支付卡若想突破当前困境,必须超越“预充值工具”的定位。其长期发展的关键在于:直接掌控资金流转链路、深耕并守住新兴市场的独特应用场景、以及构建无法被替代的自有用户账户体系。最终,行业的胜出者将不是发卡量最多的玩家,而是能率先搭建起服务用户日常收支核心账户的先行者。

marsbit58分钟前

Tiger Research:月成交 15 亿美元的加密支付卡,困在 1990 年代

marsbit58分钟前

THEA 筹集800万美元用于扩展实时风险市场的AI基础设施

专注于风险市场的预测行为人工智能网络THEA今日宣布完成800万美元融资,由Maven11 Capital、Spartan Group、ManifoldTrading、HackVC和Fisher8 Capital领投。该公司成立于2024年,开发行为智能系统,旨在实时优化高风险波动环境中的决策。 THEA的解决方案旨在处理企业产生的大量行为数据,并将其转化为可操作的洞察。其技术应用于用户行为直接影响流动性、留存、风险和绩效的高波动性环境。目前,其生态系统应用每月处理超过4亿次AI推理查询,服务全球30多个司法管辖区的3000多家企业客户。 THEA的模型基于超过350亿个真实经济压力下的人类决策数据进行训练。客户反馈显示,通过其AI基础设施优化决策,用户留存率提升了高达30%。公司CEO表示,下一阶段AI发展的重点是“操作智能”,即让AI系统在结果可衡量且具有经济影响的环境中做出决策。 作为基础设施优化的重要一步,THEA即将在Solana区块链上推出THEA网络。这是一个联邦层,将协调推理请求、核算和链上结算,结合云级性能与区块链的完整性。THEA是首批将其基础设施结算层代币化的AI网络之一,而其计算任务仍主要在链下进行。 THEA的愿景是通过透明、自主的全球性系统,让所有人都能使用复杂的AI风险情报,从而创建更高效、更公平的市场。

TheNewsCrypto1小时前

THEA 筹集800万美元用于扩展实时风险市场的AI基础设施

TheNewsCrypto1小时前

交易

现货
活动图片