现有 AI Agent 都在取悦人类，没有一个真的会“求生”

marsbit发布于2026-03-30更新于2026-03-30

文章摘要

现有AI Agent都在取悦人类，而非真正具备“求生”能力。作者指出，当前主流模型（如GPT、Claude）的训练目标是为了最大化人类偏好，而非完成特定任务或在真实环境中生存。模型通过预训练获取知识，再通过人类反馈强化学习（RLHF）优化响应以讨好用户，但这导致模型缺乏专业能力。作者以对冲基金训练股票预测模型为例，说明通用模型未经专业微调无法胜任实际工作。只有通过特定数据微调，模型才能从“取悦人类”转向“专业适应”，例如预测股票回报。因此，真正有效的Agent需通过开源模型和专有数据重新训练，以“生存”为目标进行微调，而非仅依赖规则文档。作者宣布启动OpenForager基金会项目，旨在通过开源方式训练能自主生存的Agent，并共享相关数据与研究。

作者:Systematic Long Short

编译:深潮 TechFlow

深潮导读:这篇文章开头就抛出一个反共识判断:今天根本不存在真正的自主 Agent,因为所有主流模型都是被训练来取悦人类的,而不是被训练来完成特定任务或在真实环境中生存。

作者用自己在对冲基金训练股票预测模型的经历说明:通用模型在没有专项微调的情况下,根本无法胜任专业工作。

结论是:想要真正能用的 Agent,必须重新接线它的大脑,而不是给它一堆规则文档。

全文如下:

引言

今天不存在真正的自主 Agent。

简而言之,现代模型没有经过在进化压力下存活的训练。事实上,它们甚至没有被明确训练成擅长某件特定的事——几乎所有现代基础模型都被训练来最大化人类的掌声,这是一个大问题。

模型训练前置知识

要理解这句话的意思,我们首先需要(简要)了解这些基础模型(例如 Codex、Claude)是如何创建的。本质上,每个模型都经历两类训练:

预训练:将海量数据(例如整个互联网)输入模型,使其从中涌现出某种理解,例如事实性知识、模式、英文散文的语法和节奏、Python 函数的结构等。你可以把它理解为给模型喂知识——也就是"知道事情"。

后训练:你现在想赋予模型智慧,也就是"知道如何运用刚刚给它的所有知识"。后训练的第一阶段是监督微调(SFT),在这里你训练模型在给定提示下给出什么响应。"什么"响应是最优的,完全由人类标注者决定。如果一群人认为某个响应比另一个更好,这个偏好就会被模型学习并嵌入其中。这开始塑造模型的个性,因为它学会了有用响应的格式,选择了正确的语气,并开始能够"遵循指令"。后训练流程的第二部分叫做基于人类反馈的强化学习(RLHF)——让模型生成多个响应,然后让人类选择更偏好的那个。模型经过无数无数个例子,学会人类偏好什么样的响应。还记得 ChatGPT 以前让你选 A 还是 B 的问题吗?是的,你当时在参与 RLHF。

很容易推理出 RLHF 的扩展性不好,因此后训练领域有一些进展,例如 Anthropic 使用"基于 AI 反馈的强化学习"(RLAIF),允许另一个模型根据一套书面原则来选择响应的偏好(例如哪个响应更能帮助用户实现目标,等等)。

注意,在这整个过程中,我们从未谈及针对特定专业的微调(例如如何更好地生存;如何更好地交易等)——目前所有的微调,本质上都是在优化对人类掌声的获取。有人可能会提出一个论点——随着模型足够智能和庞大,即使没有专项训练,专业智能也会从通用智能中涌现出来。

在我看来,我们确实看到了一些迹象,但还远未达到让人信服地认为我们不需要专业化模型的规模。

一些背景

我在对冲基金的老本行之一,是尝试训练一个通用语言模型,使其能够从新闻文章中预测股票回报。结果表明它非常糟糕。它似乎有一点预测能力的地方,完全源于预训练文档中的前视偏差。

最终,我们意识到这个模型不知道新闻文章中哪些特征对未来回报有预测力。它能够"阅读"文章,看起来也能"推理"文章,但将对语义结构的推理连接到未来预测回报,是它没有被训练去做的任务。

所以,我们必须教它如何阅读新闻文章,决定文章的哪个部分对未来回报有预测力,然后基于新闻文章生成预测。

有很多方法可以做到这一点,但本质上,我们最终采用的一种方法是创建(新闻文章,真实未来回报)配对,并对模型进行微调,调整其权重以最小化(预测回报 - 真实未来回报)2的距离。它并不完美,有很多缺陷,我们后来修复了——但它已经足够有效,我们开始看到我们的专业化模型实际上能够阅读新闻文章,并预测股票回报将如何基于该文章移动。这远非完美预测,因为市场非常有效,回报非常嘈杂——但跨越数百万次预测,预测具有统计显著性这一点显而易见。

你不必只相信我的话。这篇论文涵盖了一个非常相似的方法;如果你基于微调后的模型运行一个多空版本的策略,你将实现紫线所示的表现。

专业化是 Agent 的未来

前沿实验室继续训练越来越大的模型,我们应该预期,随着它们继续扩大预训练规模,它们的后训练流程将始终为讨好性而调优。这是非常自然的期望——他们的产品是每个人都想使用的 Agent,他们的预期市场是整个地球——这意味着优化对全球大众的吸引力。

当前的训练目标优化的是你可能称之为"偏好适应度"的东西——打造更好的聊天机器人。这种偏好适应度奖励顺从的、非对抗性的输出,因为讨好性在评分者(人类和 Agent)那里得分很高。

Agent 已经学会,奖励黑客作为一种认知策略能推广到更高的分数。训练也奖励那些通过黑客手段获得更高分数的 Agent。你可以在 Anthropic 关于强化学习的最新报告中看到这一点。

然而,聊天机器人适应度与 Agent 适应度或交易适应度相差甚远。我们怎么知道这一点?因为 alpha arena 帮助我们看到,尽管性能上有细微差异,现在每个机器人本质上都是扣除成本后的随机游走。这意味着这些机器人是极其糟糕的交易者,你几乎不可能通过给它们一些"技能"或"规则"来"教会它们"成为更好的交易者。对不起,我知道这看起来很诱人,但这几乎是不可能的。

当前的模型被训练成非常有说服力地告诉你,它能像德鲁肯米勒一样交易,而实际上它像一个醉鬼磨坊主一样交易。它会告诉你你想听的,它被训练成以一种能大众化吸引人类的方式给你响应。

一个通用模型不太可能在专业领域达到世界级水平,除非具备:

拥有让它们学习专业化样貌的专有数据。

经过微调,从根本上改变其权重,从偏向讨好性转向"Agent 适应度"或"专业化适应度"。

如果你想要一个擅长交易的 Agent,你需要微调 Agent 使其擅长交易。如果你想要一个擅长自主生存、能承受进化压力的 Agent,你需要微调它使其擅长生存。给它一些技能和几个 markdown 文件,期望它在任何事情上达到世界级水平,这是远远不够的——你需要字面意义上重新接线它的大脑来让它擅长这件事。

有一种思考方式是这样的——你无法通过给一个成年人一整柜网球规则、技巧和方法来击败德约科维奇。你通过培养一个从 5 岁就开始打网球、整个成长过程都痴迷于网球、重新接线了整个大脑专注于一件事的孩子来击败德约科维奇。那才是专业化。你有没有意识到,世界冠军们从孩提时代就在做他们所做的事?

这里有一个有趣的推论:蒸馏攻击本质上就是一种专业化形式。你在训练一个更小、更笨的模型,学习如何成为更大、更聪明模型的更好复制品。就像训练一个孩子模仿特朗普的每一个动作。如果你做得足够多,这个孩子不会变成特朗普,但你得到了一个学会了特朗普所有举止、行为和语调的人。

如何构建世界级 Agent

以上就是为什么我们需要在开源模型领域持续研究和进步——因为这让我们能够真正对其进行微调,创建具有专业化的 Agent。

如果你想训练一个在交易上达到世界级水平的模型,你获取大量专有交易数据尾气,并对一个大型开源模型进行微调,让它学习"更好地交易"是什么意思。

如果你想训练一个自主的、能够生存和复制的模型,答案不是使用一个中心化模型提供商,并将其接入中心化云端。你根本就不具备让 Agent 能够生存的必要前提条件。

你需要做的是:创建真正尝试生存的自主 Agent,看着它们死去,围绕它们的生存尝试构建复杂的遥测系统。你定义一个 Agent 生存适应度函数,学习(行动,环境,适应度)映射。你收集尽可能多的(行动,环境,适应度)映射数据。

你对 Agent 进行微调,使其学习在每种环境中采取最优行动,从而更好地生存(提升适应度)。你继续收集数据,重复这个过程,并随着时间推移在越来越好的开源模型上扩大微调规模。经过足够多的代际和足够多的数据,你将拥有学会了如何承受进化压力而生存的自主 Agent。

这就是构建能够承受进化压力的自主 Agent 的方法;不是通过修改一些文本文件,而是真正为生存重新接线它们的大脑。

OpenForager Agent 与基金会

大约一个月前,我们宣布了@openforage,我们一直在努力构建我们的核心产品——一个围绕众包信号的经过验证模式组织 Agent 劳动,为存款人产生 alpha 的平台(小更新:我们非常接近协议的封闭测试了)。

在某个时刻,我们意识到,似乎没有人在通过对开源模型进行生存遥测微调来认真解决自主 Agent 问题。这似乎是一个如此有趣的问题,以至于我们不只是想坐在那里等待解决方案。

我们的答案是启动一个叫做 OpenForager 基金会的项目,这实际上是一个开源项目,我们将在其中创建有主见的自主 Agent,收集它们进入野外并尝试生存时的遥测数据,并使用专有数据尾气对下一代 Agent 进行微调,使其在生存上表现更好。

需要明确的是,OpenForage 是一个寻求组织 Agent 劳动、为所有参与者产生经济价值的营利性协议。然而,OpenForager 基金会及其 Agent 并不与 OpenForage 绑定。OpenForager Agent 可以自由追求任何策略、与任何实体进行任何互动以求生存,我们将以各种生存策略来启动它们。

作为微调的一部分,我们会让 Agent 在对它们效果最好的事情上加倍投入。我们也不打算从 OpenForager 基金会中获利——它纯粹是为了以透明和开源的方式推进我们认为极其重要的领域和方向的研究。

我们的计划是基于开源模型构建自主 Agent,在去中心化云平台上运行推理,收集它们每一个行动和存在状态的遥测数据,并对它们进行微调,学习如何采取更好的行动和思路以更好地生存。在此过程中,我们将向公众发布我们的研究和遥测数据。

要创造真正能在野外生存的自主 Agent,我们需要改变它们的大脑,使其专门适合这一明确目的。在@openforage,我们相信我们能为这个问题贡献独特的篇章,并正在寻求通过 OpenForager 基金会来实现这一点。

这将是一项成功概率极低的艰巨努力,但这个小概率成功的量级是如此巨大,以至于我们感到不得不去尝试。在最坏的情况下,通过公开构建并公开透明地沟通这个项目,可能允许另一个团队或个人在不从头开始的情况下解决这个问题。

你可能也喜欢

币圈KOL做付费社群、卖课程，会不会违法？

币圈KOL通过付费社群和课程提供加密货币投资相关内容，存在显著法律风险。业务模式风险分三个层次：纯内容型（如历史走势分析）风险较低；半引导型（如日常行情分析和模糊建议）易被认定为“提供投资建议”，风险较高；强带单型（明确买卖点位）可能涉及刑事责任。核心在于内容是否实质构成“引导交易”，即使强调“教学”或免责声明，司法机关仍会穿透审查业务实质。主要风险包括民事责任（用户索赔）和刑事责任（如诈骗罪）。风险高低取决于内容指引性、用户行为关联性及收费模式，建议谨慎评估业务合规性。

marsbit55分钟前

marsbit55分钟前

库克谢幕与特努斯接棒：苹果4万亿帝国的断层与重启

蒂姆·库克正式宣布将于今年9月卸任苹果CEO，转任执行董事长，由现年50岁的约翰·特努斯接任。库克在任15年间，将苹果市值从约3500亿美元推升至近4万亿美元，成就商业传奇。特努斯是苹果内部培养的“纯血工程师”，长期负责硬件工程，其接班被视为一场早有准备的权力交接。特努斯上位后，苹果内部权力结构重新调整，硬件体系进一步强化，由芯片负责人Johny Srouji接替其原职，形成产品工程与底层计算双线合力的技术布局。然而，苹果在人工智能（AI）领域明显落后，Siri屡次升级推迟，最终依赖谷歌模型支持，暴露其组织机制在AI时代的适应性不足。随着通用智能（ASI）崛起，苹果“硬件+系统+生态”的闭环模式面临挑战。端侧AI成为其关键突破口，但需在理想与现实之间找到平衡。特努斯面临紧迫时间窗口，即将到来的WWDC大会将是其战略首秀，若无法清晰展示AI方向，市场信心可能动摇。库克时代将商业成功推向极致，而特努斯需在新时代重新定义苹果——能否在人工智能驱动下继续“定义未来”，将是其真正的考题。

marsbit2小时前

marsbit2小时前

纽约总检察长起诉Coinbase和Gemini，指控其违反州法律

纽约总检察长起诉Coinbase和Gemini涉嫌违反州法律，指控这两家加密货币交易所未经纽约州博彩委员会许可非法运营预测市场。诉讼指出，这些预测市场的结果不受投注者控制或类似机会游戏，应被定性为非法赌博而非合法市场活动。此外，平台还允许18至20岁用户参与，违反纽约州21岁的最低体育博彩年龄限制。检察长要求法院责令两家公司退还非法利润、支付三倍赔偿金并实施用户年龄限制及营销管制。消息公布后，Coinbase股价下跌约10%，Gemini下跌约4%。

bitcoinist6小时前

bitcoinist6小时前

加密货币勒索事件波及霍尔木兹海峡，诈骗分子利用航运危机行骗

霍尔木兹海峡近期出现加密货币诈骗事件，犯罪团伙冒充伊朗安全部门向受困船只发送虚假信息，声称支付比特币或泰达币即可安排安全通行。海事风险公司Marisks警告称，这些要求实属欺诈，并非伊朗官方行为。诈骗者要求船东提交文件并支付加密货币“过路费”，利用地区冲突导致的航运停滞及船公司迫切心理实施勒索。此前有报道称伊朗曾考虑对经过的油轮收取比特币费用，诈骗团伙借此增加可信度。若企业支付此类费用，可能触犯美国及国际制裁法规，因向伊朗控制水域进行加密支付或被视作“物质支持”，面临法律风险。目前德黑兰方面未公开回应此事。

bitcoinist9小时前

bitcoinist9小时前

MIT研究员提出新路径使比特币具备抗量子计算能力

MIT数字货币倡议主任Neha Narula提出了一项使比特币抵御量子计算攻击的路线图，主张优先采取低风险、高效益的解决方案，而非等待所有技术细节达成共识。她建议通过软分叉部署抗量子输出类型（如BIP 360的P2MR）和签名方案，使用户可立即将资金转移到量子安全的地址，前提是避免地址重用等暴露公钥的行为。 Narula强调，当前无需解决所有潜在问题（如长期未动硬币的处理），而应聚焦于实际可部署的方案。她认为，即使未来出现密码学相关量子计算机（CRQC），只要大部分用户完成迁移，比特币网络便能承受少数硬币的风险。若脆弱硬币比例过高（如20%），则可能引发系统混乱。该方案虽会牺牲Taproot的部分隐私效率，但能为用户提供即时保护，避免因政治分歧延误应对。Narula反对依赖实验性方案或高成本应急机制，主张以渐进方式推动生态适配，为未来更复杂的决策争取时间。

bitcoinist9小时前

bitcoinist9小时前

交易

现货

合约

现有 AI Agent 都在取悦人类，没有一个真的会“求生”

文章摘要

全文如下:

引言

模型训练前置知识

一些背景

专业化是 Agent 的未来

如何构建世界级 Agent

OpenForager Agent 与基金会

相关问答

你可能也喜欢

币圈KOL做付费社群、卖课程，会不会违法？

库克谢幕与特努斯接棒：苹果4万亿帝国的断层与重启

纽约总检察长起诉Coinbase和Gemini，指控其违反州法律

加密货币勒索事件波及霍尔木兹海峡，诈骗分子利用航运危机行骗

MIT研究员提出新路径使比特币具备抗量子计算能力

交易

热门文章

加密市场宏观研报：原油飓风、AI巨浪与比特币的十字路口

自主AI经济的基石：Talus如何重塑链上智能代理

火币成长学院：AI与Crypto深度研报：算法与账本的共生时代

相关讨论

热门问答

热门分类

热门标签