OpenAI 全新发布 o1 模型，我们正式迈入了下一个时代

深潮发布于2024-09-13更新于2024-09-13

我们通往AGI的路上，已经没有任何阻碍。

作者：卡兹克

大半夜的，OpenAI抽象了整整快半年的新模型。

在没有任何预告下，正式登场。

正式版名称不叫草莓，草莓只是内部的一个代号。他们的正式名字，叫：

为什么取名叫o1，OpenAI是这么说的：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

翻译过来是：

对于复杂推理任务来说，这是一个重要的进展，代表了人工智能能力的新水平。鉴于此，我们将计数器重置为 1，并将这一系列命名为 OpenAI o1。

这次模型的强悍，甚至让OpenAI不惜推掉了过去GPT系列的命名，重新起了一个o系列。

炸了，真的炸了。

我现在，头皮发麻，真的，这次OpenAI o1发布，也标志着，AI行业，正式进入了一个全新的纪元。

“我们通往AGI的路上，已经没有任何阻碍。”

在逻辑和推理能力上，我直接先放图，你们就知道，这玩意有多离谱。

AIME 2024，一个高水平的数学竞赛，GPT4o准确率为13.4%，而这次的o1 预览版，是56.7%，还未发布的o1正式版，是83.3%。

代码竞赛，GPT4o准确率为11.0%，o1 预览版为62%，o1正式版，是89%。

而最牛逼的博士级科学问题 (GPQA Diamond)，GPT4o是56.1，人类专家水平是69.7，o1达到了恐怖的78%。

我让Claude翻译了一下o1的图，丑是丑了点，但是能看的懂每项数据意思就行。

什么叫全面碾压，这就是。

特别是在测试测试化学、物理和生物学专业知识的基准GPQA-diamond上，o1 的表现全面超过了人类博士专家，这也是有史以来，第一个获得此成就的模型。

而整个模型之所以达到如此成就，基石就是Self-play RL，不知道这个的可以去看我前两天的预测文章：新模型草莓到底是个啥？

通过Self-play RL，o1学会了磨练其思维链并完善所使用的策略。它学会了识别和纠正自己的错误。

它也学会了将复杂的步骤分解为更简单的步骤。

而且当当前的方法不起作用时，它也学会了尝试不同的方法。

他学会的这些，就是我们人类，最核心的思考方式：慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼有一本著作，名叫：《思考，快与慢》。

非常详细的阐述了人类的两种思考方式。

第一种是快思考（系统1），特点是快速、自动、直觉性、无意识，举几个例子：

看到一个笑脸就知道对方心情很好。
1+1=2 这样简单的计算。
开车时遇到危险情况立即踩刹车。

这些就是快思考，也就是传统的大模型，死记硬背后学得的快速反应的能力。

第二种是慢思考（系统2），特点是缓慢、需要努力、逻辑性、有意识，举几个例子：

解决一道复杂的数学题
填写税务申报表
权衡利弊后做出重要决定

这就是慢思考，我们人类之所以强大的核心，也是AI要通往下一步AGI路上的基石。

而现在，o1终于踏出了坚实的一步，拥有了人类慢思考的特质，在回答前，会反复的思考、拆解、理解、推理，然后给出最终答案。

说实话，这些增强的推理能力在处理科学、编码、数学及类似领域的复杂问题时绝对极度有用。

例如o1可以被医疗研究人员用来注释细胞测序数据，被物理学家用来生成量子光学所需的复杂数学公式，以及被各个领域的开发人员用来构建和执行多步骤工作流，等等等等。

o1也绝对是全新一代的数据飞轮，如果答案正确，整个逻辑链就会变成一个包含正负奖励的训练示例的小型数据集。

以OpenAI的用户级别，未来的进化速度，只会更恐怖。

写到这，我忽然叹了口气，我觉得我跟一年以后的o1比起来，可能就是个纯废物了，真的。。。

目前，o1模型已经逐步向所有ChatGPT Plus和 Team用户开放，未来会考虑对免费用户开放。

分为两个模型，o1预览版和o1 mini，o1-mini就是更快更小更便宜，推理啥的都不错，极度适合数学和代码，就是世界知识会差很多，适用于需要推理但不需要广泛世界知识的场景。

o1预览版每周30条，o1-mini每周50条。

雪崩，甚至不是按以前的3小时来限制的，是每周30条，也能从侧面看出来，o1这个模型，有多贵了。

对于开发者来说，只对已经付过1000美刀的等级5开发者开放，每分钟限制20次。

都挺少的。

而且在功能上阉割挺大，但是毕竟早期，理解。

API的价格上，o1预览版每百万输入15美元，每百万输出60美元，这个推理成本...

o1-mini会便宜一些，每百万输入3美元，每百万输出12美元。

输出成本都是推理成本的4倍，对比一下GPT4o，分别是5美元和15美元。

o1-mini还是勉强有一些经济效应的，不过还是开始，后面等着OpenAI打骨折。

既然说o1已经对Plus用户开放，我就直接去我的号上看了眼，还不错，拿到了。

那自然，第一时间试一试。

目前不支持曾经的所有功能，也就是没有图片理解、图片生成、代码解释器、网页搜索等等，只有一个可以对话的裸模型。

我先是一个曾经很致命的问题：

“农夫需要把狼、羊和白菜都带过河，但每次只能带一样物品，而且狼和羊不能单独相处，羊和白菜也不能单独相处，问农夫该如何过河。”

思考了6秒时间，给了我一个很完美的回答。

还有之前一个坑遍所有大模型的调休问题：

“这是中国2024年9月9日（星期一）开始到10月13日的放假调休安排:上6休3上3休2上5休1上2休7再上5休1。

请你告诉我除了我本来该休的周末，我因为放假多休息了几天？”

在o1思考了整整30秒以后，给出了一天不差的极度精准的答案。

无敌，真的无敌。

再来一个更难的，就是曾经姜萍那个比赛的奥数题：

别问我题目什么意思，我看不懂，我是废物，这题曾经屠杀所有的大模型，这次，我们让o1也来试一下看看。

在o1思考了整整1分多钟之后，他给出了答案。

...

全...对...

我裂开了。

目前我自己试下来，感觉Prompt，未来可能也要重新摸索，在GPT为代表的快思考大模型时代，我们有很多所谓的一步一步思考之类的玩意，现在全都无效了，对o1甚至还有负效果。

OpenAI给出的最佳写法是：

保持提示简单直接：模型擅长理解和响应简短、清晰的指令，而不需要大量的指导。
避免思路链提示：由于这些模型在内部进行推理，因此不需要提示它们“逐步思考”或“解释你的推理”。
使用分隔符来提高清晰度：使用三重引号、XML 标签或章节标题等分隔符来清楚地指示输入的不同部分，帮助模型适当地解释不同的部分。
限制检索增强生成 (RAG) 中的附加上下文：提供附加上下文或文档时，仅包含最相关的信息，以防止模型过度复杂化其响应。

最后，我想说一下这个思考的时长。

现在o1是思考了一分钟，但是，如果是真正的AGI，说实话，思考的越慢可能会越刺激。

当他真的，可以去做证明数学定理，去做癌症药物研发，去做天体研究呢？

每一次的思考，可以达到几小时、几天、甚至几周呢？

最后的结果，可能会让所有人震惊的难以置信。

现在，没有人能想象到，那时候的AI，会是一个什么样的存在。

而o1的未来，在我看到，也绝对不止是一个普普通通的ChatGPT。

而是我们前往下个时代，最伟大的基石。

“我们通往AGI的路上，已经没有任何阻碍。”

现在，我毫不犹豫的坚信着这句话。

星光熠熠的下一个时代。

在今天。

正式到来了。

你可能也喜欢

当富途变成相亲角，海外身份成为中产硬通货

5月22日，中国证监会拟对富途、老虎等境外券商处以巨额罚款，导致其股价暴跌。然而在富途APP社区内，却意外演变成一个“股民相亲角”。用户发布征友信息，将投资能力与海外身份作为相亲条件，反映出在监管收紧背景下，海外身份已成为一种隐性的“硬通货”。监管层层加码，从要求海外账单逐步提高到必须持有海外永久居留身份或护照，使得内地居民投资美股等境外资产的通道收窄。在此情况下，海外身份的价值凸显，它不仅象征着进入全球资产市场的门票，更具备了稀缺性、高回报和不可随意转让的特性，成为一种重要的避险资产。过去二十年，中国中产对海外资源的追求从寻求发展机会，演变为资产配置，再到如今视其为对冲不确定性的“保险”。当一代人难以获得身份时，需求将向下一代教育转移。文章最后以一位收益率高达2046%的投资者却需附上简历征友为例，点明了当下中产在投资与身份焦虑交织下的现实困境。

marsbit15分钟前

marsbit15分钟前

一文读懂Bound：“多签+时间锁”的逃生机制与链下撮合黑箱

Bound（前身为Radfi）是一个比特币生态交易平台，其核心机制结合了“2-of-2多签托管”与“时间锁（Timelock）”来实现资产的安全自托管与快速交易。用户存款的比特币地址为2-of-2多签地址，需要用户私钥与平台私钥共同签名才能动用资金，平台无法单方面挪用资产。平台私钥设有3个月的有效期，在此期间内进行交易需要双方联签以实现快速成交。若平台跑路或宕机，用户可在3个月时间锁结束后，仅凭自己的私钥单签取出全部资产，此规则由比特币脚本强制执行，确保了最终的资金控制权。在交易层面，Bound采用集中流动性AMM机制，但完整的流动性曲线与交易撮合排序均在其链下后台完成。链上交易仅是结算结果的记录。这意味着，虽然本金安全有多签保障，但具体的交易价格、成交顺序均由平台后台决定并处理，形成了一个链下“黑箱”，存在运营方操控交易排序（MEV）的可能性。平台支持使用其内置Passkey钱包（享有上述多签保护），也支持直接连接Unisat等外部钱包（但每笔交易需手动签名）。需注意，其多签地址仅支持BTC和Runes资产。目前平台偶有前端交易状态显示延迟的问题。

marsbit20分钟前

marsbit20分钟前

深陷内忧外患，以太坊坚守中立路线是否可行？

以太坊近期陷入内忧外患。ETH价格中期下跌，市场情绪负面，机构持仓和ETF资金持续流出，且ETH/BTC汇率创十个月新低，表现疲软。同时，期权市场显示避险情绪升温，但永续合约多头仓位依然坚守。核心问题在于以太坊基金会近期出现大规模高层离职，包括多名资深研发与管理人员。导火索被认为是基金会3月发布的中立性纲领，其坚持“守护网络”而非商业推广的定位，在竞争公链崛起的背景下引发争议。离任成员等呼吁设立新的独立商业机构，专注提升ETH经济竞争力与市值，形成“技术中立+商业推广”的双轨模式。支持者则认为人事变动属正常新老交替，以太坊技术根基与生态规模依然稳固。行业分析指出，以太坊亟需将技术路线转化为清晰投资逻辑，重点发力DeFi、资产代币化等赛道，并理顺治理分工。若无法有效调整，持续的市场疲软和人才流失可能进一步削弱市场信心。

marsbit26分钟前

marsbit26分钟前

技术没有壁垒，全天候交易才是 Hyperliquid 制胜的关键

本文探讨了去中心化衍生品交易平台Hyperliquid如何凭借其“全天候交易”的核心优势，挑战并打破了传统金融市场的运作范式。传统交易所（如纽交所、伦交所）均设有固定的交易时段，这一惯例源于历史遗留的物理局限。Hyperliquid则实现了7x24小时不间断交易，使其能在传统市场休市（如周末）时捕捉交易机会。例如，其在周日清晨抢先为SpaceX进行估值定价，并在周末完成巨额原油衍生品交易，这直接触动了芝加哥商品交易所（CME）等传统巨头的利益，引发后者的监管游说。文章指出，Hyperliquid的竞争力并非单纯源于技术，其**全天候交易的时间优势**才是关键。这一优势在SpaceX、Cerebras等IPO前永续合约上得到充分体现，平台展现出了高效、连续的价格发现能力，预测精度远超部分传统二级市场平台。面对监管压力，Hyperliquid采用的“纯合成衍生品”模式构成了其独特的防御壁垒。该模式不依赖实体股权或持牌机构，仅通过智能合约以USDC结算，使得监管机构或标的公司难以找到明确的追责主体。即便项目创始人面临法律风险，已部署的智能合约仍可自主运行。然而，这种无需身份核验、资金脱离传统银行体系的模式，也带来了市场操纵、规避制裁等合规与国家安全隐患。总之，Hyperliquid通过融合“去中心化”的架构与“不间断交易”的时间维度，创造了一种传统金融难以复制的竞争力，但也正因此置身于监管风暴的中心。这场围绕“交易时间”的冲突，本质上是新旧金融体系运行逻辑的碰撞。

marsbit26分钟前

marsbit26分钟前

预测市场中的新型信息洗钱：秘密如何融入投资信号

本文探讨了预测市场中出现的“信息洗钱”现象及其潜在风险。文章以2026年2月Polymarket平台上九个关联匿名账户通过精准押注美伊战争相关事件获利超240万美元、胜率高达98%的案例引入。核心观点指出，预测市场价格本质上是交易者集体预期的体现，它能高效地将信息转化为价格信号。然而，该系统无法区分公开信息与非法获取的机密信息。掌握内幕者（如知晓即将发生的罢工）可通过买入行为推高合约价格，其秘密就此被“洗白”成看似合理的市场信号并从中牟利。这种操作如同洗钱，使非法信息源头在市场公开数据中消失。文章进一步分析，尽管区块链交易记录提供了透明度，使得分析工具能识别关联账户和可疑模式，但这种透明性也可能被敌对势力利用，从异常市场波动中低成本获取情报。现行法律（如内幕交易规则）难以监管此类涉及战争等非公司事件的行为，且平台可通过离岸运营规避地域限制。作者认为，信息洗钱并非系统漏洞，而是预测市场核心机制（奖励最佳信息持有者）的必然副作用。随着市场影响力扩大，社会需面对一个根本性问题：是否能接受一个将国家机密等敏感信息转化为公开可交易价格并奖励信息持有者的机器。美国国会已开始调查并推动相关立法。

链捕手34分钟前

链捕手34分钟前

交易

现货

合约

OpenAI 全新发布 o1 模型，我们正式迈入了下一个时代

你可能也喜欢

当富途变成相亲角，海外身份成为中产硬通货

一文读懂Bound：“多签+时间锁”的逃生机制与链下撮合黑箱

深陷内忧外患，以太坊坚守中立路线是否可行？

技术没有壁垒，全天候交易才是 Hyperliquid 制胜的关键

预测市场中的新型信息洗钱：秘密如何融入投资信号

交易

热门分类

热门标签

OpenAI 全新发布 o1 模型，我们正式迈入了下一个时代

你可能也喜欢

当富途变成相亲角 ，海外身份成为中产硬通货

一文读懂Bound：“多签+时间锁”的逃生机制与链下撮合黑箱

深陷内忧外患，以太坊坚守中立路线是否可行？

技术没有壁垒，全天候交易才是 Hyperliquid 制胜的关键

预测市场中的新型信息洗钱：秘密如何融入投资信号

交易

热门分类

热门标签

当富途变成相亲角，海外身份成为中产硬通货