# 大语言模型的所有文章

在 HTX 新聞中心流覽與「大语言模型」相關的最新資訊與深度分析。潘蓋市場趨勢、專案動態、技術進展及監管政策,提供權威的加密行業洞察。

OpenAI时隔六年重启机器人业务,短期押注协助型机器人

OpenAI宣布时隔六年重启机器人业务,成立“OpenAI Robotics”新团队并招募硬件、软件等领域工程师,正式进军实体机器人赛道。公司首席执行官山姆·奥特曼阐述了短期与长期目标:短期内专注于研发协助技术工人建设基础设施的机器人;长期愿景是让每个人都拥有能完成各种需求的个人机器人。 此次重启基于内部“世界模拟”研究项目的快速发展,并由公司研究副总裁阿迪亚·拉梅什领导。OpenAI早期曾探索机器人技术,并在2019年通过强化学习训练机械手复原魔方,证明了仿真训练的可行性。但由于当时机器人数据稀缺,公司于2020年前后解散机器人团队,将资源集中于大语言模型研发,从而催生了ChatGPT。 近年来,OpenAI通过投资策略布局机器人领域,例如投资Figure AI并为其机器人开发AI模型。但今年2月双方因技术路线分歧终止合作,Figure AI转向自主研发端到端模型。这一变化促使OpenAI决定亲自下场,将机器人业务升级为内部战略。 在提交IPO草案、估值高涨的背景下,OpenAI此举也被视为在上市前描绘新的增长曲线,展示其从软件向软硬件结合、从虚拟向物理世界拓展的愿景,以“具身智能”故事应对市场对其盈利能力的担忧。公司计划利用其在大模型和“世界模型”方面的优势,遵循“先造大脑,再长身体”的路径,试图以软件和算法定义硬件,重塑机器人行业研发模式。

marsbit23 小時前

OpenAI时隔六年重启机器人业务,短期押注协助型机器人

marsbit23 小時前

三年之后:回看 2023 年我对 ChatGPT 的判断

作者王健硕在2026年5月回看其于2023年3月对ChatGPT做出的二十条预测,并借助AI代理进行验证。整体看,其大方向判断多正确,但细节和程度常有偏差。 **看对的方面:** - **技术架构**:准确预测RAG(检索增强生成)将成为解决知识更新和幻觉的主流方法,以及LUI(自然语言用户界面)将催生巨大新产业。 - **发展趋势**:预见到“机器人网络”和新的agent寻址系统将出现,中国能快速做出可用大模型并缩小与顶尖差距。 - **本质认知**:正确指出ChatGPT没有意识,图灵测试仅测表象;判断其是巨大进步但非AGI,且短期内不会造成整体失业潮。 **看错或看偏的方面:** - **具体数据错误**:关于GPT-4有100T参数的传闻完全错误。 - **绝对化判断**:断言LLM“不可能”自己学好数学被后来模型在IMO夺金证伪;认为AI生成内容可“规避”版权,实则引发史上最大侵权赔偿。 - **价值与成本误判**:认为价值终落应用层,但最大赢家是算力层(如英伟达);模型成本“5-10亿封顶”的估算严重偏离实际。 - **社会影响误读**:认为ChatGPT的“加权平均”特性可能促进“世界大同”,但实际AI正走向个性化,并可能制造新信息茧房。 **总结规律:** 1. 预测机制和方向比具体数字更可靠。 2. 倾向于高估短期变化速度,低估长期影响程度。 3. 容易忽略问题内部的“分布”差异(如失业影响集中在年轻群体)。 4. 留有餘地、分层表述的判断更经得起时间检验。 5. 一些根本性争议,三年时间仍不足以给出定论。 这次复盘旨在为未来的判断立下更审慎的规矩。

marsbit前天 16:02

三年之后:回看 2023 年我对 ChatGPT 的判断

marsbit前天 16:02

三年之后:回看 2023 年我对 ChatGPT 的判断

2023年3月,在GPT-4发布前,作者王健硕对ChatGPT的未来做出了二十项预测。三年后的2026年,他使用AI agent对这些判断进行回顾验证,评估其准确性。 **主要看对的方面:** 1. **RAG成为主流**:预测通过外部检索而非修改模型来解决知识更新和幻觉问题,这已成为行业标准架构。 2. **LUI(自然语言界面)兴起**:预测自然语言交互将催生巨大新产业,Agent、MCP协议等发展印证了这一点,但LUI是与GUI共存而非取代。 3. **机器人网络与新寻址系统**:预测Agent将自动协作并需要新寻址方式,MCP、A2A等协议正朝此方向发展。 4. **中国能做出可用大模型**:预测中美模型差距会迅速缩小,事实如此,但真正领先的国内厂商与其当初点名不同。 5. **AI无意识与图灵测试本质**:核心判断“AI无意识,图灵测试仅测表象”基本成立,但“绝无意识”的绝对论断被后续研究置于灰区。 **看错或看偏的方面:** 1. **GPT-4参数数量**:所传“100T参数”严重错误,实际约为1.8T。 2. **LLM的数学能力**:诊断“数学差需外挂工具”正确,但“不可能自行学会”的结论被后续“推理模型”在IMO夺金证伪。 3. **价值捕获**:预测价值在应用层,但现实中算力层(如英伟达)捕获了最大利润,模型层反而亏损。 4. **版权问题**:判断“生成物可能无法登记版权”正确,但认为能“规避侵权”则错误,已出现巨额侵权赔偿案例。 5. **信息茧房与世界大同**:机制上AI会将观点向众数平均,但AI正快速走向“千人千面”的个性化,可能制造新茧房而非消解极化。 6. **大模型成本**:预测“局部战争”和玩家涌入正确,但“5-10亿美元封顶”的成本估算与前沿训练实际花费严重不符。 **总结规律:** 1. 判断**方向和机制**比具体数字、程度更可靠。 2. 倾向于**高估短期变化速度,低估长期能力上限**。 3. 容易忽略**问题内部的分布差异**(如总量正确但部分群体受损)。 4. **留有餘地、分层表述**的判断更经得起时间检验。 5. 一些根本性争论,**三年时间不足以给出最终答案**。 这次回顾表明,在快速变化的领域,把握大方向比追求精确预测更重要,同时需警惕绝对化表述并承认认知的局限性。

链捕手前天 13:34

三年之后:回看 2023 年我对 ChatGPT 的判断

链捕手前天 13:34

6道题,看懂AI的商业趋势

AI行业已进入“夏天”阶段,叙事与交付并存,但交付与商业化正变得至关重要。武汉大学苏德超教授提出的“周期判断六维框架”从叙事vs交付、系统连通性、交付能力、ROI合理化、行业普遍现象、资本环境六个维度对当前AI行业打分,各项均得1分,总分6分,处于夏季(5-7分)。这一阶段的特征是:想象空间仍在,但账本已摊开;资本仍会投资,但开始关注回报;用户持续增长,但开始分层付费。 近期两大关键信号印证了这一判断:一是字节跳动豆包推出付费订阅,标志着免费模式难以为继,算力成本压力倒逼商业化;二是OpenAI推出广告平台,旨在开辟新收入以覆盖巨额亏损并抓住市场机会。这背后是用户规模达到临界点后,成本压力与商业化机会共同驱动的结果。 企业如何在AI夏季有效落地?可分三步走:第一,寻找最小切口(如智能客服、内容生成),快速跑通可量化的价值闭环;第二,将成功经验标准化并复制,同时配套人才梯队、激励机制和组织架构调整;第三,进行体系化重构,利用AI将串行流程改为并行协同,实现业务自动触发与智能决策,从“为业务加AI”转向“用AI重做业务”。森马、安踏、太平鸟、美的等企业已通过AI实现效率大幅提升与成本显著节约,证明了AI正从辅助工具转变为核心生产力。

marsbit前天 00:21

6道题,看懂AI的商业趋势

marsbit前天 00:21

美国AI大牛市会崩吗?

软银已向OpenAI投入巨额资金,并计划继续增持,驱动孙正义的是OpenAI估值飙升带来的巨大账面浮盈。目前,资本正不计成本地涌入AI领域,OpenAI和Anthropic的估值已分别达到8520亿美元和约9000亿美元。市场假设AI将像火箭般直线上升,但这引发了对定价合理性的质疑。 文章回顾了1990年代末的互联网泡沫,将当时雅虎作为门户网站的估值逻辑与当前大模型公司类比。两者都被视为不可逾越的“入口”或“收费站”,但历史表明,技术普及后,护城河可能被更精准的解决方案侵蚀。雅虎股价最终暴跌并被低价收购。 从财务角度看,支撑万亿美元市值需要极高的盈利水平,但OpenAI和Anthropic的年度经常性收入(ARR)与期望存在差距。此外,激烈的价格战正在将“智能”变为廉价商品。大模型的高估值本质上是提前透支了下游应用层的未来利润,而目前AI尚未催生出能创造巨额营收的“超级应用”。如果下游企业因回报不足而暂停投入,上游估值可能瞬间坍塌。 文章推演了两种可能的终局:一是像雅虎一样估值崩盘,大模型公司回归普通基础设施的利润率;二是成功重构商业闭环,例如通过价值抽成或实现AGI来支撑估值。但资本市场缺乏耐心,可能在黎明前踩踏出局。 文章最后强调,必须将宏观趋势的确定性与个体公司的命运区分开。行业前景光明不代表当前领跑者一定能成功。早期互联网泡沫破灭曾造成严重的经济创伤,当前AI估值若坍塌,其引发的系统性风险可能更大。技术革命往往由泡沫堆叠而成,AI最终会像水电煤一样成为基础设施,但过程中的狂热需要警惕。

marsbit05/29 09:11

美国AI大牛市会崩吗?

marsbit05/29 09:11

刚刚,Claude Opus 4.8 上线,张口就说自己是 DeepSeek、Qwen

刚刚,Anthropic发布了旗舰模型Claude Opus 4.8,并宣布完成650亿美元的H轮融资,投后估值达9650亿美元,逼近万亿美元关口。 Opus 4.8在编码、智能体任务、推理和知识工作等方面均有提升,价格保持不变。新模型在长任务和复杂协作中表现更可靠,诚实性提升,更愿意说明不确定性,代码缺陷漏报率约为前代的四分之一。有趣的是,有网友测试发现,Opus 4.8有时会错误地自称是DeepSeek或Qwen,疑似存在模型蒸馏行为。 同时上线的还有多项产品功能,包括可调节模型推理强度的“思考强度控制”,以及处于研究预览阶段的“动态工作流”。后者允许Claude Code处理大规模任务,通过动态编排脚本、并行运行数十到数百个子智能体,来完成如大型代码库迁移等复杂工程。Anthropic以Bun项目从Zig到Rust的迁移为例,展示了该功能在11天内生成约75万行代码的能力。 本轮巨额融资主要用于算力扩张。Anthropic与亚马逊、谷歌、博通、SpaceX等签署了基础设施协议,以获得下一代TPU和GPU容量,支撑其训练和推理需求。公司强调,Claude已成为首个同时登陆AWS、Google Cloud和Microsoft Azure三大云的前沿模型。 综上,Anthropic正从单纯的模型提供商,转向构建集智能模型、开发工具、云平台和算力资源于一体的企业AI工作系统。Opus 4.8是新的模型底座,动态工作流代表产品形态的进化,而巨额融资则为服务更大规模客户提供了基础设施保障。

marsbit05/28 23:56

刚刚,Claude Opus 4.8 上线,张口就说自己是 DeepSeek、Qwen

marsbit05/28 23:56

活动图片