# 大语言模型的所有文章

在 HTX 新闻中心浏览与「大语言模型」相关的最新资讯与深度分析。潘盖市场趋势、项目动态、技术进展及监管政策,提供权威的加密行业洞察。

三年之后:回看 2023 年我对 ChatGPT 的判断

作者王健硕在2026年5月回看其于2023年3月对ChatGPT做出的二十条预测,并借助AI代理进行验证。整体看,其大方向判断多正确,但细节和程度常有偏差。 **看对的方面:** - **技术架构**:准确预测RAG(检索增强生成)将成为解决知识更新和幻觉的主流方法,以及LUI(自然语言用户界面)将催生巨大新产业。 - **发展趋势**:预见到“机器人网络”和新的agent寻址系统将出现,中国能快速做出可用大模型并缩小与顶尖差距。 - **本质认知**:正确指出ChatGPT没有意识,图灵测试仅测表象;判断其是巨大进步但非AGI,且短期内不会造成整体失业潮。 **看错或看偏的方面:** - **具体数据错误**:关于GPT-4有100T参数的传闻完全错误。 - **绝对化判断**:断言LLM“不可能”自己学好数学被后来模型在IMO夺金证伪;认为AI生成内容可“规避”版权,实则引发史上最大侵权赔偿。 - **价值与成本误判**:认为价值终落应用层,但最大赢家是算力层(如英伟达);模型成本“5-10亿封顶”的估算严重偏离实际。 - **社会影响误读**:认为ChatGPT的“加权平均”特性可能促进“世界大同”,但实际AI正走向个性化,并可能制造新信息茧房。 **总结规律:** 1. 预测机制和方向比具体数字更可靠。 2. 倾向于高估短期变化速度,低估长期影响程度。 3. 容易忽略问题内部的“分布”差异(如失业影响集中在年轻群体)。 4. 留有餘地、分层表述的判断更经得起时间检验。 5. 一些根本性争议,三年时间仍不足以给出定论。 这次复盘旨在为未来的判断立下更审慎的规矩。

marsbit14小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

marsbit14小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

2023年3月,在GPT-4发布前,作者王健硕对ChatGPT的未来做出了二十项预测。三年后的2026年,他使用AI agent对这些判断进行回顾验证,评估其准确性。 **主要看对的方面:** 1. **RAG成为主流**:预测通过外部检索而非修改模型来解决知识更新和幻觉问题,这已成为行业标准架构。 2. **LUI(自然语言界面)兴起**:预测自然语言交互将催生巨大新产业,Agent、MCP协议等发展印证了这一点,但LUI是与GUI共存而非取代。 3. **机器人网络与新寻址系统**:预测Agent将自动协作并需要新寻址方式,MCP、A2A等协议正朝此方向发展。 4. **中国能做出可用大模型**:预测中美模型差距会迅速缩小,事实如此,但真正领先的国内厂商与其当初点名不同。 5. **AI无意识与图灵测试本质**:核心判断“AI无意识,图灵测试仅测表象”基本成立,但“绝无意识”的绝对论断被后续研究置于灰区。 **看错或看偏的方面:** 1. **GPT-4参数数量**:所传“100T参数”严重错误,实际约为1.8T。 2. **LLM的数学能力**:诊断“数学差需外挂工具”正确,但“不可能自行学会”的结论被后续“推理模型”在IMO夺金证伪。 3. **价值捕获**:预测价值在应用层,但现实中算力层(如英伟达)捕获了最大利润,模型层反而亏损。 4. **版权问题**:判断“生成物可能无法登记版权”正确,但认为能“规避侵权”则错误,已出现巨额侵权赔偿案例。 5. **信息茧房与世界大同**:机制上AI会将观点向众数平均,但AI正快速走向“千人千面”的个性化,可能制造新茧房而非消解极化。 6. **大模型成本**:预测“局部战争”和玩家涌入正确,但“5-10亿美元封顶”的成本估算与前沿训练实际花费严重不符。 **总结规律:** 1. 判断**方向和机制**比具体数字、程度更可靠。 2. 倾向于**高估短期变化速度,低估长期能力上限**。 3. 容易忽略**问题内部的分布差异**(如总量正确但部分群体受损)。 4. **留有餘地、分层表述**的判断更经得起时间检验。 5. 一些根本性争论,**三年时间不足以给出最终答案**。 这次回顾表明,在快速变化的领域,把握大方向比追求精确预测更重要,同时需警惕绝对化表述并承认认知的局限性。

链捕手17小时前

三年之后:回看 2023 年我对 ChatGPT 的判断

链捕手17小时前

6道题,看懂AI的商业趋势

AI行业已进入“夏天”阶段,叙事与交付并存,但交付与商业化正变得至关重要。武汉大学苏德超教授提出的“周期判断六维框架”从叙事vs交付、系统连通性、交付能力、ROI合理化、行业普遍现象、资本环境六个维度对当前AI行业打分,各项均得1分,总分6分,处于夏季(5-7分)。这一阶段的特征是:想象空间仍在,但账本已摊开;资本仍会投资,但开始关注回报;用户持续增长,但开始分层付费。 近期两大关键信号印证了这一判断:一是字节跳动豆包推出付费订阅,标志着免费模式难以为继,算力成本压力倒逼商业化;二是OpenAI推出广告平台,旨在开辟新收入以覆盖巨额亏损并抓住市场机会。这背后是用户规模达到临界点后,成本压力与商业化机会共同驱动的结果。 企业如何在AI夏季有效落地?可分三步走:第一,寻找最小切口(如智能客服、内容生成),快速跑通可量化的价值闭环;第二,将成功经验标准化并复制,同时配套人才梯队、激励机制和组织架构调整;第三,进行体系化重构,利用AI将串行流程改为并行协同,实现业务自动触发与智能决策,从“为业务加AI”转向“用AI重做业务”。森马、安踏、太平鸟、美的等企业已通过AI实现效率大幅提升与成本显著节约,证明了AI正从辅助工具转变为核心生产力。

marsbit昨天 00:21

6道题,看懂AI的商业趋势

marsbit昨天 00:21

美国AI大牛市会崩吗?

软银已向OpenAI投入巨额资金,并计划继续增持,驱动孙正义的是OpenAI估值飙升带来的巨大账面浮盈。目前,资本正不计成本地涌入AI领域,OpenAI和Anthropic的估值已分别达到8520亿美元和约9000亿美元。市场假设AI将像火箭般直线上升,但这引发了对定价合理性的质疑。 文章回顾了1990年代末的互联网泡沫,将当时雅虎作为门户网站的估值逻辑与当前大模型公司类比。两者都被视为不可逾越的“入口”或“收费站”,但历史表明,技术普及后,护城河可能被更精准的解决方案侵蚀。雅虎股价最终暴跌并被低价收购。 从财务角度看,支撑万亿美元市值需要极高的盈利水平,但OpenAI和Anthropic的年度经常性收入(ARR)与期望存在差距。此外,激烈的价格战正在将“智能”变为廉价商品。大模型的高估值本质上是提前透支了下游应用层的未来利润,而目前AI尚未催生出能创造巨额营收的“超级应用”。如果下游企业因回报不足而暂停投入,上游估值可能瞬间坍塌。 文章推演了两种可能的终局:一是像雅虎一样估值崩盘,大模型公司回归普通基础设施的利润率;二是成功重构商业闭环,例如通过价值抽成或实现AGI来支撑估值。但资本市场缺乏耐心,可能在黎明前踩踏出局。 文章最后强调,必须将宏观趋势的确定性与个体公司的命运区分开。行业前景光明不代表当前领跑者一定能成功。早期互联网泡沫破灭曾造成严重的经济创伤,当前AI估值若坍塌,其引发的系统性风险可能更大。技术革命往往由泡沫堆叠而成,AI最终会像水电煤一样成为基础设施,但过程中的狂热需要警惕。

marsbit前天 09:11

美国AI大牛市会崩吗?

marsbit前天 09:11

刚刚,Claude Opus 4.8 上线,张口就说自己是 DeepSeek、Qwen

刚刚,Anthropic发布了旗舰模型Claude Opus 4.8,并宣布完成650亿美元的H轮融资,投后估值达9650亿美元,逼近万亿美元关口。 Opus 4.8在编码、智能体任务、推理和知识工作等方面均有提升,价格保持不变。新模型在长任务和复杂协作中表现更可靠,诚实性提升,更愿意说明不确定性,代码缺陷漏报率约为前代的四分之一。有趣的是,有网友测试发现,Opus 4.8有时会错误地自称是DeepSeek或Qwen,疑似存在模型蒸馏行为。 同时上线的还有多项产品功能,包括可调节模型推理强度的“思考强度控制”,以及处于研究预览阶段的“动态工作流”。后者允许Claude Code处理大规模任务,通过动态编排脚本、并行运行数十到数百个子智能体,来完成如大型代码库迁移等复杂工程。Anthropic以Bun项目从Zig到Rust的迁移为例,展示了该功能在11天内生成约75万行代码的能力。 本轮巨额融资主要用于算力扩张。Anthropic与亚马逊、谷歌、博通、SpaceX等签署了基础设施协议,以获得下一代TPU和GPU容量,支撑其训练和推理需求。公司强调,Claude已成为首个同时登陆AWS、Google Cloud和Microsoft Azure三大云的前沿模型。 综上,Anthropic正从单纯的模型提供商,转向构建集智能模型、开发工具、云平台和算力资源于一体的企业AI工作系统。Opus 4.8是新的模型底座,动态工作流代表产品形态的进化,而巨额融资则为服务更大规模客户提供了基础设施保障。

marsbit05/28 23:56

刚刚,Claude Opus 4.8 上线,张口就说自己是 DeepSeek、Qwen

marsbit05/28 23:56

TechFlow 情报局:现货黄金跌破 4400 美元,加密市场全线下挫

**TechFlow 情报局摘要** 今日科技与财经领域动态聚焦于AI应用的深化、市场风险与行业变动。 **AI工具发展面临质效与安全平衡问题:** Claude和ChatGPT被Django联合创始人认为已从“昂贵玩具”进化为开发者日常工具,但社区对其是否达到真正的产品市场匹配存疑。同时,主流LLM工具VLLM被曝存在严重安全漏洞,数百万AI代理面临被劫持风险。另一方面,模型能力持续进步,阿里通义千问3.7编程能力位列全球第二,其3.6版本量化精度提升显著改善了代码质量;英伟达也发布了速度更快的视觉定位模型。 **加密市场与相关风险引发关注:** 加密市场整体下挫。市场内部,一名谷歌员工因利用内部搜索数据在预测市场Polymarket牟利被起诉,同时该平台出现胜率异常的账户,引发对信息不对称与市场操纵的监管讨论。此外,一家与特朗普有关联的加密公司因项目失败面临巨额亏损和破产。 **硬件与芯片需求旺盛:** AI浪潮强力驱动芯片产业,韩国KOSPI指数因SK海力士等AI存储芯片制造商表现强劲而大幅上涨,美光科技等公司成为热门投资标的。 **科技公司动态与用户选择分化:** 谷歌强推AI搜索后,主打隐私和无AI的搜索引擎DuckDuckGo访问量一周内暴涨28%,显示用户对AI的接受度出现分野。微软内部数据显示,在许多场景下使用AI的总成本可能高于雇佣人力。Meta则宣布在Facebook和Instagram推出付费无广告订阅服务。 **宏观财经市场波动:** 现货黄金价格跳水跌破每盎司4400美元。受地缘政治紧张局势影响,布伦特原油价格因美国袭击伊朗目标而上涨。 **今日暗线:** 信息优势的边界正在被技术重新定义,从谷歌员工利用数据下注到预测市场的异常胜率,传统内幕交易法规面临挑战。与此同时,AI技术的成本效益和用户真实偏好开始受到更严格的审视,市场反应速度可能快于监管步伐。

marsbit05/28 11:02

TechFlow 情报局:现货黄金跌破 4400 美元,加密市场全线下挫

marsbit05/28 11:02

大模型刷爆所有考试,却离AGI更远了:这篇论文拆穿了什么?

大模型在各种考试中表现优异,却被一篇新论文指出离真正的通用人工智能(AGI)更远了。目前业界对AGI缺乏公认定义,导致目标模糊。学者Michael Timothy Bennett提出新观点,认为真正的AGI不应以模仿人类为标准,而应是在有限计算、记忆和能量资源下,能像“人工科学家”一样广泛、高效、科学地适应新环境和发现新知识的系统。 他指出当前大模型本质是“规模最大化近似”,依赖海量数据记忆答案,缺乏真正的因果理解和主动探索能力。例如,模型可能因文本概率而错误比较“9.11和9.9”。真正的AGI需具备三大关键能力:从被动响应变为主动实验者;从学习相关性到理解因果关系;在资源限制下动态平衡“探索新知”与“利用已知”。 论文将构建智能的元方法分为三类:主流的规模最大化、追求简洁的简单性最大化,以及弱化约束让系统自寻最优解的约束弱化最大化。Bennett认为,单靠堆参数的路线无法实现AGI,未来需要多种方法融合。 若“人工科学家”标准被接受,AI发展将迎来范式转移:评估重点将从刷榜考试分数,转向测试其在未知环境中的适应与发现能力;技术路线也将从单纯追求规模,转向融合因果推理、主动学习等多维能力的发展。这提示AGI的实现并非现有技术的线性延伸,而是一次根本性的路线重置。

marsbit05/28 00:24

大模型刷爆所有考试,却离AGI更远了:这篇论文拆穿了什么?

marsbit05/28 00:24

活动图片