# 大语言模型的所有文章

在 HTX 新聞中心流覽與「大语言模型」相關的最新資訊與深度分析。潘蓋市場趨勢、專案動態、技術進展及監管政策，提供權威的加密行業洞察。

WEEX Labs 周度观察：AI 基础设施的“权力重构”与实体经济的“深潜运动”

2026年7月中旬，全球AI产业迎来关键转折：算力分配权从云巨头向算力拥有者转移，AI价值锚点从参数竞逐转向实体工业渗透。行业告别小作坊研发，进入重资产、全链条整合时代。核心动向包括：Meta等社交巨头携算力进军云计算，推出整合“算力+模型+数据”的一站式服务，可能挤压中小算力租赁商，并促使企业用户更关注平台背后的大模型生态。国产大模型如DeepSeek-V4密集开源，竞争进入“公用事业化”阶段，核心转向极端性价比与场景适配，通过技术优化降低使用门槛，助力企业聚焦私有化部署与业务深度适配。具身智能（如人形机器人）在政策驱动下进入工厂实景实训，资本关注点从表演转向提供稳定的工业仿真数据与真实产线解决方案。全球AI治理从伦理呼吁转向实操框架，“主权AI”推动各国构建数据与算力堡垒，合规性成为产品准入的关键。 WEEX Labs深度洞察指出，AI正深度嵌入全球制造业。对企业策略的三点建议是：拥抱开源私有化，利用国产模型红利构建企业专属知识库；警惕算力锁定，保持云供应商多元性；在具身智能领域，可关注数据采集、工业仿真或AI算力适配方案等“服务商”机会。

marsbit07/19 05:15

WEEX Labs 周度观察：AI 基础设施的“权力重构”与实体经济的“深潜运动”

marsbit07/19 05:15

拆开Claude大脑也没用，AI黑箱真正的钥匙，藏在本体工程

文章《拆开Claude大脑也没用，AI黑箱真正的钥匙，藏在本体工程》探讨了AI可解释性研究的新方向。文章以Anthropic公司发现Claude模型内部“J-Space”神经活动区为例，指出当前主流的内在主义研究路径（即试图观测和解释模型内部状态）存在根本局限：它无法触及模型输出背后的“意义”和“理由”。作者认为，大语言模型本质是信息处理器，其可解释性的核心不在于神经元的激活模式，而在于模型所处理的信息本身——这些信息与世界、知识及人类实践的关系。因此，需要将视角从“模型如何思考”转向“模型处理了什么样的信息”，即关注信息的本体论地位。文章引入康德哲学中的“范畴”概念，提出可解释性的关键在于模型的信息结构是否能映射到人类理解世界的基本认知框架上。而将这一哲学理论转化为实践的关键是“本体工程”。本体工程能构建结构化的知识框架，为模型的推理提供可追溯、可验证的语义锚点，从而使模型的输出变得可理解、可问责。最终，文章主张超越“打开黑箱”的单一思路，通过本体工程构建“AI友好的”语义骨架，将可解释性从一个技术难题，转化为一项可通过工程手段管理的治理目标，让AI的影响变得可追溯、可控制。

marsbit07/17 07:39

GPT-5.6智商首破130天才线，比99%人类聪明

最新离线IQ测试显示，GPT-5.6在防作弊的专用题库中智商得分达到136分，首次突破130分的“天才线”。这意味着在标准化认知测试中，该模型的表现超越了约99%的人类。除了测试高分，实际应用中也展现出强大能力：开发者案例表明，GPT-5.6能快速生成复杂的物理模拟网页、构建多功能客服系统，并有效解决棘手的编程问题，体现了从“会做题”到“能办事”的进步。不过，智商测试主要衡量逻辑推理等特定能力，并不能全面反映模型在真实场景中的综合智能。当前成果虽引人注目，但距离真正的通用人工智能（AGI）仍有差距。

marsbit07/16 08:22

marsbit07/16 08:22

就等梁文锋敲钟了

DeepSeek（深度求索）已启动IPO筹备工作，计划在内地上市，最快可能于今年提交申请。此前，公司完成了首轮约500亿元融资，投后估值接近4000亿元，由国家人工智能产业投资基金、腾讯、宁德时代、京东等机构参与，创始人梁文锋个人出资200亿元并保持对公司绝对控制权。投资方股份设有五年锁定期。中国大模型行业竞争加剧，智谱、MiniMax等同行正推进科创板IPO，阶跃星辰、月之暗面（Kimi）也已完成大规模融资。为应对竞争并支撑AGI（通用人工智能）研发的巨额算力成本，DeepSeek从过去拒绝融资转向开放融资，并设立了员工持股计划。公司发展策略也在演变，从专注于模型能力研究，扩展到Agent、长文本、AI编码乃至AI推理芯片等方向。随着上交所明确支持未盈利优质AI企业在科创板上市，行业头部公司纷纷加速资本化进程。DeepSeek的IPO进程，标志着其进入新的发展阶段，需在技术领先、商业落地与资本竞争中取得平衡。

marsbit07/15 12:27

marsbit07/15 12:27

提示词工程论文登上ICML 2026，网友吵翻了天

一篇关于提示词工程（Prompt Engineering）的论文被机器学习顶会ICML 2026接收，引发广泛争议。该论文提出了一种名为“Verbalized Sampling”（VS）的方法，核心在于仅通过修改提示词，要求大模型在生成答案的同时输出其自身的概率分布，从而显著提升了模型输出的多样性，缓解了LLM中常见的“模式坍缩”（Mode Collapse）问题。论文作者认为，模式坍缩的根本原因并非在于优化算法，而在于人类偏好数据中存在的“典型性偏差”——标注者更倾向于给常见、流畅的答案高分。通过在推理阶段使用VS提示词，可以唤醒模型在预训练阶段学到的多元分布。实验表明，该方法在创意写作等任务中能将输出多样性提升1.6至2.1倍，且不影响事实准确性与安全性。这一成果在Reddit上引发了激烈讨论。反对者认为，仅靠调整提示词缺乏算法或理论创新，创新性单薄，且其普适性和稳定性存疑，不符合传统机器学习顶会对“硬核创新”的期待。支持者则指出，研究价值在于其深入的问题归因和严谨的实证过程，类似于当年“思维链”（CoT）提示的兴起，提示词工程正成为研究模型行为的重要方法，未来可能改变大模型的能力边界。该研究由美国东北大学、斯坦福大学等机构的研究人员合作完成。尽管方法看似简单，但作者强调其包含了完整的问题溯源、理论归因和大量实验验证。

marsbit07/15 07:55

marsbit07/15 07:55

Scaling Law一招鲜？首个晶体结构操作基准，顶级大模型集体翻车

大模型在原子级材料操作任务中遭遇瓶颈。一项名为AtomWorld的最新基准测试（发表于ICML2026）显示，尽管大模型在理解文本和材料知识方面表现出色，但在需要精确操控三维原子结构的实操任务中，主流模型（如Claude、GPT、Gemini、Qwen等）表现普遍不佳。研究发现，单纯依靠扩大模型参数和数据规模的“Scaling Law”（缩放定律）在此类任务上效果有限。模型规模增大能提升规则明确的任务（如原子替换、删除）的成功率，但对于需要三维空间理解和几何规划的操作（如绕原子旋转、区域删除），即使是最先进的模型，成功率也极低（例如旋转任务仅约12%）。这表明，语言推理能力不能直接等价于原子级的空间行动能力。该研究指出，AI for Science需要从专注于文本语料的“Language Scaling”转向注重行动能力的“Action Scaling”。未来的科学智能体不仅需要理解知识，更必须在可执行任务、工具调用、环境反馈和物理验证的闭环中学习，才能真正成为能完成科研操作的助手。

marsbit07/15 03:56

marsbit07/15 03:56

AI 的十字路口：为什么华尔街们正在向 ChatGPT 与 Claude 们说“不”？

本文探讨了企业及个人用户对私有化AI的迫切需求，以及当前实现AI隐私保护的技术路径与面临的挑战。文章指出，随着ChatGPT、Claude等闭源AI模型在企业工作流中的广泛应用，敏感数据（如IP、商业机密）泄露至模型服务商的风险日益凸显。华尔街投行、三星等企业早已限制其使用，转而寻求更安全的方案。核心矛盾在于：追求最高性能需依赖闭源前沿模型，但这意味着将数据明文传输至服务商，仅能依靠“合同承诺”保障隐私；而追求可验证的隐私，则需使用开源模型，但其通用能力暂时落后于闭源模型。文章分析了当前实现隐私AI的几种主要机制： 1. **协议层隐私**：如“零数据留存”合同和匿名代理，依赖服务商的承诺，无法验证。 2. **结构层隐私**：利用硬件或密码学技术确保数据私密性，但仅限于开源模型。包括： * **可信执行环境**：在硬件加密环境中运行模型，性能损耗已大幅降低（约7-8%），成本正变得有竞争力。 * **全同态加密**：在密文上直接计算，无需信任任何方，但速度极慢，尚不实用。 * **本地推理**：完全控制数据，但受限于硬件成本和可运行的模型能力。研究表明，经过专家数据微调的开源模型，在特定专业任务（如金融分析）上，其准确率和成本可同时击败通用前沿模型。然而，微调过程本身也可能涉及第三方服务，并非完全私有。目前，结合TEE和E2EE（端到端加密）的托管API服务，正在为开源模型提供可验证的、成本合理的私有推理方案。更大的挑战在于“AI智能体”工作流的隐私。模型调用外部工具（如日历、数据库、搜索引擎）时，查询内容仍以明文形式发送给这些工具的服务端。目前，网关管控、TEE托管工具等方案主要解决中间路径问题，但最终目的地（如谷歌搜索）仍需读取明文查询。加密搜索等技术仍处于实验室阶段，性能和成本尚未达到商用水平。展望未来，私有AI的需求在增长，相关服务用户量显著上升。对普通用户，已有免费或低成本的隐私聊天选择；对企业，带隐私证明的推理端点价格已具竞争力。然而，私有AI市场体量相比主流AI仍然很小。真正的价值在于填补剩余的关键缺口：在加密环境中完成模型训练循环、实现端到端加密的工具调用、构建不暴露查询的加密搜索引擎等。文章结论是，对于依赖工具调用和最高性能的日常任务，企业可能仍需选择信任闭源模型；但对于构成其核心竞争力的高阶分析与决策（即“alpha”），应选择在可验证的私有环境中，利用专有数据微调开源模型，这已成为一条在准确性、成本和隐私上可行的路径。

链捕手07/13 14:54

AI 的十字路口：为什么华尔街们正在向 ChatGPT 与 Claude 们说“不”？

链捕手07/13 14:54

全网骂Claude变笨，Anthropic下场揭秘：坑你的不是模型

近日，Anthropic官方发文澄清了用户关于Claude“变笨”的普遍误解。问题的核心并非模型能力下降，而是用户混淆了“模型选择”与“努力度”两个关键设置。今年3月，许多开发者发现Claude Code性能骤降，任务完成不彻底。原因在于Anthropic为降低延迟，将“努力度”默认档位从“高”调至“中”，导致模型投入工作量减少，而非模型本身变弱。官方解释了两者的区别： - **模型**：代表AI的“脑子”，即固定的知识权重，决定其“会不会”某项任务。换模型是更换其底层能力。 - **努力度**：代表AI的“态度”，决定其单次任务中愿意投入多少工作量，如读取文件、运行测试、深入验证的彻底程度。高努力度能生成数倍于低努力度的思考与操作。因此，当Claude表现不佳时，应先检查提示词与上下文。若AI“不够努力”（如跳过必要步骤），应调高努力度；若属于“不会”（上下文充足仍犯错），才需更换更强模型。一个反直觉的结论是：较小模型（如Sonnet）配合高努力度，其表现可能优于强大模型（如Opus）在低努力度下的表现。关键在于根据任务复杂度合理“调度”模型与努力度，这已成为有效使用AI编程工具的核心技能。盲目升级模型而不调整努力度，可能既浪费成本又无法解决问题。

marsbit07/12 05:56

marsbit07/12 05:56

高盛报告拆解中国AI大模型竞争格局：谁将成为长期赢家？

高盛发布报告深入分析中国AI大模型竞争格局，认为行业正处历史拐点。中国开源/开放权重大模型的智能性能已逼近全球顶尖专有模型，凭借架构创新和参数效率，能以远低于美国模型的成本实现接近性能。报告将竞争演进概括为“从DeepSeek的成本效率时刻到智谱GLM的模型智能时刻”。市场呈现“双层结构”：高端模型（如智谱GLM5.2、阿里Qwen3.7 Max）定价约为每百万token 1美元，推理毛利率约10%-20%；低端模型定价低至每百万token 0.06-0.2美元，主攻价格敏感的中小企业及个人用户。高盛预测，中国AI模型的API及订阅收入将从2026年估算的350亿元人民币增至2030年的8790亿元。开源是中国模型主流策略，利于部署和生态，但现有纯开源模式导致公司披露的ARR严重低估实际部署规模。行业正逐步转向“开放权重+社区许可证”模式以改善变现。企业AI使用范式正从“token最大化”转向“ROI优先”。中国模型凭借性价比优势，正加速拓展国际市场，并已入驻AWS Bedrock等全球主流平台。高盛通过定价能力、成本优势与财务实力三维框架评估长期赢家。在基础文本模型领域，智谱与DeepSeek定位最强；在多模态领域，字节跳动领跑。报告维持对MiniMax和快手的买入评级，看好其发展前景。

marsbit07/11 07:50

marsbit07/11 07:50

高盛深度报告：谁将成为中国 AI 大模型行业的长期赢家？

高盛最新深度报告探讨了中国AI大模型行业的竞争格局与长期赢家。报告指出，中国开源大模型的智能性能已逼近全球顶尖专有模型，凭借架构创新和参数效率，能以远低于美国模型的成本实现接近性能。市场呈现“双层结构”：高端模型（如智谱GLM5.2、阿里Qwen3.7 Max）定价约为每百万token 1美元，低端模型则低至0.06-0.2美元，以开拓价格敏感市场。行业普遍采用开源/开放权重策略以加速迭代和生态构建，但变现面临挑战。未来可能向“开放权重+社区许可证”模式迁移，通过平台收入分成改善经济模型。国际市场，特别是非美市场，是重要增长方向，企业使用范式正从“token最大化”转向“ROI优先”。高盛通过定价能力、成本优势和财务实力三维框架评估玩家竞争力。在基础文本模型领域，智谱（首次覆盖）和DeepSeek定位最强；在多模态/视频生成领域，字节跳动凭借Seed模型领跑。报告维持对MiniMax和快手的买入评级，预测中国AI模型API及订阅收入将从2026年的350亿元增长至2030年的8790亿元。

链捕手07/10 14:19