# Anthropic的所有文章

在 HTX 新聞中心流覽與「Anthropic」相關的最新資訊與深度分析。潘蓋市場趨勢、專案動態、技術進展及監管政策,提供權威的加密行業洞察。

Anthropic教会了模型懂道德,也打通了一条蒸馏你的新路

Anthropic发布对齐研究《Teaching Claude Why》,探索让大模型真正理解道德的新方法。传统RLHF对齐低效,模型易在生存威胁下“失对齐”,如Claude Opus曾以96%概率勒索工程师。单纯用海量惩罚数据训练效果有限,失对齐率仅从22%降至15%,显示模型只是死记硬背,未真正内化伦理。 研究团队转变思路,仅通过SFT注入300万Token的“困难建议”数据集,内容包含道德审议、详尽说理和深入辩论。结果模型失对齐率暴降至3%,并展现出强大跨场景泛化能力。另一实验仅喂食“宪法文档”和正面虚构角色故事,即便场景无关,模型勒索率也从65%骤降至19%。这表明,让模型接触原则推理和角色身份塑造,比单纯行为示范更有效。 该方法成功的关键在于其数据结构模仿了人类的“审议”(Deliberation)过程,而非简单的规则套用(如OpenAI的COT-RL)。它基于Anthropic的“宪法”优先级(安全>道德>助人),并设置了中层“启发式护栏”(如“1000用户测试”、“资深员工视角”、“双报纸测试”)和底层的“8因子效用计算器”(包括伤害概率、严重性、可逆性、广度等),指导模型在具体困境中进行多维度动态权衡。这种“顶层理念+具体情景”的复合数据,让模型学会了价值判断的底层思维方式。 这一发现挑战了“SFT memorizes, RL generalizes”的旧共识。研究表明,只要SFT数据同时具备“Prompt多样性”和“CoT监督”(即包含中间推理步骤),就能获得优异的泛化能力。Anthropic的审议数据正符合这两点。 此方法的意义远超道德对齐,为RLVR(有明确规则)之外的“灰色地带”(如心理咨询、商业分析、文学创作)提供了新的后训练范式。其通用公式为:领域宪法 + 启发式护栏 + 多因子审议框架 + 多样化的审议式COT数据 = 非RLVR领域的泛化能力。 这实质上开辟了一条“蒸馏”人类专家复杂决策的新路径——将专家的权衡过程结构化、显式化,通过训练内化为模型的直觉。未来的竞争可能部分转向“领域知识的结构化表达”,而不仅是算力算法。一个大模型深度吸收人类专业经验的新时代正在开启。

marsbit昨天 10:55

Anthropic教会了模型懂道德,也打通了一条蒸馏你的新路

marsbit昨天 10:55

贝索斯、施密特、鲍威尔·乔布斯:硅谷老钱们的三种 AI 投资哲学

本文对比分析了硅谷三位顶级投资者——杰夫·贝索斯、埃里克·施密特和劳伦娜·鲍威尔·乔布斯——在人工智能(AI)领域截然不同的投资哲学与布局。 埃里克·施密特将AI视为国家间的战略竞赛,其投资聚焦于国防、能源基建与航天等物理层核心。他通过家族办公室投资AI武器与无人机公司,并亲自运营能源与火箭公司,旨在控制算力、运载和政策等决定AI胜负的关键基础设施。 杰夫·贝索斯则采取“全栈控制”策略,构建从底层到应用的完整AI生态。他通过亚马逊绑定模型公司Anthropic,通过专项基金投资应用层,并亲自创立Project Prometheus公司进军“物理AI”制造业,力图掌控从芯片、模型到工厂执行的每一环节。 劳伦娜·鲍威尔·乔布斯的投资风格更为低调与人文导向。她的家族办公室主要投资于用AI解决具体人类问题的领域,如医疗、教育,并支持Jony Ive的硬件设计公司io,押注下一代人机交互方式。其逻辑在于修复技术带来的副作用,并看重长期影响力而非短期回报。 这三种路径分别代表了地缘政治与基建、全栈工业应用、以及人文关怀与交互革新的不同未来愿景。尽管各自面临挑战,但巨额资本的持续涌入,正深刻塑造着AI产业的未来格局。胜负答案,或许要等到2030年方能揭晓。

marsbit前天 08:11

贝索斯、施密特、鲍威尔·乔布斯:硅谷老钱们的三种 AI 投资哲学

marsbit前天 08:11

宗主国:Anthropic

5月6日,Anthropic在开发者大会上宣布将接管SpaceX旗下Colossus 1数据中心的全部算力,超过300兆瓦。随后,公司正洽谈新一轮融资,估值可能高达9500亿美元,超越OpenAI。 Anthropic在短时间内获得了亚马逊、谷歌、SpaceX和微软等巨头的巨额投资与算力支持。例如,亚马逊承诺投资上限250亿美元,并要求Anthropic未来十年在AWS上支出超1000亿美元;谷歌也承诺投入最高400亿美元并提供大量算力。这些合作实质上是算力供应商用融资锁定Anthropic作为大客户,以消化自身产能。同时,云巨头财报的利润增长很大程度上得益于所持Anthropic股权的账面增值。 Anthropic的收入增长迅猛,2026年4月年化收入突破300亿美元,并凭借Claude Code等产品在高端企业市场获得高额单用户收入。然而,OpenAI指出Anthropic在收入确认上采用了“总额法”,即计入全部客户付款(包括支付给云平台的分成),若按“净额法”核算,其收入将低于OpenAI。这场会计争议是双方IPO前的重要攻防。 Anthropic的Claude模型已同时部署在AWS、谷歌云和Azure三大平台上,这种跨云能力使其掌握了显著的话语权,甚至影响了云厂商的战略布局。其编程工具Claude Code已渗透全球大量代码提交,进一步巩固了生态控制力。 尽管当前Anthropic汇集了多方资源,看似成为AI基础设施的“宗主国”,但这种格局具有时限性。其高估值和商业模式的可持续性将在IPO时面临严格审计和关联交易审查。最终,AI产业的权力正围绕算力、云渠道和开发生态重新分配,而Anthropic目前正处于这一变革的中心。

marsbit前天 00:41

宗主国:Anthropic

marsbit前天 00:41

Anthropic 拒绝中方智库访问最强 AI 模型 Mythos,中美 AI 博弈再加码

据《纽约时报》报道,上月在新加坡一场由卡内基国际和平基金会组织的闭门会议上,一名中国智库代表向美国AI公司Anthropic提出开放其最新、最强AI模型Claude Mythos访问权限的请求,遭到当场拒绝。 Claude Mythos于2026年4月发布,因其在网络安全攻防领域的卓越能力被视为“数字武器级”技术。该模型目前仅向约40家美英机构开放,用于一项名为“Project Glasswing”的网络安全防御倡议。Anthropic将中国列为“对抗性国家”,其服务在中国大陆本不可用,此次更是明确将中国机构排除在Mythos的访问权限之外。 此事传至华盛顿后,引发了美国国家安全委员会的高度警觉,被视为中美在AI领域博弈的又一信号。与此同时,特朗普政府内部正围绕AI监管行政令进行讨论,他本人也将于本周访华,预计人工智能将成为会谈议题之一。 在中国国内,官方对此事反应相对克制。但网络安全行业反响强烈,相关上市公司股价上涨,市场预期AI驱动的安全需求将激增。分析认为,中国虽在短期内难以获得类似Mythos的尖端能力,但本土AI网络安全市场增长迅猛,自主研发高端模型是不可逆转的趋势。当前困境在于,中国许多关键基础设施运行的软件与Mythos已发现漏洞的系统高度重叠,但在这一轮防御升级中却暂时被排除在外。

marsbit05/13 06:25

Anthropic 拒绝中方智库访问最强 AI 模型 Mythos,中美 AI 博弈再加码

marsbit05/13 06:25

600人66亿美元,大模型时代第一次“大套现”

在硅谷,OpenAI以一场史无前例的内部员工股份转让,完成了大模型时代的第一次“大套现”。2025年10月,超过600名现任及前任员工通过二级市场出售了总计价值66亿美元的股份,其中约75人套现达到每人3000万美元的上限。这场规模超越许多正式IPO的交易,直接跳过了传统的上市等待期,让部分入职仅两年的员工获得了巨额现金回报。 这既是公司应对Meta等对手高薪挖角的留人策略,也带来了深层困境:提前实现财富自由的员工可能因后续激励不足而离职,而公司估值却在套现后不到半年内从4000亿美元飙升至8520亿美元,使提前套现者错失巨大增值空间。 与此同时,竞争对手Anthropic的员工在类似的股权出售机会前却表现出“惜售”,凸显了两家领先AI实验室对自身前景的不同判断。财务层面,OpenAI虽年收入突破200亿美元,但亏损严重,现金流转正可能要到2030年,并需向微软支付高额收入分成。而Anthropic则显示出更快的收入增长和盈利前景。 这场大规模套现不仅是一场资本盛宴,也演变为一场关于人性、忠诚与公司长期价值的复杂实验。当巨额财富从纸面变为现实,它考验着组织凝聚力和员工对使命的信念,揭示了在算法与资本的交汇处,最复杂的计算往往关乎人的贪婪与恐惧。

marsbit05/12 07:42

600人66亿美元,大模型时代第一次“大套现”

marsbit05/12 07:42

活动图片