GitHub,被 AI 打穿了

marsbit发布于2026-06-04更新于2026-06-04

文章摘要

2026年2月9日,GitHub发生大规模服务中断,核心数据库集群因“缓存重写风暴”过载,导致网站、API、Actions及Copilot等服务瘫痪。事故根源是一个配置改动(缓存刷新时间从12小时改为2小时),但背后是平台面临的结构性挑战。 2026年前三个月,GitHub发生至少8次重大事故,故障原因各异但相互关联。深层原因是AI Agent的爆发式使用导致负载性质剧变。数据显示,2026年单周代码提交量达2.75亿次,按此推算全年将达140亿次,是2025年的14倍。AI贡献的提交量和PR数量在数月内增长数十倍。这些不眠不休的AI“用户”以远超人类的速率提交代码、创建仓库,使GitHub的负载模式从可预测的人类节奏转变为持续高压的自动化洪流。 同时,AI Agent(尤其是Agentic工作流)消耗的计算资源远超预期,使GitHub基于座位的Copilot订阅模式严重亏损。GitHub不得不实施限流,并于6月1日全面转向按用量计费。 为应对挑战,GitHub宣布需按当前规模的30倍重新设计架构,而非简单扩容,重点包括解耦服务、增强故障隔离、改进流量管控等。行业如Stripe、AWS也面临类似问题。 本质上,GitHub正从“人类协作平台”转变为“AI工作流的输出管道”。这不仅是基础设施的压力测试,也引发对其商业模式和核心身份的重塑。频繁的事故报告和高透明度,是平台在重建过程中争取社区耐心的方式。这次停机事件标志着软件开发在AI时代的一次深刻转折。

今年 2 月 9 日,北京时间深夜,全球数以千万计的开发者打开 GitHub,看到了同一个页面。

不是 404,比 404 更让人焦虑——是那个让所有工程师后背发凉的黄色警告条,加上状态页上一排排从绿色变成红色的指示灯。

github.com 挂了。

API 挂了。

GitHub Actions 挂了。

Git 操作挂了——就连 Copilot 也没能幸免。

那一晚,有人的 CI/CD 流水线在最关键的节点停摆,有人的自动化部署卡在了半空中,还有人在等待一个迟迟无法合并的 PR——背后是一个等待上线的功能,等待的是真实用户。

事后 GitHub 发布了事故报告。根本原因,用技术语言说,是「一个负责认证和用户管理的,核心数据库集群过载」。但这几个字背后藏着一条触目惊心的触发链——

两天前,工程团队为了尽快给用户推送一个新模型,把一个「用户设置缓存」的刷新时间从 12 小时改成了 2 小时。就是这一个配置数字的改动。

结果,本来分散在 12 小时内完成的缓存重写,被压缩进了 2 小时,形成了一次密集的「缓存重写风暴」,异步任务队列被瞬间打爆,共享基础设施组件崩溃,连锁反应蔓延到了负责代理 HTTPS Git 操作的服务,最终导致整个平台的连接耗尽。

一个数字,从 12 改到 2。

GitHub,是被自己改的一个配置打穿的。

但如果你只看到这一个配置改动,那你大概错过了这个故事最重要的部分。

01 不是一次意外,是十次意外

2 月 9 日的事故,不是一个孤立事件。

事实上,2026 年的前三个月,GitHub 经历了至少 8 次重大事故。2 月份单月就有 37 次大大小小的故障记录。GitHub 的 CTO Vlad Fedorov 后来在博客里承认,这两个月 GitHub 没能维持它向企业客户承诺的「三个九」——99.9% 可用性。

翻开这两个月的故障档案,你会发现一个奇特的规律:每一次事故,看起来都是不同的原因。

2 月 2 日:Azure 计算提供商出问题,GitHub Actions 停摆近 4 小时,Copilot 编码代理、CodeQL、Dependabot 全部受牵连。

2 月 9 日:缓存重写风暴,认证数据库过载。

3 月 5 日:Redis 集群故障,GitHub Actions 95% 的工作流无法在 5 分钟内启动,平均延迟 30 分钟。

3 月 18 日:Webhook 延迟飙升到正常水平的 32 倍。

每一次看起来都是「意外」,每一次的直接原因都不一样。但 Fedorov 的解释把它们串成了同一个故事。他说,这些事故背后有三个共同的结构性原因:「快速的负载增长、服务之间的紧耦合导致局部故障扩散,以及系统缺乏对异常客户端的流量保护能力。」

用工程师的话说,GitHub 的地基,已经开始在新负载的重压下出现裂缝。

而这个「新负载」,有一个具体的名字。

02 每周 2.75 亿次提交

关键数据

2025 年全年 commit 总量:约 10 亿次

2026 年单周 commit 量:2.75 亿次

按此速度,2026 年全年预计:140 亿次(同比增长 14 倍)

GitHub Actions 计算量:2023 年每周 5 亿分钟 → 2025 年 10 亿 → 2026 年初某周 21 亿分钟

如果你是 GitHub 的基础设施工程师,2025 年和 2026 年的监控仪表盘对比,大概会让你目瞪口呆。

2025 年全年,GitHub 处理了大约 10 亿次代码提交。这个数字本身已经很大了,是 GitHub 平台多年积累的结果。但到了 2026 年,单周的提交量就达到了 2.75 亿次。换算一下——如果按这个速度走完全年,2026 年的总提交量将接近 140 亿次,是 2025 年全年的整整 14 倍。

这不是一条平滑增长的曲线,而是一道陡坡。GitHub 的 Actions 计算量变化更能说明问题:2023 年每周消耗 5 亿分钟,2025 年翻倍到 10 亿,然后在 2026 年初的某一周,直接飙到了 21 亿分钟。

是什么在疯狂提交代码?

不是人类开发者。

GitHub 的数据显示,AI Agent 正在成为这个平台上最活跃的「用户」。Claude Code 单独一个工具,现在贡献了 GitHub 所有公开仓库提交量的 4.5%。每周 260 万次提交,而在 2025 年 9 月底,这个数字还只有 10 万——三个月内增长了 25 倍

AI Agent 开启的 PR 数量同样在爆炸。2025 年 9 月,AI 生成的 PR 大约是每月 400 万个,到 2026 年 3 月,这个数字跳到了 1700 万——四倍多,半年内。

有一个画面可以帮你理解这意味着什么。

以前,GitHub 的「用户」主要是人类程序员。他们白天工作,晚上睡觉,周末休息,每次提交会思考,会犹豫,手速有上限。系统的负载跟着人类的作息走,有峰谷,可以预测。

现在,越来越多的「用户」是 AI Agent。它们不睡觉,不休息,不犹豫,一个任务可以同时开多个并行的 Agent,每个 Agent 每小时的提交量,轻松超过一个真实工程师一周的工作量。更重要的是,它们不只是在提交代码,还在不断创建新仓库——把仓库当成工作流的「输出产物」,而不是人类的「工作空间」。

GitHub 的基础设施工程师们,面对的已经不是一个流量更大的同类问题,而是一个性质完全不同的问题。

03 Copilot 的钱不够烧了

故障频发只是问题的一面,GitHub 还有另一个更让人头疼的麻烦——算账的时候发现亏了。

Copilot 最初的定价逻辑,建立在一个合理的假设上:用户主要是「辅助补全」式的使用,每次交互是短暂的,计算量可预测。个人版每月 10 美元,商业版每月 19 美元,按座位收费,这个模型在过去几年里运转良好。

然后,Agentic AI 来了。

Agentic 工作流和传统补全是两个物种。标准的代码补全,请求是线性的、可预测的,计算周期短暂。而一个 Agentic 编码 session,可能运行几个小时,同时启动多个并行线程,进行多步推理、自我纠错、跨仓库重构——一个 session 消耗的 token 量,轻松超过一个普通用户一整月的订阅费用。

GitHub 面对的局面是,少数重度 Agentic 用户,正在用几美元的月费消耗相当于几百美元的计算资源。

面对这个局面,GitHub 的反应很直接——先控流,再改价。

今年年初开始,GitHub 对 Copilot 启动了两套并行限流机制:session 时长上限和每周使用量上限,两个维度都按照 token 消耗量乘以模型计算权重来算。与此同时,部分个人 Copilot 套餐暂停了新用户注册。

6 月 1 日,GitHub 完成了更根本的定价改革:Copilot 全面切换按用量计费,用「AI Credits」取代原来的套餐费用,1 个 AI Credit 等于 1 美分,使用量按 token 消耗实时计算。

按座位收费的时代,在 Agentic AI 面前,走到了终点。

这个转变不只是 GitHub 的烦恼。这是整个 AI 工具行业在 2026 年正在经历的一次集体定价危机——当 AI 开始替代人类执行完整的工作流,而不只是「辅助」人类工作时,所有基于「每人每月」的订阅逻辑都会失效。

04 30 倍,不是 10 倍

回到基础设施问题。GitHub 到底准备怎么应对这个「14 倍增长」?

这里有一个细节,能说明问题的严峻程度:

2025 年 12 月下旬,Agentic 工作流突然开始加速。GitHub 的工程师们意识到,10 倍不够。到 2026 年 2 月,也就是那次严重停机之后,GitHub 宣布需要按照今天规模的 30 倍重新设计架构

不是扩容,是重新设计。

这两个词的区别很大。扩容是把现有的机器变多、把现有的数据库加内存——方向不变,只是规模变大。重新设计意味着,现有的架构假设在 30 倍规模下会系统性失效,必须从底层重新思考服务拆分、数据流、故障隔离的方式。

GitHub 披露的具体方向包括,解耦关键服务以防止级联失败、引入背压机制和流量降级能力、为热点服务部署独立主机、消除单点故障,以及更完善的变更管理——避免「把缓存 TTL 从 12 小时改到 2 小时」这种操作在没有充分压测的情况下直接上线。

值得注意的是,GitHub 并不孤单。

Stripe 已经遇到了 AI Agent 批量创建账户的问题,AWS 正在构建 Agent 专用的身份系统、日志系统和生产控制机制。这些动作不是未雨绸缪,而是监控仪表盘上已经出现了它们不得不解决的信号。

GitHub 只是第一个被打穿的——因为它在 AI 工具链的最核心。

05 代码仓库,正在变成 AI 的排气管

停下来想一想这整件事的性质。

GitHub 是什么?最直观的回答是,它是程序员存代码的地方。但更深一层,它是人类软件协作的基础设施——提交记录是协作的轨迹,PR 是讨论的容器,Issues 是意图的留存,Action 是执行的管道。整套系统,是为人类的工作节奏、思维方式和协作模式设计的。

AI Agent 改变了这一切。

当一个 AI Agent 一天可以提交几百次代码,每一次「提交」背后没有人类的思考和权衡,只有一个任务循环的进度步骤——代码仓库还是「协作的容器」吗?

当 AI 工具自动生成仓库、自动开 PR、自动跑 CI、自动 merge——开发者还是这个流程的主体,还是说他们已经退化成了「审核者」甚至「旁观者」?

GitHub CTO 在描述这次危机时,用了「负载快速增长」这个词。但这个词很可能低估了问题的本质——这不只是量的增长,是使用方式的质变。在旧模型里,GitHub 是「开发者的工具」;在新模型里,GitHub 正在变成「AI 的排气管」,一个自动化工作流的输出管道

这对 GitHub 意味着什么,其实还没有答案。30 倍扩容能解决流量问题,但解决不了商业模式的再定义,也解决不了「谁是我的真正用户」这个身份问题。

最近有一个颇为意味深长的现象:GitHub 在停机之后开了大量工程博客,非常详细地描述了每一次事故的根本原因,几乎达到了令人意外的透明程度。有人认为这是 GitHub 在主动建立信任,也有人认为这是在以透明度换取开发者社区的耐心——因为接下来的重构期,还会有更多不稳定。

一个平台,在被自己的成功打穿之后,需要把自己拆开重建——而这个过程本身,也是一次能不能撑住的考验。

2 月 9 日那晚,那个等待 PR 合并的工程师,大概最终还是等来了绿灯。但他可能没有意识到,让他等待的那次宕机,不是 GitHub 的一次意外,而是整个软件开发行业进入新时代的一声响动。

本文来自微信公众号 “极客公园”(ID:geekpark),作者:宇航猿

相关问答

Q根据文章,2026年GitHub前两个月故障频发的根本原因是什么?

A根本原因不是一个孤立的技术问题,而是三个结构性原因共同作用的结果:AI驱动的负载快速增长、服务之间的紧耦合导致局部故障快速扩散,以及系统缺乏对异常客户端流量的保护能力。这使得原有的基础设施设计在新负载模式下不堪重负。

QGitHub在2026年面临的代码提交量预计是多少?与2025年相比变化有多大?

A如果按照2026年初单周2.75亿次提交的速度持续,2026年全年提交量预计将达到约140亿次。这与2025年全年约10亿次的提交量相比,预计将实现14倍的爆炸式增长。

QAI Agent对GitHub的影响,除了提交量,在定价模式上引发了什么重大变革?

AAI Agentic工作流的出现,因其消耗的计算资源(Token量)远超传统辅助补全模式,使得基于“每人每月”的订阅定价逻辑失效。这导致GitHub于2026年6月1日将Copilot全面改为按用量计费模式,用“AI Credits”(AI积分)取代固定套餐费用。

Q面对AI带来的挑战,GitHub计划如何解决其基础设施问题?

AGitHub计划进行根本性的架构重新设计,而非简单扩容。具体方向包括:解耦关键服务以防止级联失败、引入背压机制和流量降级能力、为热点服务部署独立主机、消除单点故障,并实施更完善的变更管理流程。其目标是按照当前规模的30倍来重新设计系统。

Q文章用“AI的排气管”来比喻什么?这反映了GitHub角色发生了怎样的深层变化?

A“AI的排气管”比喻的是GitHub的角色从“人类软件协作的基础设施”转变为“自动化工作流的输出管道”。这意味着GitHub的核心功能(如提交、PR、Actions)正在被AI Agent大规模、高速、自动化地使用,其设计初衷(服务于人类的工作节奏和协作模式)正面临根本性质的挑战。

你可能也喜欢

「老登股」变「新贵」:从戴尔到诺基亚,AI 如何重估旧基础设施?

过去被视为增长慢、故事旧的戴尔、诺基亚、思科等老牌科技股,近期因AI成为市场热点。这并非简单的炒作,而是AI发展进入新阶段的必然结果。 早期AI行情聚焦于模型和GPU算力。但随着AI从研发走向大规模应用,真正的挑战在于基础设施建设:需要服务器、网络、存储、电力等一整套复杂系统的交付与整合。这正是老牌科技公司的优势所在,它们几十年积累的客户、供应链和系统集成能力,在AI基建阶段变得至关重要。 市场重估主要围绕三条主线: 1. **服务器与系统集成**:如戴尔、HPE。它们扮演“AI工厂施工队”的角色,优势在于将GPU等核心部件整合成可交付的完整服务器系统,并拥有强大的企业客户渠道。 2. **网络与连接**:如康宁、诺基亚、思科。AI算力集群规模越大,内部互联和数据传输越关键,驱动了对光纤、高速网络设备的强劲需求。 3. **存储与数据管理**:如西部数据、希捷。AI催生了海量训练数据、日志和冷数据存储需求,使得高容量硬盘(HDD)重新成为刚需。 真正的重估需满足三个标准:有真实的AI相关订单和收入;公司因此上调业绩指引;利润质量能同步改善。AI不会让所有传统公司变身成长股,只会筛选出那些能抓住新需求、并将其转化为可持续利润的企业。 总之,这轮行情标志着AI进入真实建设期,市场开始为“谁能把AI基建建起来”的能力定价。老牌科技股并非焕发青春,而是它们手握的基础设施能力,在AI时代被重新需要。

marsbit1小时前

「老登股」变「新贵」:从戴尔到诺基亚,AI 如何重估旧基础设施?

marsbit1小时前

解读大航海时代投资机遇,景顺长城基金发布《2026年中国企业出海报告》

景顺长城基金发布《2026年中国企业出海报告》,指出在当前全球产业链重构背景下,“出海”已成为中国企业的“必选项”和新增长引擎。报告认为,出海行情并非昙花一现,而是可能持续影响A股投资的长期趋势。 报告分析了中国企业出海的版本迭代:从早期赚取加工费的“产品出口”(出海1.0),演进至当前包含产能、经营能力及服务输出的“出海2.0”。后者具体体现在资本品投资高增长、消费品品牌拓展、服务业(如创新药BD、大模型Token)加速出海以及供应链深度嵌入全球AI产业链。 中国企业出海的底气源于多重系统性优势:庞大的工程师红利、完善且低成本的基础设施以及完整的产业链集群效应。这些优势在光模块、创新药等行业已转化为全球竞争力。 针对具体投资机遇,报告重点提及: 1. **资本品**:如工程机械、电力设备(变压器、电网配电设备等),凭借成本与服务优势,正快速进入“一带一路”及全球市场。 2. **科技与高端制造**:新能源车需注重海外本地化;AI应用(大模型、云服务等)及光模块企业展现出非线性增长潜力。 3. **消费与医药**:消费品牌正从“链价比”优势转向品牌溢价;创新药在肿瘤、减重等大适应症领域孕育着巨大的市场机会。 报告也指出,出海之路面临地缘政治、合规、文化等多重挑战,成功的企业需具备前置合规、本地化运营及构建海外核心能力等关键素质。

marsbit1小时前

解读大航海时代投资机遇,景顺长城基金发布《2026年中国企业出海报告》

marsbit1小时前

交易

现货
合约

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

543人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片