GitHub宣布4月24日起默认使用Copilot用户数据训练AI模型

marsbit發佈於 2026-03-26更新於 2026-03-26

文章摘要

GitHub宣布自2026年4月24日起更新政策,将默认使用Copilot Free、Pro及Pro+用户的交互数据训练AI模型,涵盖代码片段、上下文信息、仓库结构及聊天记录等。用户需手动在隐私设置中关闭该选项才能退出数据收集。GitHub称此举旨在提升模型建议的准确性和安全性,并符合行业惯例。Copilot Business、Enterprise及教育版用户暂不受影响。这一政策引发开发者对私有代码数据边界和确权问题的讨论,反映行业在公域代码枯竭背景下转向挖掘私有数据以优化模型性能的趋势,标志着平台向AI训练生态的进一步转型。

GitHub近日宣布将从2026年4月24日起更新其代码库政策,计划利用用户交互数据训练其AI模型。 此次数据采集范围涵盖Copilot Free、Pro及Pro+用户,具体包含模型输入输出、代码片段、上下文信息、仓库结构及聊天交互记录。

GitHub首席产品官Mario Rodriguez表示,引入交互数据旨在提升模型的代码建议准确率与安全性,并称微软内部数据的预先测试已显著提高了建议接受率。值得注意的是,该政策采取“预设加入”机制,受影响用户需手动进入隐私设置关闭相关选项方可退出,这引发了开发者社区关于私有仓库定义及数据确权的广泛讨论。

目前,受合同条款约束的Copilot Business、Enterprise用户以及教育版用户暂不受此变更影响。GitHub在说明中强调,此举符合Anthropic、JetBrains及微软等大厂通行的行业惯例。然而,将私有仓库代码纳入训练集实质上挑战了传统“私有”概念的边界,即便GitHub声称其目的是优化开发工作流。

从行业视角看,随着高质量公域代码数据趋于枯竭,头部AI厂商正加速转向挖掘私有交互数据等“深层数据”以寻求模型性能红利。这一政策转变不仅标志着GitHub从开源托管平台向闭环AI训练生态的进一步倾斜,也预示着AI开发者工具领域正进入数据合规与模型演进博弈的新阶段。

相關問答

QGitHub将从何时开始默认使用Copilot用户数据训练AI模型?

AGitHub将从2026年4月24日起更新政策,默认使用Copilot用户数据训练AI模型。

Q哪些Copilot用户的数据会被用于训练AI模型?

A数据采集范围涵盖Copilot Free、Pro及Pro+用户,包括他们的模型输入输出、代码片段、上下文信息、仓库结构及聊天交互记录。

Q用户如何退出GitHub的数据采集计划?

A该政策采取“预设加入”机制,受影响用户需要手动进入隐私设置关闭相关选项才能退出数据采集。

Q哪些类型的用户暂时不受此次数据政策变更的影响?

A受合同条款约束的Copilot Business、Enterprise用户以及教育版用户暂不受此变更影响。

QGitHub声称使用用户数据训练AI模型的主要目的是什么?

AGitHub声称引入用户交互数据旨在提升AI模型的代码建议准确率与安全性,并优化开发工作流。

你可能也喜歡

微软很怕被AI巨头架空

微软与OpenAI的亲密联盟正在瓦解。2026年6月的Build开发者大会上,微软CEO纳德拉发布了七款自研AI模型、AI工作站及企业Agent治理平台,核心目标是摆脱对OpenAI的依赖。 转折点发生在4月27日,双方修订协议:微软对OpenAI模型的独家授权变为非独占,OpenAI可与其他云服务商合作,微软也不再支付收入分成。这意味着微软用130亿美元筑起的护城河被打破,从独家伙伴变为众多云服务商之一。 尽管微软AI业务年化收入达370亿美元,但主要来自为OpenAI等公司提供算力,赚的是基础设施的钱。其直接面向用户的Copilot市场份额却在下滑,用户活跃度不高,微软面临“赚钱但不是主角”的困境。 为此,微软将战略重心转向企业市场。Build大会聚焦开发者和企业,推出了AI工作站、Agent治理平台和安全容器等,旨在构建企业AI的操作系统——即管理、合规和安全运行各类AI模型的平台层。纳德拉押注:当模型本身日益成为可替换的基础设施时,控制企业AI的管理平台将成为新的制高点。 其深层焦虑在于,随着OpenAI和Anthropic筹备上市并获得独立算力,它们对Azure的依赖将降低,可能动摇微软的AI收入根基。因此,微软必须抢在盟友完全独立前,构筑更深层的、不可替代的企业服务生态,以避免从AI时代的驾驶员再次沦为旁观者。

marsbit10 分鐘前

微软很怕被AI巨头架空

marsbit10 分鐘前

CPU,悄悄回到了AI算力的舞台中央

过去三年,AI算力的焦点几乎全在GPU上,CPU长期被视为次要的“配套”角色。然而,2026年起,这一叙事开始出现变化。英特尔推出至强6+处理器,强调其在AI基础设施中作为“控制平面”的角色,负责编排、并发与数据流动,而非仅仅是GPU的辅助。 这种转变源于AI工作负载的变化。早期重心是高度并行的大模型训练,GPU占绝对主导。但随着AI进入推理与智能体时代,工作负载转变为部署已训练模型到实际业务中,涉及大量任务调度、多模型协作、并发请求处理和数据流管理。这类编排任务GPU并不擅长,反而成为了新的系统瓶颈。因此,CPU在处理这些“周边算力需求”上变得至关重要。 至强6+的产品定义反映了这一判断:它采用高密度能效核设计,核心数多达288个,重点追求多任务并发吞吐能力,而非传统意义上的单核峰值性能。这瞄准了智能体AI所需的高密度、高能效工作负载。 然而,CPU的“回归”并非英特尔一家之事,也面临多重挑战:英伟达通过Grace CPU等方案试图整合CPU角色;主要云厂商纷纷自研高能效ARM架构CPU;同时,至强6+所依赖的Intel 18A制程也需在良率、性能上与台积电N2等竞争。 总而言之,随着AI从集中训练迈向大规模智能体部署,负责系统编排和数据流动的CPU价值被重新发现和定义。虽然CPU回归AI算力核心舞台的趋势已现,但最终由哪家厂商主导这场回归,答案仍未可知。

marsbit31 分鐘前

CPU,悄悄回到了AI算力的舞台中央

marsbit31 分鐘前

交易

現貨
合約
活动图片