GitHub annonce qu'à partir du 24 avril, il utilisera par défaut les données des utilisateurs de Copilot pour entraîner ses modèles d'IA

marsbitPublié le 2026-03-26Dernière mise à jour le 2026-03-26

Résumé

GitHub a annoncé qu'à partir du 24 avril 2026, il mettra à jour sa politique de collecte de données pour utiliser les interactions des utilisateurs de Copilot (Free, Pro et Pro+) afin d’entraîner ses modèles d’IA. Les données collectées incluront les entrées-sorties des modèles, extraits de code, informations contextuelles, structure des dépôts et historiques de discussion. Mario Rodriguez, directeur des produits, a justifié cette décision par l’amélioration de la précision et de la sécurité des suggestions de code. Le mécanisme est activé par défaut : les utilisateurs concernés doivent désactiver manuellement l’option dans les paramètres de confidentialité pour éviter que leurs données ne soient utilisées. Cette approche a suscité des débats concernant la définition des dépôts privés et les droits sur les données. Les utilisateurs professionnels (Business, Enterprise) et éducatifs sont exemptés de cette mesure en raison de contraintes contractuelles. GitHub souligne que cette pratique est courante dans le secteur, suivant l’exemple de sociétés comme Anthropic, JetBrains et Microsoft. Cette évolution reflète une tendance plus large : face à la raréfaction des données publiques de qualité, les acteurs de l’IA se tournent vers les données d’interaction pour améliorer les performances des modèles. Elle marque également le virage de GitHub d’une plateforme de托管 open source vers un écosystème fermé d’entraînement de l’IA, tout en soulevant des questions cruciales sur la conform...

GitHub a récemment annoncé qu'à partir du 24 avril 2026, il mettrait à jour sa politique de gestion des dépôts de code, prévoyant d'utiliser les données d'interaction des utilisateurs pour entraîner ses modèles d'IA. Cette collecte de données couvre les utilisateurs de Copilot Free, Pro et Pro+, incluant spécifiquement les entrées et sorties des modèles, les extraits de code, les informations contextuelles, la structure des dépôts et les historiques de conversations.

Mario Rodriguez, directeur des produits de GitHub, a déclaré que l'introduction des données d'interaction vise à améliorer la précision et la sécurité des suggestions de code du modèle, affirmant que les tests préalables sur les données internes de Microsoft ont déjà significativement augmenté le taux d'acceptation des suggestions. Il est à noter que cette politique adopte un mécanisme « d'adhésion par défaut », les utilisateurs concernés devant désactiver manuellement l'option correspondante dans les paramètres de confidentialité pour se retirer, ce qui a suscité des discussions approfondies dans la communauté des développeurs sur la définition des dépôts privés et la propriété des données.

Actuellement, les utilisateurs de Copilot Business, Enterprise soumis à des clauses contractuelles, ainsi que les utilisateurs de la version éducation, ne sont pas concernés par ce changement. GitHub a souligné dans ses explications que cette mesure est conforme aux pratiques courantes de l'industrie, suivies par des grands noms comme Anthropic, JetBrains et Microsoft. Cependant, l'inclusion de code provenant de dépôts privés dans les ensembles d'entraînement remet en question la notion traditionnelle de « privé », même si GitHub affirme que son objectif est d'optimiser les flux de travail de développement.

D'un point de vue sectoriel, alors que les données de code public de haute qualité s'épuisent, les principaux fournisseurs d'IA se tournent de plus en plus vers l'exploitation de « données profondes » comme les données d'interaction privées pour rechercher des gains de performance des modèles. Ce changement de politique marque non seulement une nouvelle étape dans l'évolution de GitHub, passant d'une plateforme d'hébergement open source à un écosystème fermé d'entraînement d'IA, mais annonce aussi une nouvelle phase dans le domaine des outils d'IA pour développeurs, où la conformité des données et l'avancée des modèles sont en constante négociation.

Questions liées

QQuand GitHub commencera-t-il à utiliser par défaut les données des utilisateurs de Copilot pour former ses modèles d'IA ?

AGitHub commencera à utiliser par défaut les données des utilisateurs de Copilot pour former ses modèles d'IA à partir du 24 avril 2026.

QQuels types de données utilisateur seront collectés par GitHub pour l'entraînement de l'IA ?

ALes données collectées incluent les entrées et sorties des modèles, des extraits de code, des informations contextuelles, la structure des dépôts et les historiques de conversations.

QComment les utilisateurs peuvent-ils se désinscrire de cette collecte de données ?

ALes utilisateurs doivent se rendre manuellement dans leurs paramètres de confidentialité et désactiver l'option correspondante pour se retirer, car la politique utilise un mécanisme d'« inclusion par défaut ».

QQuels utilisateurs de Copilot sont temporairement exemptés de ce changement de politique ?

ALes utilisateurs de Copilot Business, Enterprise et les utilisateurs de la version éducationnelle sont temporairement exemptés en raison de contraintes contractuelles.

QQuelle est la raison principale avancée par GitHub pour justifier cette utilisation des données ?

AGitHub affirme que cela vise à améliorer la précision et la sécurité des suggestions de code du modèle, des tests internes chez Microsoft ayant déjà montré une augmentation significative du taux d'acceptation des suggestions.

Lectures associées

Après la hausse de 32% de Marvell, une famille chinoise de puces émerge en arrière-plan

L'action de Marvell a bondi de 32,5% le 2 juin, atteignant un record historique, portée par la désignation de ses ASIC personnalisés et de ses interconnexions optiques comme « cœur de l'architecture des centres de données IA » par Jensen Huang, le PDG de Nvidia. Cette performance met en lumière la famille sino-américaine derrière la société : les frères et sœur Dai. Fondée en 1995 par Dai Weili, son mari Sehat Sutardja et son beau-frère Pantas Sutardja, Marvell n'est qu'une pièce d'un vaste réseau familial dans les semi-conducteurs. Le frère aîné, Dai Weimin, a fondé VeriSilicon (芯原), leader chinois de l'IP, cotée en Bourse. Le deuxième frère, Dai Weijin, a fondé Vivante (GPU IP), rachetée par VeriSilicon. Sur trois décennies, la famille a lancé ou investi dans au moins six sociétés majeures, dont deux introductions en Bourse et quatre acquisitions (comme Dream Big par Arm pour 265 M$ ou Alphawave par Qualcomm pour 2,4 G$). Leur portefeuille stratégique couvre désormais les points critiques de l'infrastructure IA : ASIC personnalisés (Marvell, VeriSilicon), IP d'interconnexion (Alphawave, BlueCheetah), usines d'assemblage avancé pour puces (Silicon Box, valorisée à plus de 10 Mds$), et composants clés comme les NPU ou les CPU RISC-V. Leur stratégie commune consiste à miser sur les composants essentiels aux standards ouverts (comme les chiplets), plutôt que de concurrencer directement les géants comme Nvidia. Cette approche a construit un écosystème discret mais puissant, estimé à plus de 22 milliards de dollars d'actifs liés à l'IA, réparti à travers l'Amérique, l'Asie et l'Europe. Marvell est leur étendard le plus visible, mais loin d'être leur seul atout dans la révolution de l'intelligence artificielle.

marsbitIl y a 1 h

Après la hausse de 32% de Marvell, une famille chinoise de puces émerge en arrière-plan

marsbitIl y a 1 h

Le CPU, retour discret au centre de la scène du calcul IA

Ces trois dernières années, l'histoire du calcul IA a été presque entièrement centrée sur les GPU, les CPU étant relégués au rôle de soutien. Cependant, à partir de 2026, ce récit évolue. Alors que l'IA passe de l'entraînement massif de modèles au déploiement à grande échelle d'agents et d'inférences, la coordination, la concurrence et la circulation des données deviennent des goulots d'étranglement critiques. Ces tâches d'orchestration, où les GPU sont moins performants, remettent le CPU au centre en tant que « plan de contrôle » de l'infrastructure IA. Intel illustre cette tendance avec son processeur Xeon 6+, lancé en juin 2026. Fabriqué en procédé 18A, il mise sur une densité extrême avec jusqu'à 288 cœurs éco-efficaces (E-cores), optimisés pour le traitement simultané de milliers de tâches légères typiques des charges de travail des agents IA et de l'inférence. Cette approche « haute densité, haut débit » contraste avec la quête traditionnelle de performances mono-cœur. Cependant, la trajectoire d'Intel n'est pas assurée. Le récit du « retour du CPU » est confronté à plusieurs défis : les solutions intégrées CPU-GPU de NVIDIA, la montée des CPU ARM à haute densité développés en interne par les grands clouds (AWS Graviton, Google Axion, etc.), et la nécessité pour le procédé 18A de rivaliser avec les technologies N2 de TSMC et 2 nm de Samsung. En résumé, le CPU retrouve une place essentielle dans l'écosystème du calcul IA, non pas en rivalisant avec le GPU sur le pic de performance, mais en adressant les nouveaux besoins systémiques d'orchestration. La bataille pour savoir quelle architecture (x86 d'Intel/AMD, ARM des clouds ou solutions intégrées de NVIDIA) dominera cette nouvelle ère reste toutefois ouverte.

marsbitIl y a 1 h

Le CPU, retour discret au centre de la scène du calcul IA

marsbitIl y a 1 h

Trading

Spot
Futures
活动图片