GitHub annonce qu'à partir du 24 avril, il utilisera par défaut les données des utilisateurs de Copilot pour entraîner ses modèles d'IA

marsbitPublié le 2026-03-26Dernière mise à jour le 2026-03-26

Résumé

GitHub a annoncé qu'à partir du 24 avril 2026, il mettra à jour sa politique de collecte de données pour utiliser les interactions des utilisateurs de Copilot (Free, Pro et Pro+) afin d’entraîner ses modèles d’IA. Les données collectées incluront les entrées-sorties des modèles, extraits de code, informations contextuelles, structure des dépôts et historiques de discussion. Mario Rodriguez, directeur des produits, a justifié cette décision par l’amélioration de la précision et de la sécurité des suggestions de code. Le mécanisme est activé par défaut : les utilisateurs concernés doivent désactiver manuellement l’option dans les paramètres de confidentialité pour éviter que leurs données ne soient utilisées. Cette approche a suscité des débats concernant la définition des dépôts privés et les droits sur les données. Les utilisateurs professionnels (Business, Enterprise) et éducatifs sont exemptés de cette mesure en raison de contraintes contractuelles. GitHub souligne que cette pratique est courante dans le secteur, suivant l’exemple de sociétés comme Anthropic, JetBrains et Microsoft. Cette évolution reflète une tendance plus large : face à la raréfaction des données publiques de qualité, les acteurs de l’IA se tournent vers les données d’interaction pour améliorer les performances des modèles. Elle marque également le virage de GitHub d’une plateforme de托管 open source vers un écosystème fermé d’entraînement de l’IA, tout en soulevant des questions cruciales sur la conform...

GitHub a récemment annoncé qu'à partir du 24 avril 2026, il mettrait à jour sa politique de gestion des dépôts de code, prévoyant d'utiliser les données d'interaction des utilisateurs pour entraîner ses modèles d'IA. Cette collecte de données couvre les utilisateurs de Copilot Free, Pro et Pro+, incluant spécifiquement les entrées et sorties des modèles, les extraits de code, les informations contextuelles, la structure des dépôts et les historiques de conversations.

Mario Rodriguez, directeur des produits de GitHub, a déclaré que l'introduction des données d'interaction vise à améliorer la précision et la sécurité des suggestions de code du modèle, affirmant que les tests préalables sur les données internes de Microsoft ont déjà significativement augmenté le taux d'acceptation des suggestions. Il est à noter que cette politique adopte un mécanisme « d'adhésion par défaut », les utilisateurs concernés devant désactiver manuellement l'option correspondante dans les paramètres de confidentialité pour se retirer, ce qui a suscité des discussions approfondies dans la communauté des développeurs sur la définition des dépôts privés et la propriété des données.

Actuellement, les utilisateurs de Copilot Business, Enterprise soumis à des clauses contractuelles, ainsi que les utilisateurs de la version éducation, ne sont pas concernés par ce changement. GitHub a souligné dans ses explications que cette mesure est conforme aux pratiques courantes de l'industrie, suivies par des grands noms comme Anthropic, JetBrains et Microsoft. Cependant, l'inclusion de code provenant de dépôts privés dans les ensembles d'entraînement remet en question la notion traditionnelle de « privé », même si GitHub affirme que son objectif est d'optimiser les flux de travail de développement.

D'un point de vue sectoriel, alors que les données de code public de haute qualité s'épuisent, les principaux fournisseurs d'IA se tournent de plus en plus vers l'exploitation de « données profondes » comme les données d'interaction privées pour rechercher des gains de performance des modèles. Ce changement de politique marque non seulement une nouvelle étape dans l'évolution de GitHub, passant d'une plateforme d'hébergement open source à un écosystème fermé d'entraînement d'IA, mais annonce aussi une nouvelle phase dans le domaine des outils d'IA pour développeurs, où la conformité des données et l'avancée des modèles sont en constante négociation.

Questions liées

QQuand GitHub commencera-t-il à utiliser par défaut les données des utilisateurs de Copilot pour former ses modèles d'IA ?

AGitHub commencera à utiliser par défaut les données des utilisateurs de Copilot pour former ses modèles d'IA à partir du 24 avril 2026.

QQuels types de données utilisateur seront collectés par GitHub pour l'entraînement de l'IA ?

ALes données collectées incluent les entrées et sorties des modèles, des extraits de code, des informations contextuelles, la structure des dépôts et les historiques de conversations.

QComment les utilisateurs peuvent-ils se désinscrire de cette collecte de données ?

ALes utilisateurs doivent se rendre manuellement dans leurs paramètres de confidentialité et désactiver l'option correspondante pour se retirer, car la politique utilise un mécanisme d'« inclusion par défaut ».

QQuels utilisateurs de Copilot sont temporairement exemptés de ce changement de politique ?

ALes utilisateurs de Copilot Business, Enterprise et les utilisateurs de la version éducationnelle sont temporairement exemptés en raison de contraintes contractuelles.

QQuelle est la raison principale avancée par GitHub pour justifier cette utilisation des données ?

AGitHub affirme que cela vise à améliorer la précision et la sécurité des suggestions de code du modèle, des tests internes chez Microsoft ayant déjà montré une augmentation significative du taux d'acceptation des suggestions.

Lectures associées

Trading

Spot
Futures
活动图片