GitHub a récemment annoncé qu'à partir du 24 avril 2026, il mettrait à jour sa politique de gestion des dépôts de code, prévoyant d'utiliser les données d'interaction des utilisateurs pour entraîner ses modèles d'IA. Cette collecte de données couvre les utilisateurs de Copilot Free, Pro et Pro+, incluant spécifiquement les entrées et sorties des modèles, les extraits de code, les informations contextuelles, la structure des dépôts et les historiques de conversations.
Mario Rodriguez, directeur des produits de GitHub, a déclaré que l'introduction des données d'interaction vise à améliorer la précision et la sécurité des suggestions de code du modèle, affirmant que les tests préalables sur les données internes de Microsoft ont déjà significativement augmenté le taux d'acceptation des suggestions. Il est à noter que cette politique adopte un mécanisme « d'adhésion par défaut », les utilisateurs concernés devant désactiver manuellement l'option correspondante dans les paramètres de confidentialité pour se retirer, ce qui a suscité des discussions approfondies dans la communauté des développeurs sur la définition des dépôts privés et la propriété des données.
Actuellement, les utilisateurs de Copilot Business, Enterprise soumis à des clauses contractuelles, ainsi que les utilisateurs de la version éducation, ne sont pas concernés par ce changement. GitHub a souligné dans ses explications que cette mesure est conforme aux pratiques courantes de l'industrie, suivies par des grands noms comme Anthropic, JetBrains et Microsoft. Cependant, l'inclusion de code provenant de dépôts privés dans les ensembles d'entraînement remet en question la notion traditionnelle de « privé », même si GitHub affirme que son objectif est d'optimiser les flux de travail de développement.
D'un point de vue sectoriel, alors que les données de code public de haute qualité s'épuisent, les principaux fournisseurs d'IA se tournent de plus en plus vers l'exploitation de « données profondes » comme les données d'interaction privées pour rechercher des gains de performance des modèles. Ce changement de politique marque non seulement une nouvelle étape dans l'évolution de GitHub, passant d'une plateforme d'hébergement open source à un écosystème fermé d'entraînement d'IA, mais annonce aussi une nouvelle phase dans le domaine des outils d'IA pour développeurs, où la conformité des données et l'avancée des modèles sont en constante négociation.






