GitHub anunció recientemente que actualizará su política de repositorios a partir del 24 de abril de 2026, planeando utilizar datos de interacción de usuarios para entrenar sus modelos de IA. Este alcance de recopilación de datos cubre a usuarios de Copilot Free, Pro y Pro+, incluyendo específicamente entradas y salidas del modelo, fragmentos de código, información contextual, estructura de repositorios y registros de interacciones de chat.
Mario Rodriguez, Director de Producto de GitHub, declaró que la introducción de datos de interacción tiene como objetivo mejorar la precisión y seguridad de las sugerencias de código del modelo, y mencionó que las pruebas previas con datos internos de Microsoft ya han aumentado significativamente la tasa de aceptación de sugerencias. Es notable que esta política adopta un mecanismo de "participación predeterminada", lo que requiere que los usuarios afectados accedan manualmente a la configuración de privacidad para desactivar la opción correspondiente si desean excluirse, lo que ha generado un amplio debate en la comunidad de desarrolladores sobre la definición de repositorios privados y la determinación de derechos de datos.
Actualmente, los usuarios de Copilot Business, Enterprise y los usuarios de la versión educativa, sujetos a términos contractuales, no se ven afectados por este cambio por el momento. GitHub enfatizó en su explicación que esta medida se alinea con las prácticas comunes de la industria seguidas por grandes empresas como Anthropic, JetBrains y Microsoft. Sin embargo, incluir código de repositorios privados en conjuntos de entrenamiento desafía esencialmente los límites del concepto tradicional de "privado", incluso si GitHub afirma que su objetivo es optimizar el flujo de trabajo de desarrollo.
Desde una perspectiva de la industria, a medida que los datos de código de dominio público de alta calidad se agotan, los principales fabricantes de IA están acelerando la转向 hacia la explotación de "datos profundos", como datos de interacción privados, para buscar beneficios en el rendimiento del modelo. Este cambio de política no solo marca una mayor inclinación de GitHub desde una plataforma de alojamiento de código abierto hacia un ecosistema cerrado de entrenamiento de IA, sino que también预示 que el campo de herramientas de IA para desarrolladores está entrando en una nueva etapa de博弈 entre el cumplimiento de datos y la evolución de modelos.






