GitHub anuncia que utilizará datos de usuarios de Copilot para entrenar modelos de IA a partir del 24 de abril por defecto

marsbitPublicado a 2026-03-26Actualizado a 2026-03-26

Resumen

GitHub ha anunciado que, a partir del 24 de abril de 2026, actualizará su política de uso de datos para entrenar sus modelos de IA con información procedente de las interacciones de los usuarios. Esta medida afectará a los planes Copilot Free, Pro y Pro+, e incluirá datos como entradas y salidas del modelo, fragmentos de código, contexto, estructura de repositorios y registros de conversación. Según GitHub, el objetivo es mejorar la precisión y seguridad de las sugerencias de código. Los usuarios podrán optar por no participar mediante ajustes de privacidad, aunque la opción estará activada por defecto. Los usuarios empresariales, educativos y aquellos bajo acuerdos contractuales específicos quedan excluidos de este cambio. La polémica surge por el uso potencial de código de repositorios privados, desdibujando los límites de lo considerado "privado". Esta estrategia refleja una tendencia en la industria de IA de aprovechar datos de interacciones ante la escasez de datos públicos de alta calidad, marcando una evolución hacia ecosistemas de entrenamiento de IA más cerrados y complejos en cuanto a privacidad y rendimiento.

GitHub anunció recientemente que actualizará su política de repositorios a partir del 24 de abril de 2026, planeando utilizar datos de interacción de usuarios para entrenar sus modelos de IA. Este alcance de recopilación de datos cubre a usuarios de Copilot Free, Pro y Pro+, incluyendo específicamente entradas y salidas del modelo, fragmentos de código, información contextual, estructura de repositorios y registros de interacciones de chat.

Mario Rodriguez, Director de Producto de GitHub, declaró que la introducción de datos de interacción tiene como objetivo mejorar la precisión y seguridad de las sugerencias de código del modelo, y mencionó que las pruebas previas con datos internos de Microsoft ya han aumentado significativamente la tasa de aceptación de sugerencias. Es notable que esta política adopta un mecanismo de "participación predeterminada", lo que requiere que los usuarios afectados accedan manualmente a la configuración de privacidad para desactivar la opción correspondiente si desean excluirse, lo que ha generado un amplio debate en la comunidad de desarrolladores sobre la definición de repositorios privados y la determinación de derechos de datos.

Actualmente, los usuarios de Copilot Business, Enterprise y los usuarios de la versión educativa, sujetos a términos contractuales, no se ven afectados por este cambio por el momento. GitHub enfatizó en su explicación que esta medida se alinea con las prácticas comunes de la industria seguidas por grandes empresas como Anthropic, JetBrains y Microsoft. Sin embargo, incluir código de repositorios privados en conjuntos de entrenamiento desafía esencialmente los límites del concepto tradicional de "privado", incluso si GitHub afirma que su objetivo es optimizar el flujo de trabajo de desarrollo.

Desde una perspectiva de la industria, a medida que los datos de código de dominio público de alta calidad se agotan, los principales fabricantes de IA están acelerando la转向 hacia la explotación de "datos profundos", como datos de interacción privados, para buscar beneficios en el rendimiento del modelo. Este cambio de política no solo marca una mayor inclinación de GitHub desde una plataforma de alojamiento de código abierto hacia un ecosistema cerrado de entrenamiento de IA, sino que también预示 que el campo de herramientas de IA para desarrolladores está entrando en una nueva etapa de博弈 entre el cumplimiento de datos y la evolución de modelos.

Preguntas relacionadas

Q¿A partir de qué fecha GitHub comenzará a utilizar los datos de los usuarios de Copilot para entrenar sus modelos de IA?

AGitHub comenzará a utilizar los datos de los usuarios de Copilot para entrenar sus modelos de IA a partir del 24 de abril de 2026.

Q¿Qué tipos de datos de usuario planea recopilar GitHub para el entrenamiento de su IA?

AGitHub planea recopilar datos de interacción que incluyen entradas y salidas del modelo, fragmentos de código, información contextual, estructura de repositorios y registros de conversaciones de chat.

Q¿Qué usuarios de Copilot NO se verán afectados inicialmente por este cambio de política?

ALos usuarios de Copilot Business, Enterprise y los usuarios de la versión educativa no se verán afectados inicialmente por este cambio de política debido a las restricciones de sus contratos.

Q¿Qué argumenta GitHub como principal justificación para esta recopilación de datos?

AGitHub argumenta que la recopilación de datos de interacción tiene como objetivo mejorar la precisión y seguridad de las sugerencias de código del modelo, citando que las pruebas internas en Microsoft ya han aumentado significativamente la tasa de aceptación de sugerencias.

Q¿Qué preocupación importante ha surgido en la comunidad de desarrolladores respecto a esta nueva política?

ALa comunidad de desarrolladores ha expresado preocupación por la definición de repositorios privados y la propiedad de los datos, ya que la política desafía los límites tradicionales de lo 'privado' al incluir este código en conjuntos de entrenamiento, a pesar de que los usuarios pueden optar por no participar manualmente.

Lecturas Relacionadas

a16z: La 'amnesia' de la IA, ¿puede curarla el aprendizaje continuo?

En el artículo de a16z, se explora la "amnesia" de la IA, comparándola con el personaje de "Memento" que no puede formar nuevos recuerdos. Los modelos de lenguaje actuales, tras su entrenamiento, congelan el conocimiento en sus parámetros, sin poder actualizarse con nueva información. Para compensar, se usan contextos externos como historiales de chat o sistemas de recuperación, pero estos no internalizan realmente el conocimiento. El aprendizaje contextual (ICL) es útil, pero tiene limitaciones: no maneja bien problemas que requieren descubrimiento genuino, adaptación adversarial o conocimiento implícito. La solución propuesta es el "aprendizaje continuo", donde los modelos actualizan sus parámetros después del despliegue, comprimiendo nueva información en lugar de solo recuperarla. Se discuten tres enfoques: 1. **Contexto**: Mejora de ventanas de contexto y sistemas de recuperación. 2. **Módulos**: Uso de adaptadores o memorias externas para especializar modelos. 3. **Pesos**: Actualización directa de parámetros mediante técnicas como metaaprendizaje o auto-mejora. Aunque el aprendizaje contextual es efectivo y escalable, el artículo argumenta que la compresión en los parámetros es crucial para problemas complejos. Sin embargo, actualizar pesos conlleva riesgos como olvido catastrófico o problemas de seguridad. El futuro probablemente combine contextos, módulos y actualizaciones de pesos para lograr IA que aprenda de verdad, no solo recuerde.

marsbitHace 2 hora(s)

a16z: La 'amnesia' de la IA, ¿puede curarla el aprendizaje continuo?

marsbitHace 2 hora(s)

Trading

Spot
Futuros
活动图片