GitHub gần đây đã thông báo sẽ cập nhật chính sách kho lưu trữ mã từ ngày 24/4/2026, với kế hoạch sử dụng dữ liệu tương tác người dùng để huấn luyện mô hình AI của họ. Phạm vi thu thập dữ liệu này bao gồm người dùng Copilot Free, Pro và Pro+, cụ thể bao gồm đầu vào/đầu ra mô hình, đoạn mã, thông tin ngữ cảnh, cấu trúc kho lưu trữ và lịch sử tương tác trò chuyện.
Giám đốc sản phẩm GitHub Mario Rodriguez cho biết, việc đưa vào dữ liệu tương tác nhằm nâng cao độ chính xác và tính bảo mật của các đề xuất mã từ mô hình, đồng thời khẳng định rằng việc thử nghiệm trước với dữ liệu nội bộ Microsoft đã cải thiện đáng kể tỷ lệ chấp nhận đề xuất. Đáng chú ý, chính sách này áp dụng cơ chế "tham gia mặc định", người dùng bị ảnh hưởng phải thủ công vào cài đặt quyền riêng tư để tắt tùy chọn liên quan nếu muốn thoát, điều này đã khơi lên cuộc thảo luận sâu rộng trong cộng đồng nhà phát triển về định nghĩa kho lưu trữ riêng tư và quyền sở hữu dữ liệu.
Hiện tại, người dùng Copilot Business, Enterprise bị ràng buộc bởi điều khoản hợp đồng và người dùng phiên bản giáo dục tạm thời không bị ảnh hưởng bởi thay đổi này. GitHub trong phần giải thích nhấn mạnh, hành động này phù hợp với thông lệ ngành phổ biến của các đại gia như Anthropic, JetBrains và Microsoft. Tuy nhiên, việc đưa mã từ kho lưu trữ riêng tư vào tập huấn luyện trên thực tế đã thách thức ranh giới khái niệm "riêng tư" truyền thống, ngay cả khi GitHub tuyên bố mục đích của họ là tối ưu hóa quy trình làm việc phát triển.
Xét từ góc độ ngành, khi dữ liệu mã nguồn công cộng chất lượng cao dần cạn kiệt, các hãng AI hàng đầu đang tăng tốc chuyển hướng sang khai thác các "dữ liệu sâu" như dữ liệu tương tác riêng tư để tìm kiếm lợi thế về hiệu suất mô hình. Sự thay đổi chính sách này không chỉ đánh dấu bước nghiêng xa hơn nữa của GitHub từ nền tảng lưu trữ mã nguồn mở sang hệ sinh thái huấn luyện AI khép kín, mà còn báo trước lĩnh vực công cụ dành cho nhà phát triển AI đang bước vào một giai đoạn mới của cuộc đấu giữa sự tuân thủ dữ liệu và sự tiến hóa của mô hình.






