GitHub thông báo từ ngày 24/4 sẽ sử dụng dữ liệu người dùng Copilot làm mặc định để huấn luyện mô hình AI

marsbitXuất bản vào 2026-03-26Cập nhật gần nhất vào 2026-03-26

Tóm tắt

GitHub vừa thông báo sẽ cập nhật chính sách từ ngày 24/4/2026, sử dụng dữ liệu tương tác người dùng để huấn luyện mô hình AI. Dữ liệu thu thập bao gồm đầu vào/đầu ra mô hình, đoạn mã, thông tin ngữ cảnh, cấu trúc kho lưu trữ và lịch sử trò chuyện từ người dùng Copilot Free, Pro và Pro+. Chính sách mặc định áp dụng cơ chế "opt-out", yêu cầu người dùng chủ động tắt tùy chọn trong cài đặt riêng tư nếu muốn không tham gia. GitHub khẳng định việc này nhằm nâng cao độ chính xác và bảo mật của gợi ý mã, đồng thời tuân thủ thông lệ ngành từ các công ty như Microsoft hay Anthropic. Tuy nhiên, người dùng doanh nghiệp, giáo dục và tổ chức theo hợp đồng không bị ảnh hưởng. Động thái này đặt ra tranh luận về quyền sở hữu dữ liệu và định nghĩa lại khái niệm "riêng tư" trong kho mã, đánh dấu xu hướng chuyển đổi từ nền tảng mã nguồn mở sang hệ sinh thái AI khép kín của GitHub.

GitHub gần đây đã thông báo sẽ cập nhật chính sách kho lưu trữ mã từ ngày 24/4/2026, với kế hoạch sử dụng dữ liệu tương tác người dùng để huấn luyện mô hình AI của họ. Phạm vi thu thập dữ liệu này bao gồm người dùng Copilot Free, Pro và Pro+, cụ thể bao gồm đầu vào/đầu ra mô hình, đoạn mã, thông tin ngữ cảnh, cấu trúc kho lưu trữ và lịch sử tương tác trò chuyện.

Giám đốc sản phẩm GitHub Mario Rodriguez cho biết, việc đưa vào dữ liệu tương tác nhằm nâng cao độ chính xác và tính bảo mật của các đề xuất mã từ mô hình, đồng thời khẳng định rằng việc thử nghiệm trước với dữ liệu nội bộ Microsoft đã cải thiện đáng kể tỷ lệ chấp nhận đề xuất. Đáng chú ý, chính sách này áp dụng cơ chế "tham gia mặc định", người dùng bị ảnh hưởng phải thủ công vào cài đặt quyền riêng tư để tắt tùy chọn liên quan nếu muốn thoát, điều này đã khơi lên cuộc thảo luận sâu rộng trong cộng đồng nhà phát triển về định nghĩa kho lưu trữ riêng tư và quyền sở hữu dữ liệu.

Hiện tại, người dùng Copilot Business, Enterprise bị ràng buộc bởi điều khoản hợp đồng và người dùng phiên bản giáo dục tạm thời không bị ảnh hưởng bởi thay đổi này. GitHub trong phần giải thích nhấn mạnh, hành động này phù hợp với thông lệ ngành phổ biến của các đại gia như Anthropic, JetBrains và Microsoft. Tuy nhiên, việc đưa mã từ kho lưu trữ riêng tư vào tập huấn luyện trên thực tế đã thách thức ranh giới khái niệm "riêng tư" truyền thống, ngay cả khi GitHub tuyên bố mục đích của họ là tối ưu hóa quy trình làm việc phát triển.

Xét từ góc độ ngành, khi dữ liệu mã nguồn công cộng chất lượng cao dần cạn kiệt, các hãng AI hàng đầu đang tăng tốc chuyển hướng sang khai thác các "dữ liệu sâu" như dữ liệu tương tác riêng tư để tìm kiếm lợi thế về hiệu suất mô hình. Sự thay đổi chính sách này không chỉ đánh dấu bước nghiêng xa hơn nữa của GitHub từ nền tảng lưu trữ mã nguồn mở sang hệ sinh thái huấn luyện AI khép kín, mà còn báo trước lĩnh vực công cụ dành cho nhà phát triển AI đang bước vào một giai đoạn mới của cuộc đấu giữa sự tuân thủ dữ liệu và sự tiến hóa của mô hình.

Câu hỏi Liên quan

QGitHub thông báo sẽ sử dụng dữ liệu người dùng Copilot để huấn luyện AI từ thời điểm nào?

AGitHub sẽ bắt đầu sử dụng dữ liệu người dùng Copilot để huấn luyện mô hình AI từ ngày 24 tháng 4 năm 2026.

QNhững loại dữ liệu nào của người dùng sẽ được GitHub thu thập để huấn luyện AI?

ADữ liệu thu thập bao gồm đầu vào/đầu ra mô hình, đoạn mã, thông tin ngữ cảnh, cấu trúc kho lưu trữ và lịch sử tương tác trò chuyện.

QNgười dùng có thể từ chối không cho GitHub sử dụng dữ liệu của mình không?

ACó, người dùng có thể từ chối bằng cách thủ công vào cài đặt quyền riêng tư và tắt tùy chọn liên quan, vì chính sách này mặc định là 'tự động tham gia'.

QNhóm người dùng Copilot nào không bị ảnh hưởng bởi thay đổi chính sách này?

ANgười dùng Copilot Business, Enterprise và phiên bản giáo dục hiện không bị ảnh hưởng bởi thay đổi này do các điều khoản hợp đồng.

QLý do GitHub đưa ra để biện minh cho việc thu thập dữ liệu người dùng là gì?

AGitHub tuyên bố việc thu thập dữ liệu tương tác nhằm mục đích cải thiện độ chính xác và tính bảo mật của các đề xuất mã từ mô hình AI, đồng thời phù hợp với thông lệ ngành của các công ty lớn.

Nội dung Liên quan

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片