GitHub thông báo từ ngày 24/4 sẽ sử dụng dữ liệu người dùng Copilot làm mặc định để huấn luyện mô hình AI

marsbitXuất bản vào 2026-03-26Cập nhật gần nhất vào 2026-03-26

Tóm tắt

GitHub vừa thông báo sẽ cập nhật chính sách từ ngày 24/4/2026, sử dụng dữ liệu tương tác người dùng để huấn luyện mô hình AI. Dữ liệu thu thập bao gồm đầu vào/đầu ra mô hình, đoạn mã, thông tin ngữ cảnh, cấu trúc kho lưu trữ và lịch sử trò chuyện từ người dùng Copilot Free, Pro và Pro+. Chính sách mặc định áp dụng cơ chế "opt-out", yêu cầu người dùng chủ động tắt tùy chọn trong cài đặt riêng tư nếu muốn không tham gia. GitHub khẳng định việc này nhằm nâng cao độ chính xác và bảo mật của gợi ý mã, đồng thời tuân thủ thông lệ ngành từ các công ty như Microsoft hay Anthropic. Tuy nhiên, người dùng doanh nghiệp, giáo dục và tổ chức theo hợp đồng không bị ảnh hưởng. Động thái này đặt ra tranh luận về quyền sở hữu dữ liệu và định nghĩa lại khái niệm "riêng tư" trong kho mã, đánh dấu xu hướng chuyển đổi từ nền tảng mã nguồn mở sang hệ sinh thái AI khép kín của GitHub.

GitHub gần đây đã thông báo sẽ cập nhật chính sách kho lưu trữ mã từ ngày 24/4/2026, với kế hoạch sử dụng dữ liệu tương tác người dùng để huấn luyện mô hình AI của họ. Phạm vi thu thập dữ liệu này bao gồm người dùng Copilot Free, Pro và Pro+, cụ thể bao gồm đầu vào/đầu ra mô hình, đoạn mã, thông tin ngữ cảnh, cấu trúc kho lưu trữ và lịch sử tương tác trò chuyện.

Giám đốc sản phẩm GitHub Mario Rodriguez cho biết, việc đưa vào dữ liệu tương tác nhằm nâng cao độ chính xác và tính bảo mật của các đề xuất mã từ mô hình, đồng thời khẳng định rằng việc thử nghiệm trước với dữ liệu nội bộ Microsoft đã cải thiện đáng kể tỷ lệ chấp nhận đề xuất. Đáng chú ý, chính sách này áp dụng cơ chế "tham gia mặc định", người dùng bị ảnh hưởng phải thủ công vào cài đặt quyền riêng tư để tắt tùy chọn liên quan nếu muốn thoát, điều này đã khơi lên cuộc thảo luận sâu rộng trong cộng đồng nhà phát triển về định nghĩa kho lưu trữ riêng tư và quyền sở hữu dữ liệu.

Hiện tại, người dùng Copilot Business, Enterprise bị ràng buộc bởi điều khoản hợp đồng và người dùng phiên bản giáo dục tạm thời không bị ảnh hưởng bởi thay đổi này. GitHub trong phần giải thích nhấn mạnh, hành động này phù hợp với thông lệ ngành phổ biến của các đại gia như Anthropic, JetBrains và Microsoft. Tuy nhiên, việc đưa mã từ kho lưu trữ riêng tư vào tập huấn luyện trên thực tế đã thách thức ranh giới khái niệm "riêng tư" truyền thống, ngay cả khi GitHub tuyên bố mục đích của họ là tối ưu hóa quy trình làm việc phát triển.

Xét từ góc độ ngành, khi dữ liệu mã nguồn công cộng chất lượng cao dần cạn kiệt, các hãng AI hàng đầu đang tăng tốc chuyển hướng sang khai thác các "dữ liệu sâu" như dữ liệu tương tác riêng tư để tìm kiếm lợi thế về hiệu suất mô hình. Sự thay đổi chính sách này không chỉ đánh dấu bước nghiêng xa hơn nữa của GitHub từ nền tảng lưu trữ mã nguồn mở sang hệ sinh thái huấn luyện AI khép kín, mà còn báo trước lĩnh vực công cụ dành cho nhà phát triển AI đang bước vào một giai đoạn mới của cuộc đấu giữa sự tuân thủ dữ liệu và sự tiến hóa của mô hình.

Câu hỏi Liên quan

QGitHub thông báo sẽ sử dụng dữ liệu người dùng Copilot để huấn luyện AI từ thời điểm nào?

AGitHub sẽ bắt đầu sử dụng dữ liệu người dùng Copilot để huấn luyện mô hình AI từ ngày 24 tháng 4 năm 2026.

QNhững loại dữ liệu nào của người dùng sẽ được GitHub thu thập để huấn luyện AI?

ADữ liệu thu thập bao gồm đầu vào/đầu ra mô hình, đoạn mã, thông tin ngữ cảnh, cấu trúc kho lưu trữ và lịch sử tương tác trò chuyện.

QNgười dùng có thể từ chối không cho GitHub sử dụng dữ liệu của mình không?

ACó, người dùng có thể từ chối bằng cách thủ công vào cài đặt quyền riêng tư và tắt tùy chọn liên quan, vì chính sách này mặc định là 'tự động tham gia'.

QNhóm người dùng Copilot nào không bị ảnh hưởng bởi thay đổi chính sách này?

ANgười dùng Copilot Business, Enterprise và phiên bản giáo dục hiện không bị ảnh hưởng bởi thay đổi này do các điều khoản hợp đồng.

QLý do GitHub đưa ra để biện minh cho việc thu thập dữ liệu người dùng là gì?

AGitHub tuyên bố việc thu thập dữ liệu tương tác nhằm mục đích cải thiện độ chính xác và tính bảo mật của các đề xuất mã từ mô hình AI, đồng thời phù hợp với thông lệ ngành của các công ty lớn.

Nội dung Liên quan

Cardano Hay Solana? Lựa Chọn Hàng Đầu Của Chuyên Gia Sau Khi ADA, SOL Giảm 10%

Thị trường tiền điện tử sụt giảm khi Bitcoin (BTC) tạm thời xuống dưới 67.000 USD, kéo theo Solana (SOL) và Cardano (ADA) mất giá khoảng 10%. Chuyên gia Anders Bylund so sánh hai nền tảng. Solana được thiết kế cho tốc độ cao và phí giao dịch rẻ, nhưng có lịch sử gặp sự cố ngừng hoạt động. Mặc dù mạng lưới đã ổn định hơn kể từ đầu năm 2024, bài viết cho rằng độ tin cậy lâu dài vẫn là một câu hỏi. Ngược lại, Cardano theo đuổi triết lý chú trọng nghiên cứu học thuật và xác minh chính thức, nhằm tạo ra một blockchain ổn định hơn, dù có thể phát triển tính năng mới chậm hơn. Về hoạt động thực tế, Solana thể hiện rõ hơn với khối lượng giao dịch trên các sàn phi tập trung (DEX) cao gấp hơn 400 lần so với Cardano. Kết luận, chuyên gia cho rằng Solana là lựa chọn mạnh hơn hiện tại, do lợi thế về mức độ sử dụng trong thực tế. Tuy nhiên, cả hai đều là khoản đầu tư rủi ro. Nếu Bitcoin giảm 30%, các altcoin như SOL và ADA có thể giảm từ 50-70%. Thời điểm bài viết, ADA giao dịch quanh 0,21 USD và SOL ở 76 USD, cả hai đều giảm hơn 5% trong 24h. ADA hiện thấp hơn 92% so với mức đỉnh mọi thời đại, trong khi SOL thấp hơn 73%.

bitcoinist34 phút trước

Cardano Hay Solana? Lựa Chọn Hàng Đầu Của Chuyên Gia Sau Khi ADA, SOL Giảm 10%

bitcoinist34 phút trước

Morningstar định giá SpaceX chỉ 7800 tỷ USD, chưa bằng một nửa mục tiêu IPO, "IPO lớn nhất lịch sử" định giá quá cao?

SpaceX đang chuẩn bị cho đợt IPO có thể là lớn nhất lịch sử với mục tiêu định giá 1.750 tỷ USD. Tuy nhiên, Morningstar đưa ra định giá hợp lý chỉ 780 tỷ USD, tương đương 45% mục tiêu, và nhận định công ty bị định giá quá cao. Theo phân tích, Morningstar định giá riêng lõi kinh doanh phóng tên lửa và Starlink khoảng 611 tỷ USD. Phần định giá 170 tỷ USD còn lại dành cho hoạt động AI (bao gồm xAI và nền tảng X), được tính trọng số xác suất với kịch bản bi quan chiếm ưu thế. Starlink là mảng duy nhất có lãi với doanh thu 2025 đạt 11,3 tỷ USD. Dù đánh giá cao, Morningstar thừa nhận giá cổ phiếu SpaceX có thể tăng ngắn hạn sau IPO nhờ lượng cổ phiếu lưu hành thấp (chỉ ~3%), nhu cầu cao với cổ phiếu hạ tầng AI và cơ chế đưa nhanh vào chỉ số Nasdaq 100 sau 15 phiên giao dịch. Tuy nhiên, áp lực bán từ cơ cấu giải ngân cổ phiếu nội bộ theo tầng và rủi ro tái cấp vốn cho khoản vay cầu nối 200 tỷ USD đáo hạn sau 15 tháng là những điểm cần lưu ý. Rủi ro quản trị cũng được nêu do cấu trúc cổ phần cho phép Elon Musk nắm ~85% quyền biểu quyết. Lộ trình dự kiến: SpaceX bắt đầu roadshow vào tuần ngày 8/6, định giá ngày 11/6 và niêm yết trên Nasdaq (mã SPCX) vào ngày 12/6.

marsbit38 phút trước

Morningstar định giá SpaceX chỉ 7800 tỷ USD, chưa bằng một nửa mục tiêu IPO, "IPO lớn nhất lịch sử" định giá quá cao?

marsbit38 phút trước

a16z: Tại sao thị trường dự đoán sẽ trở thành cơ sở hạ tầng của 'xác suất tương lai'

Thị trường dự đoán đang phát triển từ công cụ giao dịch nhỏ thành cơ sở hạ tầng cung cấp tín hiệu xác suất cho các sự kiện tương lai. Về bản chất, chúng là thị trường thuần túy, tận dụng khả năng tổng hợp thông tin phân tán thông qua cơ chế giá, biến các sự kiện như bầu cử hay biến động địa chính trị thành tài sản có thể giao dịch với mức giá phản ánh xác suất xảy ra. Ưu điểm chính của thị trường dự đoán so với thăm dò truyền thống là cơ chế khuyến khích bằng tiền thật, buộc người tham gia phải cân nhắc kỹ lưỡng dựa trên thông tin họ có, từ đó tạo ra tín hiệu xác suất động, cập nhật theo thời gian thực. Chúng cũng linh hoạt, có thể áp dụng cho các vấn đề chuyên biệt như đánh giá hiệu suất AI mà thị trường truyền thống không phản ánh được. Tuy nhiên, hiệu quả của thị trường dự đoán không tự động đạt được. Nó phụ thuộc vào việc người có thông tin có tham gia hay không, thiết kế hợp đồng, cơ chế xác định kết quả và nguy cơ bị thao túng bởi nội gián hoặc các nhóm muốn định hướng nhận thức công chúng. Do đó, bước phát triển tiếp theo là xây dựng cơ sở hạ tầng thị trường đáng tin cậy: quy tắc minh bạch, thiết kế hợp đồng rõ ràng, cơ chế thanh toán có thể kiểm toán và các biện pháp ngăn chặn thao túng. Giá trị cốt lõi của chúng không nằm ở việc "đặt cược vào tương lai", mà ở việc cung cấp một tín hiệu xác suất công cộng mới trong môi trường đầy bất định.

marsbit50 phút trước

a16z: Tại sao thị trường dự đoán sẽ trở thành cơ sở hạ tầng của 'xác suất tương lai'

marsbit50 phút trước

WSJ: Hyperliquid đang trở thành 'cửa hàng tiện lợi' tiền mã hóa cho Phố Wall

Hyperliquid, một nền tảng giao dịch phi tập trung (DEX) hoạt động 24/7, đang trở thành điểm đến cho các nhà giao dịch Wall Street để đặt cược vào nhiều loại tài sản – từ Bitcoin, dầu thô đến chỉ số S&P 500 hay các công ty chưa niêm yết như SpaceX – thông qua hợp đồng phái sinh vĩnh viễn (perpetual futures). Bài báo từ WSJ kể câu chuyện của nhà giao dịch Vala Zeinali, người đã thu lợi nhuận 243% trên Hyperliquid sau khi tin tức về cuộc không kích vào Iran làm giá dầu tăng vọt. Nền tảng này, được sáng lập bởi Jeff Yan – cựu giao dịch định lượng – sau sự sụp đổ của FTX, nhấn mạnh vào việc tự giám sát tài sản (self-custody) và hiệu suất cao. Mặc dù chưa khả dụng cho người dùng Mỹ, nhiều nhà giao dịch vẫn sử dụng VPN để truy cập, bị thu hút bởi giao diện thân thiện, không cần xác minh danh tính nghiêm ngặt và sự lựa chọn tài sản đa dạng. Đồng thời, một cộng đồng mạnh mẽ đã hình thành xung quanh đồng native token HYPE (vốn hóa ~160 tỷ USD) và linh vật "Hypurr". Tuy nhiên, sản phẩm hợp đồng vĩnh viễn đòn bẩy cao này tiềm ẩn rủi ro lớn, như đã thấy trong một đợt bán tháo hồi tháng 10 làm xóa sổ 10 tỷ USD vị thế trên Hyperliquid. Dù vậy, nền tảng vẫn có kế hoạch mở rộng sang thị trường dự đoán và quyền chọn, với mục tiêu cuối cùng là trở thành nơi giao dịch cho toàn bộ ngành tài chính.

marsbit59 phút trước

WSJ: Hyperliquid đang trở thành 'cửa hàng tiện lợi' tiền mã hóa cho Phố Wall

marsbit59 phút trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片