GitHub thông báo từ ngày 24/4 sẽ sử dụng dữ liệu người dùng Copilot làm mặc định để huấn luyện mô hình AI

marsbitXuất bản vào 2026-03-26Cập nhật gần nhất vào 2026-03-26

Tóm tắt

GitHub vừa thông báo sẽ cập nhật chính sách từ ngày 24/4/2026, sử dụng dữ liệu tương tác người dùng để huấn luyện mô hình AI. Dữ liệu thu thập bao gồm đầu vào/đầu ra mô hình, đoạn mã, thông tin ngữ cảnh, cấu trúc kho lưu trữ và lịch sử trò chuyện từ người dùng Copilot Free, Pro và Pro+. Chính sách mặc định áp dụng cơ chế "opt-out", yêu cầu người dùng chủ động tắt tùy chọn trong cài đặt riêng tư nếu muốn không tham gia. GitHub khẳng định việc này nhằm nâng cao độ chính xác và bảo mật của gợi ý mã, đồng thời tuân thủ thông lệ ngành từ các công ty như Microsoft hay Anthropic. Tuy nhiên, người dùng doanh nghiệp, giáo dục và tổ chức theo hợp đồng không bị ảnh hưởng. Động thái này đặt ra tranh luận về quyền sở hữu dữ liệu và định nghĩa lại khái niệm "riêng tư" trong kho mã, đánh dấu xu hướng chuyển đổi từ nền tảng mã nguồn mở sang hệ sinh thái AI khép kín của GitHub.

GitHub gần đây đã thông báo sẽ cập nhật chính sách kho lưu trữ mã từ ngày 24/4/2026, với kế hoạch sử dụng dữ liệu tương tác người dùng để huấn luyện mô hình AI của họ. Phạm vi thu thập dữ liệu này bao gồm người dùng Copilot Free, Pro và Pro+, cụ thể bao gồm đầu vào/đầu ra mô hình, đoạn mã, thông tin ngữ cảnh, cấu trúc kho lưu trữ và lịch sử tương tác trò chuyện.

Giám đốc sản phẩm GitHub Mario Rodriguez cho biết, việc đưa vào dữ liệu tương tác nhằm nâng cao độ chính xác và tính bảo mật của các đề xuất mã từ mô hình, đồng thời khẳng định rằng việc thử nghiệm trước với dữ liệu nội bộ Microsoft đã cải thiện đáng kể tỷ lệ chấp nhận đề xuất. Đáng chú ý, chính sách này áp dụng cơ chế "tham gia mặc định", người dùng bị ảnh hưởng phải thủ công vào cài đặt quyền riêng tư để tắt tùy chọn liên quan nếu muốn thoát, điều này đã khơi lên cuộc thảo luận sâu rộng trong cộng đồng nhà phát triển về định nghĩa kho lưu trữ riêng tư và quyền sở hữu dữ liệu.

Hiện tại, người dùng Copilot Business, Enterprise bị ràng buộc bởi điều khoản hợp đồng và người dùng phiên bản giáo dục tạm thời không bị ảnh hưởng bởi thay đổi này. GitHub trong phần giải thích nhấn mạnh, hành động này phù hợp với thông lệ ngành phổ biến của các đại gia như Anthropic, JetBrains và Microsoft. Tuy nhiên, việc đưa mã từ kho lưu trữ riêng tư vào tập huấn luyện trên thực tế đã thách thức ranh giới khái niệm "riêng tư" truyền thống, ngay cả khi GitHub tuyên bố mục đích của họ là tối ưu hóa quy trình làm việc phát triển.

Xét từ góc độ ngành, khi dữ liệu mã nguồn công cộng chất lượng cao dần cạn kiệt, các hãng AI hàng đầu đang tăng tốc chuyển hướng sang khai thác các "dữ liệu sâu" như dữ liệu tương tác riêng tư để tìm kiếm lợi thế về hiệu suất mô hình. Sự thay đổi chính sách này không chỉ đánh dấu bước nghiêng xa hơn nữa của GitHub từ nền tảng lưu trữ mã nguồn mở sang hệ sinh thái huấn luyện AI khép kín, mà còn báo trước lĩnh vực công cụ dành cho nhà phát triển AI đang bước vào một giai đoạn mới của cuộc đấu giữa sự tuân thủ dữ liệu và sự tiến hóa của mô hình.

Câu hỏi Liên quan

QGitHub thông báo sẽ sử dụng dữ liệu người dùng Copilot để huấn luyện AI từ thời điểm nào?

AGitHub sẽ bắt đầu sử dụng dữ liệu người dùng Copilot để huấn luyện mô hình AI từ ngày 24 tháng 4 năm 2026.

QNhững loại dữ liệu nào của người dùng sẽ được GitHub thu thập để huấn luyện AI?

ADữ liệu thu thập bao gồm đầu vào/đầu ra mô hình, đoạn mã, thông tin ngữ cảnh, cấu trúc kho lưu trữ và lịch sử tương tác trò chuyện.

QNgười dùng có thể từ chối không cho GitHub sử dụng dữ liệu của mình không?

ACó, người dùng có thể từ chối bằng cách thủ công vào cài đặt quyền riêng tư và tắt tùy chọn liên quan, vì chính sách này mặc định là 'tự động tham gia'.

QNhóm người dùng Copilot nào không bị ảnh hưởng bởi thay đổi chính sách này?

ANgười dùng Copilot Business, Enterprise và phiên bản giáo dục hiện không bị ảnh hưởng bởi thay đổi này do các điều khoản hợp đồng.

QLý do GitHub đưa ra để biện minh cho việc thu thập dữ liệu người dùng là gì?

AGitHub tuyên bố việc thu thập dữ liệu tương tác nhằm mục đích cải thiện độ chính xác và tính bảo mật của các đề xuất mã từ mô hình AI, đồng thời phù hợp với thông lệ ngành của các công ty lớn.

Nội dung Liên quan

Matt Van: Tất cả các kỹ thuật Agent Engineering mà tôi biết

Bài viết của Matt Van Horn chia sẻ phương pháp làm việc với AI Agent (Agentic Engineering). Thay vì tự viết code, ông dùng AI như một đội thực thi: bắt đầu bằng lệnh `/ce-plan` để tạo kế hoạch `plan.md`, sau đó dùng `/ce-work` để thực hiện. Ông nhập liệu bằng giọng nói, mở nhiều phiên Claude và Codex song song, giao nhiệm vụ lập kế hoạch cho Claude và viết code cho Codex. Các công cụ chính bao gồm: **Compound Engineering** (tạo và chạy kế hoạch), **last30days** (nghiên cứu chủ đề), **Printing Press** (tạo CLI cho các tác vụ thực tế), và **Agent Cookie** (quản lý xác thực). Ông cũng kết nối AI với kho ghi chú cá nhân (như Bear) để tăng cường ngữ cảnh, sử dụng **cmux** để chạy nhiều tác vụ đồng thời, và cấu hình để bỏ qua các hộp thoại xác nhận nhằm tăng tốc độ. Phương pháp này chuyển trọng tâm của con người từ việc "tự tay thực hiện" sang "đưa ra định hướng, ràng buộc và phán đoán". Matt cảnh báo về nguy cơ "nghiện" xây dựng với AI và khuyên nên cân bằng, tập trung vào những thứ người khác thực sự cần. Bài viết được chính ông soạn thảo bằng cách ra lệnh bằng giọng nói cho Claude Code trong cmux.

marsbit58 phút trước

Matt Van: Tất cả các kỹ thuật Agent Engineering mà tôi biết

marsbit58 phút trước

Đừng chỉ chăm chú vào GPU, Intel tung ra đòn chí mạng, liệu có thể chấm dứt độc quyền điện toán của NVIDIA?

Trong hai năm qua, GPU gần như là trung tâm duy nhất của phần cứng AI, đẩy giá cổ phiếu NVIDIA lên cao. Tuy nhiên, tại COMPUTEX 2026, Intel đưa ra nhận định khác: giai đoạn tiếp theo của AI không thể chỉ nhìn vào GPU, mà trọng tâm là **Agentic AI (Trí tuệ thể tác nhân)**. Agentic AI thay đổi hoàn toàn cách vận hành: thay vì hỏi-đáp từng lượt, nó hoạt động trong luồng công việc thực tế, liên tục "suy nghĩ, lập kế hoạch, hành động, phản ánh". Điều này biến suy luận AI thành một hệ thống ra quyết định tự chủ, làm thay đổi căn bản cách bố trí sức mạnh tính toán trong trung tâm dữ liệu. Tỷ lệ CPU/GPU có thể chuyển từ 1:8 (trong đào tạo mô hình) xuống 1:1 hoặc thậm chí cần nhiều CPU hơn để điều phối công việc phức tạp, vì mức tiêu thụ Token của một tác nhân có thể tăng gấp 1000 lần so với suy luận thông thường. Để đáp ứng nhu cầu này, Intel ra mắt bộ xử lý Xeon 6+ (sản xuất trên tiến trình 18A), với tối đa 288 lõi hiệu suất cao và bộ nhớ đệm 576MB, nhắm đến điện toán đám mây gốc và tải Agentic AI, cung cấp hiệu suất ổn định và tiết kiệm năng lượng hơn. Bên cạnh đó, Intel cùng các đối tác công bố kiến trúc suy luận tách rời hoàn toàn mới, nơi CPU Xeon 6 phụ trách điều phối, SambaNova SN40L RDU xử lý giải mã và GPU NVIDIA Blackwell đảm nhiệm làm đầy trước, nhằm tối đa hóa hiệu quả bằng cách chạy từng giai đoạn trên phần cứng phù hợp nhất. Ở phía thiết bị đầu cuối, Intel trình diễn máy chủ lai kết hợp bộ xử lý Core Ultra thế hệ thứ 3 (cho AI cục bộ) với máy chủ đám mây Xeon 6+, cho phép phân bổ động tải công việc giữa thiết bị và đám mây, giảm chi phí và bảo vệ quyền riêng tư dữ liệu. Ngoài chip đa dụng, Intel cũng nhấn mạnh vào thị trường chip tùy chỉnh, hợp tác với các khách hành như Google (IPU) và Ericsson, đóng gói giải pháp toàn diện gồm chip, hệ thống, phần mềm và hợp tác ngành. Tóm lại, Intel định vị lại mình trong kỷ nguyên Agentic AI: CPU trở nên quan trọng cho điều phối, hệ thống suy luận cần kiến trúc dị thể, thiết bị biên và AI cục bộ cần chip tiết kiệm năng lượng, và khách hàng doanh nghiệp cần chip tùy chỉnh. Mặc dù NVIDIA và AMD vẫn là đối thủ cạnh tranh mạnh, Intel hướng tới việc trở nên "có mặt ở khắp mọi nơi" hơn bằng cách nắm bắt cơ hội tái phân công trong cơ sở hạ tầng AI.

marsbit1 giờ trước

Đừng chỉ chăm chú vào GPU, Intel tung ra đòn chí mạng, liệu có thể chấm dứt độc quyền điện toán của NVIDIA?

marsbit1 giờ trước

Cardano Hay Solana? Lựa Chọn Hàng Đầu Của Chuyên Gia Sau Khi ADA, SOL Giảm 10%

Thị trường tiền điện tử sụt giảm khi Bitcoin (BTC) tạm thời xuống dưới 67.000 USD, kéo theo Solana (SOL) và Cardano (ADA) mất giá khoảng 10%. Chuyên gia Anders Bylund so sánh hai nền tảng. Solana được thiết kế cho tốc độ cao và phí giao dịch rẻ, nhưng có lịch sử gặp sự cố ngừng hoạt động. Mặc dù mạng lưới đã ổn định hơn kể từ đầu năm 2024, bài viết cho rằng độ tin cậy lâu dài vẫn là một câu hỏi. Ngược lại, Cardano theo đuổi triết lý chú trọng nghiên cứu học thuật và xác minh chính thức, nhằm tạo ra một blockchain ổn định hơn, dù có thể phát triển tính năng mới chậm hơn. Về hoạt động thực tế, Solana thể hiện rõ hơn với khối lượng giao dịch trên các sàn phi tập trung (DEX) cao gấp hơn 400 lần so với Cardano. Kết luận, chuyên gia cho rằng Solana là lựa chọn mạnh hơn hiện tại, do lợi thế về mức độ sử dụng trong thực tế. Tuy nhiên, cả hai đều là khoản đầu tư rủi ro. Nếu Bitcoin giảm 30%, các altcoin như SOL và ADA có thể giảm từ 50-70%. Thời điểm bài viết, ADA giao dịch quanh 0,21 USD và SOL ở 76 USD, cả hai đều giảm hơn 5% trong 24h. ADA hiện thấp hơn 92% so với mức đỉnh mọi thời đại, trong khi SOL thấp hơn 73%.

bitcoinist2 giờ trước

Cardano Hay Solana? Lựa Chọn Hàng Đầu Của Chuyên Gia Sau Khi ADA, SOL Giảm 10%

bitcoinist2 giờ trước

Morningstar định giá SpaceX chỉ 7800 tỷ USD, chưa bằng một nửa mục tiêu IPO, "IPO lớn nhất lịch sử" định giá quá cao?

SpaceX đang chuẩn bị cho đợt IPO có thể là lớn nhất lịch sử với mục tiêu định giá 1.750 tỷ USD. Tuy nhiên, Morningstar đưa ra định giá hợp lý chỉ 780 tỷ USD, tương đương 45% mục tiêu, và nhận định công ty bị định giá quá cao. Theo phân tích, Morningstar định giá riêng lõi kinh doanh phóng tên lửa và Starlink khoảng 611 tỷ USD. Phần định giá 170 tỷ USD còn lại dành cho hoạt động AI (bao gồm xAI và nền tảng X), được tính trọng số xác suất với kịch bản bi quan chiếm ưu thế. Starlink là mảng duy nhất có lãi với doanh thu 2025 đạt 11,3 tỷ USD. Dù đánh giá cao, Morningstar thừa nhận giá cổ phiếu SpaceX có thể tăng ngắn hạn sau IPO nhờ lượng cổ phiếu lưu hành thấp (chỉ ~3%), nhu cầu cao với cổ phiếu hạ tầng AI và cơ chế đưa nhanh vào chỉ số Nasdaq 100 sau 15 phiên giao dịch. Tuy nhiên, áp lực bán từ cơ cấu giải ngân cổ phiếu nội bộ theo tầng và rủi ro tái cấp vốn cho khoản vay cầu nối 200 tỷ USD đáo hạn sau 15 tháng là những điểm cần lưu ý. Rủi ro quản trị cũng được nêu do cấu trúc cổ phần cho phép Elon Musk nắm ~85% quyền biểu quyết. Lộ trình dự kiến: SpaceX bắt đầu roadshow vào tuần ngày 8/6, định giá ngày 11/6 và niêm yết trên Nasdaq (mã SPCX) vào ngày 12/6.

marsbit2 giờ trước

Morningstar định giá SpaceX chỉ 7800 tỷ USD, chưa bằng một nửa mục tiêu IPO, "IPO lớn nhất lịch sử" định giá quá cao?

marsbit2 giờ trước

a16z: Tại sao thị trường dự đoán sẽ trở thành cơ sở hạ tầng của 'xác suất tương lai'

Thị trường dự đoán đang phát triển từ công cụ giao dịch nhỏ thành cơ sở hạ tầng cung cấp tín hiệu xác suất cho các sự kiện tương lai. Về bản chất, chúng là thị trường thuần túy, tận dụng khả năng tổng hợp thông tin phân tán thông qua cơ chế giá, biến các sự kiện như bầu cử hay biến động địa chính trị thành tài sản có thể giao dịch với mức giá phản ánh xác suất xảy ra. Ưu điểm chính của thị trường dự đoán so với thăm dò truyền thống là cơ chế khuyến khích bằng tiền thật, buộc người tham gia phải cân nhắc kỹ lưỡng dựa trên thông tin họ có, từ đó tạo ra tín hiệu xác suất động, cập nhật theo thời gian thực. Chúng cũng linh hoạt, có thể áp dụng cho các vấn đề chuyên biệt như đánh giá hiệu suất AI mà thị trường truyền thống không phản ánh được. Tuy nhiên, hiệu quả của thị trường dự đoán không tự động đạt được. Nó phụ thuộc vào việc người có thông tin có tham gia hay không, thiết kế hợp đồng, cơ chế xác định kết quả và nguy cơ bị thao túng bởi nội gián hoặc các nhóm muốn định hướng nhận thức công chúng. Do đó, bước phát triển tiếp theo là xây dựng cơ sở hạ tầng thị trường đáng tin cậy: quy tắc minh bạch, thiết kế hợp đồng rõ ràng, cơ chế thanh toán có thể kiểm toán và các biện pháp ngăn chặn thao túng. Giá trị cốt lõi của chúng không nằm ở việc "đặt cược vào tương lai", mà ở việc cung cấp một tín hiệu xác suất công cộng mới trong môi trường đầy bất định.

marsbit2 giờ trước

a16z: Tại sao thị trường dự đoán sẽ trở thành cơ sở hạ tầng của 'xác suất tương lai'

marsbit2 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片