Tác giả: The Guardian
Biên dịch: Deep Tide TechFlow
Lời dẫn của Deep Tide: Bài điều tra này tiết lộ một ngành công nghiệp xám đang phát triển nhanh chóng: hàng nghìn người trên toàn cầu kiếm tiền phí huấn luyện AI bằng cách bán giọng nói, khuôn mặt, lịch sử cuộc gọi và video đời thường của mình.
Đây không phải là một cuộc thảo luận chung chung về tranh cãi quyền riêng tư, mà là một cuộc điều tra với những con người thật, số tiền thật, hậu quả thật — một diễn viên đã bán khuôn mặt của mình, sau đó thấy "chính mình" trên Instagram đang quảng cáo cho một sản phẩm y tế không rõ nguồn gốc, và phần bình luận có người đang đánh giá "ngoại hình" của anh ta.
Khi cơn khát dữ liệu của các công ty AI kết hợp với sự chênh lệch kinh tế toàn cầu, đang tạo ra một giao dịch không cân sức.
Toàn văn như sau:
Vào một buổi sáng năm ngoái, Jacobus Louw sống ở Cape Town, Nam Phi, như thường lệ ra ngoài đi dạo và cho chim mòng biển ăn trên đường. Nhưng lần này anh ấy quay vài đoạn video — ghi lại những bước chân và tầm nhìn của mình khi đi trên vỉa hè. Đoạn video này đã giúp anh kiếm được 14 đô la, gấp khoảng 10 lần mức lương tối thiểu của quốc gia này và tương đương với chi phí thực phẩm cho nửa tuần của chàng trai 27 tuổi này.
Đây là một nhiệm vụ "dẫn đường trong thành phố" mà Louw đã hoàn thành trên Kled AI. Kled AI là một ứng dụng trả tiền cho người dùng để tải lên ảnh, video và các dữ liệu khác nhằm huấn luyện mô hình AI. Chỉ trong vài tuần, Louw đã kiếm được 50 đô la bằng cách tải lên ảnh và video từ cuộc sống hàng ngày.
Cách đó hàng nghìn dặm, ở Ranchi, Ấn Độ, Sahil Tigga, 22 tuổi, một sinh viên, thường xuyên kiếm tiền nhờ Silencio — ứng dụng này thu thập dữ liệu âm thanh đám đông để huấn luyện AI, truy cập micro điện thoại của anh để thu âm thanh môi trường như bên trong nhà hàng hoặc ngã tư đông đúc. Anh cũng tải lên các bản ghi âm giọng nói của chính mình. Sahil sẽ đặc biệt đến những địa điểm độc đáo, chẳng hạn như sảnh khách sạn chưa được ghi lại trên bản đồ của Silencio. Anh kiếm được hơn 100 đô la mỗi tháng từ việc này, đủ để trang trải toàn bộ chi phí ăn uống.
Ở Chicago, Ramelio Hill, 18 tuổi, một thợ hàn học việc, đã bán lịch sử trò chuyện điện thoại riêng tư của mình với bạn bè và gia đình cho Neon Mobile — một nền tảng huấn luyện AI đàm thoại, trả 0.50 đô la mỗi phút — và kiếm được vài trăm đô la. Đối với Hill, phép tính này rất đơn giản: anh cho rằng các công ty công nghệ vốn đã nắm giữ rất nhiều dữ liệu cá nhân của mình, nên chi bằng tự mình cũng kiếm một phần từ đó.
Những "công việc tự do huấn luyện AI" này — tải lên cảnh vật xung quanh, ảnh, video và âm thanh của chính mình — đang đứng ở tuyến đầu của một cơn sốt dữ liệu toàn cầu mới. Khi cơn khát dữ liệu chất lượng cao của thung lũng Silicon vượt quá phạm vi có thể thu thập được từ internet mở, một ngành công nghiệp thị trường dữ liệu phát triển mạnh mẽ đã xuất hiện để lấp đầy khoảng trống này. Từ Cape Town đến Chicago, hàng nghìn người đang vi mô ủy quyền danh tính sinh trắc học và dữ liệu riêng tư của mình cho thế hệ AI tiếp theo.
Nhưng nền kinh tế tự do mới này đi kèm với một cái giá. Đằng sau vài đô la kiếm được, những người huấn luyện này đang cung cấp nhiên liệu cho một ngành công nghiệp cuối cùng có thể khiến kỹ năng của họ trở nên lỗi thời, đồng thời tự đặt mình vào những rủi ro tương lai về làm giả sâu (deepfake), đánh cắp danh tính và bóc lột kỹ thuật số — mà họ chỉ mới bắt đầu nhận ra.
Giữ cho bánh răng AI tiếp tục quay
Các mô hình AI ngôn ngữ như ChatGPT và Gemini cần một lượng lớn tài liệu học tập để không ngừng cải thiện, nhưng chúng đang đối mặt với tình trạng khan hiếm dữ liệu. Các nguồn dữ liệu huấn luyện được sử dụng phổ biến nhất — C4, RefinedWeb và Dolma — chiếm một phần tư tập dữ liệu chất lượng cao nhất trên web, hiện đang hạn chế các công ty AI generative sử dụng dữ liệu của họ để huấn luyện mô hình. Các nhà nghiên cứu ước tính, các công ty AI sẽ cạn kiệt nguồn văn bản chất lượng cao mới có sẵn sớm nhất là vào năm 2026. Mặc dù một số phòng thí nghiệm đã bắt đầu sử dụng dữ liệu tổng hợp do chính AI tạo ra để huấn luyện phản hồi, nhưng quá trình đệ quy này khiến đầu ra của mô hình tràn ngập "rác" sai sót, từ đó dẫn đến sụp đổ.
Ứng dụng như Kled AI và Silencio xuất hiện ngay tại đây. Trong các thị trường dữ liệu này, hàng triệu người đang bán dữ liệu danh tính của chính mình để nuôi dưỡng và huấn luyện AI. Ngoài Kled AI, Silencio và Neon Mobile, những người huấn luyện AI còn có nhiều lựa chọn khác: Luel AI được ủng hộ bởi vườn ươm nổi tiếng Y-Combinator, thu thập tư liệu hội thoại đa ngôn ngữ với giá khoảng 0.15 đô la mỗi phút; ElevenLabs cho phép bạn sao chép kỹ thuật số giọng nói của chính mình và cho người khác sử dụng với mức giá cơ bản 0.02 đô la mỗi phút.
Giáo sư kinh tế Bouke Klein Teeselink từ Đại học King's College London cho biết, công việc tự do huấn luyện AI là một loại hình công việc mới nổi và sẽ tăng trưởng mạnh.
Các công ty AI biết rằng việc trả phí ủy quyền dữ liệu cho mọi người giúp tránh được các tranh chấp bản quyền có thể phát sinh khi hoàn toàn phụ thuộc vào việc thu thập nội dung từ web, Teeselink nói. Nhà nghiên cứu AI Veniamin Veselovsky cho biết, các công ty này cũng cần dữ liệu chất lượng cao để mô hình hóa hành vi mới, được cải tiến cho hệ thống. "Ở thời điểm hiện tại, dữ liệu con người là tiêu chuẩn vàng để lấy mẫu từ bên ngoài phân phối của mô hình," Veselovsky bổ sung.
Những con người — đặc biệt là những người ở các quốc gia đang phát triển — vận hành những cỗ máy này thường cần số tiền này và hầu như không có lựa chọn nào khác. Đối với nhiều người làm công việc tự do huấn luyện AI, tham gia vào công việc này là một phản ứng thực tế trước khoảng cách kinh tế. Ở những quốc gia có tỷ lệ thất nghiệp cao, đồng tiền bản địa mất giá, việc kiếm đô la thường ổn định và có lợi hơn so với công việc địa phương. Một số người khó tìm được công việc ở cấp độ đầu vào, vì kế sinh nhai mà buộc phải làm công việc huấn luyện AI. Ngay cả ở các quốc gia giàu có hơn, chi phí sinh hoạt tăng cao cũng khiến việc bán thân trở thành một lựa chọn tài chính hợp lý.
Louw, người huấn luyện AI ở Cape Town, biết rõ cái giá về quyền riêng tư này. Mặc dù thu nhập không ổn định và không đủ trang trải toàn bộ chi phí hàng tháng của anh, nhưng anh sẵn sàng chấp nhận những điều kiện này để kiếm tiền. Anh nhiều năm chịu đựng chứng bệnh thần kinh, không thể tìm được việc làm, nhưng số tiền kiếm được từ thị trường dữ liệu AI (bao gồm Kled AI) đã giúp anh tiết kiệm đủ 500 đô la để đăng ký một khóa đào tạo spa và trở thành một chuyên viên massage.
"Là người Nam Phi, việc nhận đô la có giá trị hơn những gì người khác nghĩ," Louw nói.
Giáo sư địa lý internet tại Đại học Oxford, Mark Graham, tác giả cuốn "Feeding the Machine" (Nuôi cỗ máy), thừa nhận rằng đối với cá nhân ở các nước đang phát triển, số tiền này trong ngắn hạn có thể có ý nghĩa thực tế, nhưng ông cảnh báo, "về mặt cấu trúc, công việc này không ổn định, không có cơ hội thăng tiến và thực chất là một ngõ cụt".
Graham bổ sung rằng, thị trường dữ liệu AI dựa vào "việc chạy đua giảm lương" và "nhu cầu tạm thời đối với dữ liệu con người". Một khi nhu cầu đó chuyển dịch, "người lao động sẽ không có bất kỳ sự đảm bảo nào, không có kỹ năng có thể chuyển đổi, và không có mạng lưới an toàn".
Graham nói, người chiến thắng duy nhất là "các nền tảng ở Bán cầu Bắc, nơi thu giữ tất cả giá trị lâu dài".
Ủy quyền toàn quyền
Hill, người huấn luyện AI từ Chicago, có tâm trạng phức tạp về việc bán các cuộc gọi điện thoại riêng tư cho Neon Mobile. Khoảng 11 giờ nội dung cuộc gọi đã mang lại cho anh 200 đô la, nhưng anh nói ứng dụng này thường xuyên ngừng hoạt động và chậm trễ trong việc thanh toán. "Neon trong mắt tôi luôn đáng ngờ, nhưng tôi vẫn tiếp tục sử dụng, chỉ để kiếm thêm tiền tiêu vặt trả hóa đơn," Hill nói.
Bây giờ anh bắt đầu xem xét lại liệu số tiền đó có thực sự dễ dàng như vậy không. Vào tháng 9 năm ngoái, Neon Mobile đã ngừng hoạt động chỉ vài tuần sau khi ra mắt, sau khi TechCrunch phát hiện một lỗ hổng bảo mật cho phép bất kỳ ai cũng có thể truy cập số điện thoại, bản ghi âm cuộc gọi và bản ghi chữ của người dùng. Hill nói Neon Mobile chưa bao giờ thông báo cho anh về tình huống này, và bây giờ anh rất lo lắng giọng nói của mình sẽ bị lạm dụng trên mạng.
Nhà nghiên cứu quyền riêng tư dữ liệu Jennifer King từ Viện Nghiên cứu Trí tuệ Nhân tạo Lấy con người làm trung tâm của Đại học Stanford lo ngại rằng, thị trường dữ liệu AI không làm rõ dữ liệu người dùng sẽ được sử dụng như thế nào và ở đâu. Bà bổ sung rằng, trong khi không hiểu biết về quyền lợi của mình và không thể đàm phán về điều đó, "người tiêu dùng phải đối mặt với rủi ro dữ liệu được tái sử dụng theo cách họ không thích, không hiểu hoặc không lường trước được, và khi đó hầu như không có biện pháp khắc phục nào".
Khi những người huấn luyện AI chia sẻ dữ liệu trên Neon Mobile và Kled AI, họ cấp một giấy ủy quyền toàn quyền (phạm vi toàn cầu, độc quyền, không thể hủy ngang, có thể chuyển nhượng và miễn phí bản quyền), cho phép nền tảng bán, sử dụng, hiển thị công khai và lưu trữ hình ảnh của họ, thậm chí tạo ra các tác phẩm phái sinh dựa trên đó.
Người sáng lập Kled AI, Avi Patel, cho biết thỏa thuận dữ liệu của công ty ông giới hạn việc sử dụng vào mục đích huấn luyện và nghiên cứu AI. "Toàn bộ mô hình kinh doanh phụ thuộc vào sự tin tưởng của người dùng. Nếu người đóng góp nghĩ rằng dữ liệu của họ có thể bị lạm dụng, nền tảng sẽ không thể vận hành." Ông cho biết công ty sẽ xem xét người mua trước khi bán tập dữ liệu, tránh hợp tác với các tổ chức "có ý đồ đáng ngờ", chẳng hạn như ngành công nghiệp khiêu dâm, và "cơ quan chính phủ" mà họ cho rằng có thể sử dụng dữ liệu theo cách trái với sự tin tưởng đó.
Neon Mobile không phản hồi yêu cầu bình luận.
Giáo sư luật Enrico Bonadio từ Đại học Thành phố London (City, University of London) chỉ ra rằng, các điều khoản thỏa thuận này cho phép nền tảng và khách hàng của họ "thực hiện hầu hết mọi điều với tài liệu đó, vĩnh viễn, mà không cần trả thêm tiền, và người đóng góp không có cách thức thực tế nào để rút lại sự đồng ý hoặc đàm phán lại".
Những rủi ro đáng lo ngại hơn bao gồm: dữ liệu của người huấn luyện được sử dụng để tạo deepfake và mạo danh danh tính. Mặc dù thị trường dữ liệu tuyên bố sẽ xóa thông tin nhận dạng (như tên và vị trí) khỏi dữ liệu trước khi bán, nhưng về bản chất, các đặc điểm sinh trắc học rất khó để ẩn danh hóa một cách có ý nghĩa, Bonadio bổ sung.
Hối hận của người bán
Ngay cả khi những người huấn luyện AI có thể đàm phán các điều khoản bảo vệ chi tiết hơn về cách sử dụng dữ liệu, họ vẫn có thể hối hận. Năm 2024, diễn viên Adam Coy đến từ New York đã bán hình ảnh của mình với giá 1000 đô la cho Captions — một phần mềm chỉnh sửa video AI, nay đã đổi tên thành Mirage. Thỏa thuận của anh quy định, danh tính của anh sẽ không được sử dụng cho bất kỳ mục đích chính trị nào, không để quảng cáo rượu, thuốc lá hoặc nội dung khiêu dâm, và thời hạn ủy quyền là một năm.
Captions không phản hồi yêu cầu bình luận.
Không lâu sau đó, bạn bè của Adam bắt đầu chuyển tiếp những video họ tìm thấy trên mạng, những video đó sử dụng khuôn mặt và giọng nói của anh, với hàng triệu lượt xem. Trong một video trên Instagram, bản sao AI của Adam tự xưng là "bác sĩ phụ khoa", quảng cáo các thực phẩm chức năng y tế chưa được chứng minh cho phụ nữ mang thai và sau sinh.
"Thật xấu hổ khi phải giải thích điều này với người khác," Coy nói.
"Phần bình luận thật kỳ lạ, vì họ đang đánh giá ngoại hình của tôi, nhưng đó hoàn toàn không phải là tôi," Coy bổ sung. "Quyết định (bán hình ảnh) đó vào thời điểm đó của tôi là, hầu hết các mô hình đều sẽ thu thập dữ liệu và hình ảnh trên mạng, nên chi bằng được trả tiền."
Coy nói, anh sau đó không nhận thêm bất kỳ công việc tự do dữ liệu AI nào. Anh nói, chỉ khi một công ty nào đó trả thù lao đáng kể, anh mới cân nhắc làm lại.








