Hàng triệu người đang quay video, ghi âm giọng nói... để bán cho công ty huấn luyện AI, nhưng đối mặt nguy cơ bị đánh cắp danh tính, ghép vào nội dung nhạy cảm.
Mỗi sáng, một thanh niên người Nam Phi vẫn có thói quen đi bộ quanh khu phố ở Cape Town. Nhưng từ năm ngoái, anh ấy đã bắt đầu quay video bước chân và khung cảnh. Những đoạn video này mang về cho anh 14 USD, đủ mua thực phẩm cho nửa tuần.
Các video anh bán là một phần trong chương trình Urban Navigation mà anh tìm thấy trên Kled AI - ứng dụng trả tiền cho người đóng góp dữ liệu như video và ảnh, chủ yếu để huấn luyện mô hình AI. Chỉ trong vài tuần, anh đã kiếm 50 USD nhờ các hình ảnh về cuộc sống thường ngày của mình.
Cách đó vài nghìn km ở Ranchi (Ấn Độ), một nữ sinh viên 22 tuổi, cũng kiếm tiền bằng cách cho phép Silencio - nền tảng thu thập dữ liệu âm thanh từ cộng đồng để huấn luyện AI - truy cập micro điện thoại với mục đích ghi lại tiếng ồn xung quanh thành phố, như trong nhà hàng hoặc tiếng giao thông tại ngã tư đông đúc. Em cũng thường ghi âm giọng nói, hoặc "săn" các khung cảnh độc đáo, ít xuất hiện trên Internet để bán lấy tiền. Mỗi tháng em nhận được 100 USD, đủ để trang trải các khoản ăn uống.
Tại Chicago (Mỹ), một thợ học việc 18 tuổi, kiếm vài trăm USD mỗi tháng bằng cách bán cuộc trò chuyện điện thoại của mình với gia đình và bạn bè cho nền tảng đào tạo AI đàm thoại Neon Mobile với giá 0,5 USD mỗi phút. Anh nghĩ đơn giản: các công ty công nghệ vốn đã thu thập quá nhiều dữ liệu cá nhân của anh rồi, "nếu bán thêm để có tiền cũng không sao".
Những người kể trên được gọi là "huấn luyện viên AI tự do", sẵn sàng tải lên mọi thứ về chính mình. Họ đang ở tuyến đầu của cuộc chạy đua tạo dữ liệu mới. Trước nhu cầu về dữ liệu chất lượng cao, đạt "chuẩn con người" và vượt xa những gì có thể thu thập được từ Internet, thị trường dữ liệu ra đời. Từ Cape Town đến Chicago, hàng nghìn người đang chủ động bán dữ liệu sinh trắc học, dữ liệu cá nhân để đối tác của các công ty như OpenAI, Meta, Google... huấn luyện mô hình ngôn ngữ lớn (LLM).

Thị trường màu mỡ
ChatGPT, Grok, Gemini... đòi hỏi lượng tài liệu khổng lồ để cải thiện tính năng, nhưng đang đối mặt với tình trạng khan hiếm. Các nguồn như C4, RefinedWeb và Dolma, hiện chiếm 1/4 tập dữ liệu chất lượng cao trên web, đang hạn chế các công ty AI tiếp cận để huấn luyện AI.
Năm ngoái, nghiên cứu của Đại học tại Scotland chỉ ra các công ty AI sẽ cạn kiệt văn bản chất lượng cao cho AI trong năm nay. Một số bên đã chuyển sang sử dụng dữ liệu do chính AI tổng hợp, nhưng quy trình đệ quy này có thể khiến AI tạo ra sản phẩm lỗi.
Đây là lúc những ứng dụng như Kled AI hay Silencio phát huy tác dụng. Thực tế, hàng triệu người đang kiếm tiền từ dữ liệu cá nhân thông qua các ứng dụng này và một số tên tuổi quen thuộc khác như Neon Mobile, Luel AI (mua cuộc hội thoại đa ngôn ngữ với giá 0,15 USD một phút) hay ElevenLabs (cho người dùng đăng giọng nói, bất kỳ ai sử dụng phải trả từ 0,02 USD/phút).
"Đào tạo AI theo hình thức chia sẻ dữ liệu cá nhân là loại hình việc làm mới nổi và sẽ phát triển mạnh mẽ", một giáo sư kinh tế tại Đại học London, viết trên blog.
Theo một nhà nghiên cứu, các công ty AI nhận ra việc trả tiền cho người dùng vừa tránh được rủi ro tranh chấp bản quyền, vừa có dữ liệu thực tế và chất lượng cao để cải tiến hệ thống. "Dữ liệu từ con người vẫn là tiêu chuẩn vàng để lấy mẫu cho bất cứ một mô hình AI nào".
Rủi ro không lường trước
Theo một tạp chí, những người đang bán dữ liệu cá nhân của mình chủ yếu đến từ các nước đang phát triển, hoặc cần tiền và có ít lựa chọn kiếm sống khác.
Họ nói họ nhận thức rất rõ những đánh đổi về quyền riêng tư. Dù nguồn thu không ổn định và chưa đủ để trang trải toàn bộ chi phí hàng tháng, họ vẫn chấp nhận để có tiền. nhiều người thậm chí đang thất nghiệp trong nhiều năm, nên số tiền kiếm được trên các nền tảng AI giúp họ tiết kiệm được hơn 500 USD để tự tham gia các khóa học nghề. "Là người không có việc làm ổn định, việc được trả lương bằng USD có giá trị hơn nhiều người nghĩ", họ chia sẻ.
Giáo sư của Đại học Oxford, tác giả cuốn Feeding the Machine (Nuôi dưỡng cỗ máy) giải thích, với một số người ở nước đang phát triển, số tiền đó mang lại giá trị trong ngắn hạn, nhưng "công việc này không ổn định, không tiến bộ và thực chất là ngõ cụt".
Theo ông, thị trường AI dựa trên "cuộc đua xuống đáy về tiền lương" và "nhu cầu tạm thời về dữ liệu con người". Khi nhu cầu này thay đổi, người lao động sẽ không còn được bảo vệ, không có kỹ năng chuyển đổi và cũng không có mạng lưới an sinh xã hội hỗ trợ. "Bên chiến thắng là các nền tảng cung cấp dịch vụ", ông nói.
Còn tại các quốc gia giàu có hơn, chi phí sinh hoạt tăng đã biến việc bán dữ liệu cá nhân trở thành lựa chọn tài chính "hợp lý". Với trường hợp của một người sống ở Chicago, thì được trả nhiều tiền hơn, với 200 USD cho đoạn ghi âm 11 tiếng. Tuy vậy, những kênh mua dữ liệu thường bất ổn và không thanh toán đúng hẹn. Ví dụ, Neon Mobile đã ngừng hoạt động sau khi TechCrunch phát hiện có lỗ hổng bảo mật khiến toàn bộ thông tin khách hàng bị tung lên mạng.
Một nữ nghiên cứu về quyền riêng tư dữ liệu tại Viện Trí tuệ nhân tạo hướng đến con người của Đại học Stanford, lo ngại các nền tảng dùng thông tin cá nhân trái phép. "Nếu không biết rõ quyền của mình, người dùng có nguy cơ bị 'xoay vòng' dữ liệu theo cách mà họ không hiểu hoặc không lường trước được", bà nói. "Họ cũng khó phản kháng nếu sự cố xảy ra".
Giáo sư của Đại học tại Anh cho biết bên mua thường có các điều khoản cho phép họ làm bất cứ điều gì với thông tin cá nhân của người dùng "mãi mãi, không cần trả thêm". Nghĩa là, khi người dùng không muốn bán nữa, họ không còn cách nào để rút lại những thứ đã bán. Bên cạnh đó, dữ liệu cũng có thể bị sử dụng cho deepfake, mạo danh trái phép nhưng không thể ngăn chặn.
Trường hợp của một diễn viên đến từ New York, là ví dụ. Người này đã bán hình ảnh của mình vào năm 2024 với giá 1.000 USD cho trình chỉnh sửa video sử dụng AI Captions, hiện có tên Mirage. Theo thỏa thuận, hình ảnh không được sử dụng cho mục đích chính trị, quảng cáo rượu, thuốc lá, nội dung khiêu dâm, hạn dùng một năm. Tuy vậy, chỉ thời gian ngắn sau, bạn bè của anh bắt đầu gửi cho anh những video "nhạy cảm" trên mạng.
"Tôi cảm thấy ngại khi phải giải thích cho hết người này đến người khác", Anh viết trên X đầu năm nay.
Bán thông tin cá nhân đang được xem như một phần của nền kinh tế việc làm tự do kiểu mới, nhưng cũng phải đánh đổi. "Đổi lại vài USD, nhiều người đang tiếp tay cho một ngành công nghiệp gây nhiều hệ lụy: kỹ năng lỗi thời theo thời gian, dễ bị tổn thương trước tương lai giả mạo, deepfake, đánh cắp danh tính và bóc lột kỹ thuật số. Những thứ họ chỉ mới bắt đầu hiểu", trang tạp chí bình luận.
Văn phòng Cục