Tin tức Reddit Chặn AI Crawlers, Bảo Vệ Dữ Liệu Người Dùng Khỏi Truy Cập Miễn Phí

Reddit Chặn AI Crawlers, Bảo Vệ Dữ Liệu Người Dùng Khỏi Truy Cập Miễn Phí

02/07/2024

Bảo Vệ Dữ Liệu: Bước Tiến Quan Trọng của Reddit

Vào ngày 27 tháng 6 năm 2024, Reddit đã công bố một bước đi quyết liệt nhằm bảo vệ nội dung do người dùng tạo ra khỏi các web crawlers của các công ty AI. Hành động này bao gồm cập nhật giao thức Robots Exclusion (robots.txt) để ngăn chặn các nguồn bên ngoài thu thập dữ liệu từ nền tảng này.

Tại Sao Reddit Lại Cản Trở AI Crawlers?

Trong thế giới AI, các nhà phát triển mô hình thường sử dụng web crawlers như GPTBot của OpenAI để thu thập dữ liệu từ hàng nghìn trang web, thường là không có sự cho phép của chủ sở hữu nền tảng. Tuy nhiên, việc này ngày càng bị phản đối khi các chủ sở hữu nội dung trở nên bảo vệ quyền lợi của mình hơn. Quyết định của Reddit nhằm bảo vệ tài sản quý giá: dữ liệu người dùng.

Hợp Tác và Lợi Ích Kinh Tế

Reddit đã ký các thỏa thuận với các nhà phát triển AI như Google và OpenAI, cho phép họ truy cập vào kho dữ liệu khổng lồ của người dùng với một khoản phí. Đáng chú ý, thỏa thuận với Google có giá trị lên tới 60 triệu đô la mỗi năm.

Theo Business of Apps, Reddit đã tạo ra 810 triệu đô la vào năm 2023, chủ yếu từ quảng cáo. Tuy nhiên, Reddit đã tìm cách tạo thêm doanh thu bằng cách tính phí bên thứ ba để truy cập API của họ, một động thái gây ra làn sóng phản đối từ người dùng vào tháng 6 năm ngoái.

Quy Định Mới và Những Ngoại Lệ

Bằng cách hạn chế các crawlers, các nhà phát triển AI muốn đào tạo mô hình của họ trên nội dung Reddit sẽ buộc phải trả phí cấp phép. Theo thông báo từ công ty, “Chúng tôi lựa chọn kỹ lưỡng về việc hợp tác với ai và tin tưởng vào việc cho phép truy cập quy mô lớn vào nội dung của Reddit.”

Tuy nhiên, có một số ngoại lệ phi thương mại, cho phép các tổ chức nghiên cứu và lưu trữ như Internet Archive truy cập vào nội dung của Reddit. Mark Graham, giám đốc của Wayback Machine tại Internet Archive, bày tỏ lòng biết ơn về sự hợp tác này.

Vấn Đề và Hệ Lụy

Việc sử dụng nội dung Reddit của Google không diễn ra suôn sẻ khi tính năng tìm kiếm AI Overviews của Google đã phải cải tiến sau khi trả lời các câu hỏi của người dùng bằng những phản hồi vô lý từ Reddit, như đề xuất nhảy cầu Golden Gate để chữa trầm cảm.

Kết Luận

Hành động của Reddit nhằm bảo vệ dữ liệu người dùng khỏi các AI crawlers là một bước tiến quan trọng, phản ánh sự thay đổi trong cách các nền tảng số lớn quản lý và bảo vệ tài sản kỹ thuật số của mình. Những bước đi này không chỉ bảo vệ quyền lợi của người dùng mà còn tạo ra cơ hội mới cho Reddit trong việc kiếm tiền từ dữ liệu của họ.