Tin tức OpenAI Gặp Vấn Đề Về Dữ Liệu Trong Vụ Kiện Bản Quyền Cùng New York Times

OpenAI Gặp Vấn Đề Về Dữ Liệu Trong Vụ Kiện Bản Quyền Cùng New York Times

28/11/2024

OpenAI đang đối mặt với một sự cố pháp lý liên quan đến việc xóa dữ liệu quan trọng trong vụ kiện bản quyền với The New York Times và Daily News. Các nhà xuất bản này đã kiện OpenAI, cáo buộc rằng công ty đã sử dụng các bài viết của họ để huấn luyện mô hình AI mà không có sự cho phép. Vấn đề trở nên nghiêm trọng hơn khi OpenAI bị cáo buộc xóa dữ liệu có thể là chứng cứ quan trọng trong vụ kiện.

Vụ Kiện Bản Quyền Và Các Yêu Cầu Cung Cấp Dữ Liệu

Vụ kiện bắt đầu khi các nhà xuất bản, bao gồm The New York Times và Daily News, yêu cầu OpenAI cung cấp quyền truy cập vào dữ liệu huấn luyện của mình, với mục đích xác minh xem liệu công ty có sử dụng các bài viết của họ mà không có sự cho phép hay không. Để thực hiện yêu cầu này, OpenAI đã đồng ý cung cấp hai máy chủ ảo cho các luật sư của các nhà xuất bản để tiến hành tìm kiếm nội dung có bản quyền trong tập dữ liệu huấn luyện của OpenAI.

Tuy nhiên, vào ngày 14 tháng 11, các kỹ sư của OpenAI đã xóa dữ liệu tìm kiếm của các nhà xuất bản, khiến cho các chuyên gia và luật sư của họ phải làm lại từ đầu sau hơn 150 giờ làm việc. Sự cố này đã làm mất cấu trúc thư mục và tên tệp, khiến dữ liệu khôi phục không thể sử dụng để xác định bài viết nào của các nhà xuất bản đã được sử dụng trong việc huấn luyện mô hình của OpenAI. Điều này đã gây ra sự thất vọng lớn và làm lãng phí nhiều giờ công sức của các bên liên quan.

Phản Hồi Từ OpenAI

Trái ngược với cáo buộc từ các luật sư của các nhà xuất bản, đại diện của OpenAI đã phản bác, cho rằng việc xóa dữ liệu là kết quả của một lỗi kỹ thuật sau khi các nhà xuất bản yêu cầu thay đổi cấu hình của một trong các máy chủ mà OpenAI cung cấp. OpenAI khẳng định rằng không có dữ liệu bị xóa vĩnh viễn và cho rằng sự cố này chỉ liên quan đến việc mất một số thông tin về cấu trúc thư mục và tên tệp, điều mà họ cho là không có ảnh hưởng lớn đến vụ kiện.

Dù vậy, các luật sư của các nhà xuất bản vẫn kiên quyết cho rằng OpenAI đang ở vị trí tốt nhất để tìm kiếm dữ liệu có thể xâm phạm bản quyền và điều này chỉ ra rằng việc kiểm tra dữ liệu trong các mô hình AI phải được thực hiện bởi chính công ty sở hữu chúng.

Quan Điểm Của OpenAI Về Việc Sử Dụng Dữ Liệu

OpenAI đã khẳng định rằng việc huấn luyện các mô hình AI của mình, như GPT-4, với dữ liệu từ các nguồn công khai là hợp lý và thuộc quyền "fair use" (sử dụng hợp lý). Công ty cho rằng việc sử dụng các bài viết của các nhà xuất bản mà không trả tiền hay xin phép là hợp pháp, vì họ không yêu cầu phải có bản quyền cho dữ liệu huấn luyện từ những nguồn công khai.

Tuy nhiên, OpenAI cũng đã ký các thỏa thuận bản quyền với một số nhà xuất bản lớn như Associated Press, Business Insider, Financial Times, và News Corp. Mặc dù các điều khoản của các thỏa thuận này chưa được công khai, nhưng theo các báo cáo, một đối tác như Dotdash Meredith đã nhận được ít nhất 16 triệu USD mỗi năm từ OpenAI.

Tương Lai Của Vụ Kiện Và Cảnh Báo Đối Với Các Công Ty AI

Vụ kiện này có thể tạo ra một tiền lệ quan trọng về cách các công ty AI sử dụng dữ liệu công khai để huấn luyện các mô hình của họ mà không vi phạm bản quyền. Mặc dù OpenAI có thể bảo vệ mình bằng cách khẳng định việc sử dụng dữ liệu công khai là hợp pháp, nhưng các nhà xuất bản vẫn kiên quyết đòi hỏi quyền lợi của mình, đặc biệt là khi một số dữ liệu quan trọng đã bị xóa mà không có lý do rõ ràng.

Dù sự cố này không phải là hành động có chủ ý, nhưng nó phản ánh một vấn đề nghiêm trọng trong việc quản lý dữ liệu và bảo vệ quyền lợi bản quyền trong ngành công nghiệp AI. Các công ty AI như OpenAI sẽ phải đối mặt với nhiều thử thách trong việc duy trì sự minh bạch và công bằng khi sử dụng dữ liệu của bên thứ ba, nhất là khi các vụ kiện như thế này có thể ảnh hưởng đến uy tín và hoạt động của họ trong tương lai.