Trong bối cảnh công nghệ ngày càng phát triển, việc ứng dụng trí tuệ nhân tạo (AI) đang trở thành một xu hướng chủ đạo trong nhiều lĩnh vực. Một trong những câu hỏi lớn được đặt ra là liệu có thể sử dụng dữ liệu tổng hợp, được tạo ra bởi AI, để huấn luyện các mô hình AI hay không. Ý tưởng này đã xuất hiện từ lâu, nhưng gần đây nó ngày càng thu hút sự chú ý khi dữ liệu thực trở nên khó kiếm.
Để AI hoạt động hiệu quả, nó cần được huấn luyện trên một lượng lớn dữ liệu. Dữ liệu này thường cần phải được gán nhãn (annotation) để giúp mô hình học được các mẫu và đưa ra dự đoán chính xác. Ví dụ, một mô hình phân loại hình ảnh cần phải thấy rất nhiều hình ảnh có gán nhãn để nhận biết các đặc điểm của một đối tượng nhất định. Nếu không có gán nhãn rõ ràng, mô hình có thể dễ dàng nhận sai thông tin.
Thị trường dịch vụ gán nhãn đã phát triển mạnh mẽ trong những năm gần đây, với giá trị ước tính đạt 838,2 triệu USD và dự đoán sẽ lên tới 10,34 tỷ USD trong vòng 10 năm tới. Tuy nhiên, công việc gán nhãn thường tốn thời gian và chi phí, đồng thời chịu ảnh hưởng của những thiên kiến từ người thực hiện gán nhãn.
Sự khan hiếm dữ liệu thực cũng là một yếu tố thúc đẩy tìm kiếm các giải pháp thay thế. Các mô hình AI thường dựa vào những tập dữ liệu lớn từ internet, nhưng ngày càng nhiều chủ sở hữu dữ liệu quyết định bảo vệ thông tin của họ. Hơn 35% các trang web hàng đầu hiện đã chặn công cụ thu thập dữ liệu của OpenAI, làm cho việc thu thập dữ liệu trở nên khó khăn hơn bao giờ hết. Nếu xu hướng này tiếp tục, một nghiên cứu dự đoán rằng các nhà phát triển có thể hết dữ liệu để huấn luyện AI từ năm 2026 đến 2032.
Dữ liệu tổng hợp được coi là một giải pháp tiềm năng cho những vấn đề trên. Nó cho phép các nhà phát triển tạo ra dữ liệu mà không phải phụ thuộc vào việc thu thập dữ liệu thực tế. Os Keyes, một nghiên cứu sinh tại Đại học Washington, đã ví dữ liệu tổng hợp như “nhiên liệu sinh học” có thể được tạo ra mà không có những tác động tiêu cực của dữ liệu thực. Với một tập dữ liệu ban đầu nhỏ, nhà nghiên cứu có thể mô phỏng và mở rộng để tạo ra nhiều dữ liệu hơn.
Các công ty như Anthropic và Meta đã sử dụng dữ liệu tổng hợp để huấn luyện các mô hình của họ. Chẳng hạn, Writer, một công ty AI tập trung vào doanh nghiệp, đã ra mắt một mô hình hoàn toàn được huấn luyện trên dữ liệu tổng hợp với chi phí chỉ khoảng 700.000 USD, so với 4,6 triệu USD cho một mô hình tương đương của OpenAI. Gartner dự đoán rằng 60% dữ liệu được sử dụng trong các dự án AI năm nay sẽ là dữ liệu tổng hợp.
Dù dữ liệu tổng hợp mang lại nhiều lợi ích, nhưng nó cũng tiềm ẩn nhiều rủi ro. Dữ liệu tổng hợp cũng chịu ảnh hưởng bởi vấn đề “rác vào, rác ra” giống như bất kỳ dữ liệu nào khác. Nếu mô hình tạo ra dữ liệu tổng hợp được huấn luyện trên một tập dữ liệu có thiên kiến, thì dữ liệu tổng hợp cũng sẽ mang những thiên kiến đó. Chẳng hạn, nếu dữ liệu ban đầu chỉ đại diện cho một nhóm người nhất định, dữ liệu tổng hợp sẽ không phản ánh được sự đa dạng của thực tế.
Một nghiên cứu từ Đại học Rice và Stanford cho thấy việc phụ thuộc quá nhiều vào dữ liệu tổng hợp trong quá trình huấn luyện có thể dẫn đến việc giảm chất lượng và sự đa dạng của mô hình. Thêm vào đó, mô hình phức tạp như OpenAI’s o1 có thể tạo ra những “huyền thoại” khó phát hiện trong dữ liệu tổng hợp, dẫn đến giảm độ chính xác của các mô hình.
Trong khi dữ liệu tổng hợp hứa hẹn là một giải pháp cho vấn đề khan hiếm dữ liệu và chi phí cao, nhưng nó cũng mang đến nhiều thách thức. Việc sử dụng dữ liệu tổng hợp một cách an toàn đòi hỏi phải xem xét, kiểm duyệt và lọc dữ liệu, cũng như kết hợp với dữ liệu thực để đảm bảo tính chính xác và sự đa dạng. Không có giải pháp nào hoàn hảo, và trong tương lai gần, con người vẫn cần đóng vai trò quan trọng trong quy trình huấn luyện AI để đảm bảo rằng các mô hình phát triển không rơi vào tình trạng kém chất lượng và thiên lệch.