Trong tuần này, một xu hướng đáng chú ý trong thế giới trí tuệ nhân tạo (AI) đã xuất hiện mạnh mẽ: dữ liệu tổng hợp (synthetic data). Đó là một thay đổi quan trọng mà các tập đoàn công nghệ lớn như OpenAI và Meta đang bắt đầu áp dụng để cải thiện và đào tạo các mô hình AI của họ.
Vào thứ Năm tuần trước, OpenAI đã ra mắt Canvas, một tính năng mới của nền tảng ChatGPT. Canvas không chỉ là một trình trợ lý chatbot đơn thuần, mà nó còn mang đến một không gian làm việc hoàn toàn mới cho các dự án viết và lập trình. Người dùng có thể tạo ra các đoạn mã, văn bản, sau đó chỉnh sửa và bổ sung trực tiếp trong giao diện này. Điều thú vị hơn cả chính là cách OpenAI huấn luyện mô hình AI GPT-4o của mình bằng cách sử dụng dữ liệu tổng hợp.
Theo Nick Turley, Trưởng sản phẩm của ChatGPT, họ đã áp dụng các kỹ thuật tạo dữ liệu tổng hợp tiên tiến từ các mô hình cũ để tinh chỉnh GPT-4o, giúp nó có thể mở Canvas, chỉnh sửa chính xác và để lại các bình luận chất lượng cao ngay trong không gian làm việc. Điều này giúp OpenAI cải thiện mô hình một cách nhanh chóng mà không cần dựa nhiều vào dữ liệu do con người tạo ra – một xu hướng có tiềm năng thay đổi cách AI hoạt động trong tương lai.
Không chỉ OpenAI, Meta cũng đang tích cực khai thác tiềm năng của dữ liệu tổng hợp. Trong quá trình phát triển Movie Gen, một bộ công cụ AI hỗ trợ tạo và chỉnh sửa video, Meta đã sử dụng các chú thích video tổng hợp được tạo bởi mô hình Llama 3 của họ. Dù vẫn cần đội ngũ chú thích viên để tinh chỉnh, phần lớn công việc nền đã được tự động hóa bằng dữ liệu tổng hợp.
Việc sử dụng dữ liệu tổng hợp giúp Meta tiết kiệm rất nhiều thời gian và nguồn lực. Thay vì phải dựa vào dữ liệu thực tế đắt đỏ và khó khăn trong việc thu thập, Meta có thể tạo ra các bộ dữ liệu ảo mà AI của họ có thể học từ đó.
Một điểm đáng chú ý là Sam Altman, CEO của OpenAI, từng cho rằng trong tương lai, AI có thể tự tạo ra dữ liệu huấn luyện đủ tốt để tiếp tục tự cải thiện. Nếu điều này trở thành hiện thực, nó sẽ giúp các công ty công nghệ như OpenAI tiết kiệm được khoản chi phí khổng lồ cho dữ liệu thực, đồng thời mở ra khả năng phát triển AI một cách nhanh chóng và hiệu quả hơn.
Meta đã áp dụng chiến lược này khi tinh chỉnh mô hình Llama 3 bằng dữ liệu tổng hợp. Được biết, OpenAI cũng đang sử dụng dữ liệu tổng hợp từ o1 để phát triển mô hình thế hệ tiếp theo của họ, có tên mã Orion.
Tuy nhiên, không phải mọi thứ về dữ liệu tổng hợp đều hoàn hảo. Một trong những rủi ro lớn nhất là các mô hình AI tạo ra dữ liệu tổng hợp có thể mắc phải lỗi “ảo tưởng” (hallucination) – khi AI tự tạo ra những thông tin không có thực. Thêm vào đó, những thành kiến và giới hạn của mô hình gốc có thể xuất hiện trong dữ liệu tổng hợp, từ đó ảnh hưởng đến chất lượng của mô hình huấn luyện sau này.
Nếu không được kiểm soát kỹ lưỡng, việc sử dụng dữ liệu tổng hợp có thể dẫn đến “sự sụp đổ của mô hình” (model collapse), tức là mô hình sẽ trở nên kém sáng tạo và bị mắc kẹt trong các lỗi thiên kiến hoặc suy nghĩ lặp đi lặp lại. Vì vậy, để sử dụng dữ liệu tổng hợp một cách an toàn và hiệu quả, cần phải có quá trình giám sát và lọc dữ liệu chặt chẽ, giống như khi làm việc với dữ liệu do con người tạo ra.
Một trong những lý do chính khiến các công ty lớn chọn lựa dữ liệu tổng hợp là do chi phí và sự khó khăn trong việc thu thập dữ liệu thực. Với ngày càng nhiều quy định bảo vệ dữ liệu cá nhân và chi phí cấp phép dữ liệu tăng cao, việc tiếp cận các nguồn dữ liệu thực ngày càng trở nên thách thức. Dữ liệu tổng hợp, với khả năng tạo ra các bộ dữ liệu tùy chỉnh nhanh chóng và không phải đối mặt với những rào cản pháp lý phức tạp, đang trở thành lựa chọn ưu tiên của nhiều công ty công nghệ.
Tuy rằng dữ liệu tổng hợp có nhiều tiềm năng, các công ty cũng cần thận trọng trong việc áp dụng. Việc tạo ra các mô hình AI dựa trên dữ liệu tổng hợp yêu cầu phải có các biện pháp kiểm tra, giám sát nghiêm ngặt để đảm bảo rằng chất lượng của mô hình không bị suy giảm. Các công ty cần đảm bảo rằng dữ liệu tổng hợp mà họ sử dụng không chứa những lỗi thiên kiến hoặc thông tin sai lệch, và quy trình lọc dữ liệu phải được thực hiện một cách cẩn thận.
Dữ liệu tổng hợp đang nổi lên như một xu hướng quan trọng trong lĩnh vực trí tuệ nhân tạo, giúp các công ty công nghệ lớn như OpenAI và Meta có thể cải tiến mô hình nhanh hơn, tiết kiệm chi phí và vượt qua các rào cản về dữ liệu thực. Tuy nhiên, sự cẩn trọng là cần thiết để tránh những rủi ro tiềm ẩn, đặc biệt là việc mô hình AI có thể bị ảnh hưởng bởi lỗi thiên kiến hoặc thông tin sai lệch. Nếu được sử dụng đúng cách, dữ liệu tổng hợp sẽ mở ra những tiềm năng vô tận cho sự phát triển của AI trong tương lai.