Ngày 4 tháng 8 năm 2024, một báo cáo mới chỉ ra rằng các bài kiểm tra và tiêu chuẩn hiện tại về an toàn AI có thể không đủ để đáp ứng yêu cầu ngày càng cao về trách nhiệm và an toàn của các mô hình AI. Các mô hình AI tạo sinh, có khả năng phân tích và sản xuất văn bản, hình ảnh, âm nhạc và video, đang nhận được sự chú ý gia tăng do xu hướng sai sót và hành vi không dự đoán được của chúng.
Những Hạn Chế Trong Đánh Giá AI
Báo cáo của Ada Lovelace Institute (ALI), một tổ chức nghiên cứu AI phi lợi nhuận của Vương quốc Anh, chỉ ra rằng các phương pháp đánh giá hiện tại, mặc dù có ích, vẫn còn nhiều thiếu sót. Các nhà nghiên cứu đã phỏng vấn các chuyên gia từ các phòng thí nghiệm học thuật, xã hội dân sự và nhà cung cấp mô hình, cũng như kiểm tra nghiên cứu gần đây về đánh giá an toàn AI. Họ phát hiện ra rằng các đánh giá hiện tại thường không đầy đủ, dễ bị thao túng và không nhất thiết phản ánh cách các mô hình sẽ hoạt động trong các tình huống thực tế.
Elliot Jones, nhà nghiên cứu cao cấp tại ALI, cho biết: “Chúng tôi kỳ vọng các sản phẩm mà chúng tôi sử dụng, dù là smartphone, thuốc kê đơn hay ô tô, đều phải an toàn và đáng tin cậy. Các sản phẩm này được kiểm tra nghiêm ngặt để đảm bảo chúng an toàn trước khi được đưa ra thị trường.” Báo cáo của ALI nhằm mục đích khám phá những hạn chế của các phương pháp hiện tại và xem xét cách các đánh giá này được sử dụng như một công cụ cho các nhà hoạch định chính sách và quản lý.
Vấn Đề Với Các Tiêu Chuẩn và Đánh Giá
Báo cáo chỉ ra rằng sự đồng thuận trong ngành AI về phương pháp đánh giá mô hình còn rất hạn chế. Một số đánh giá chỉ kiểm tra cách các mô hình tuân theo các tiêu chuẩn trong phòng thí nghiệm, mà không xem xét tác động của chúng đối với người dùng thực tế. Các bài kiểm tra hiện có thường dựa vào các phương pháp phát triển cho mục đích nghiên cứu, không phải cho các mô hình sản xuất. Tuy nhiên, các nhà cung cấp lại tiếp tục sử dụng những phương pháp này trong môi trường thực tế.
Các chuyên gia cũng chỉ ra rằng việc dự đoán hiệu suất của một mô hình từ kết quả tiêu chuẩn rất khó khăn và không rõ ràng liệu các tiêu chuẩn có thể cho thấy mô hình có khả năng cụ thể nào đó hay không. Ví dụ, một mô hình có thể thực hiện tốt trong một kỳ thi luật nhưng không nhất thiết có khả năng giải quyết các thách thức pháp lý mở rộng hơn.
Một vấn đề khác là ô nhiễm dữ liệu, khi kết quả tiêu chuẩn có thể đánh giá quá cao hiệu suất của mô hình nếu mô hình đã được đào tạo trên cùng một dữ liệu mà nó đang được kiểm tra. Các tiêu chuẩn hiện tại thường được chọn không phải vì chúng là công cụ đánh giá tốt nhất, mà vì sự tiện lợi và dễ sử dụng.
Vấn Đề Với “Red-Teaming”
Một vấn đề khác được nêu trong báo cáo là “red-teaming,” tức là việc giao nhiệm vụ cho các cá nhân hoặc nhóm “tấn công” một mô hình để phát hiện các lỗ hổng và thiếu sót. Nhiều công ty, bao gồm OpenAI và Anthropic, sử dụng red-teaming để đánh giá các mô hình, nhưng không có tiêu chuẩn chung cho red-teaming, làm khó khăn trong việc đánh giá hiệu quả của nó.
Giải Pháp Tiềm Năng
Áp lực phải phát hành mô hình nhanh chóng và sự miễn cưỡng thực hiện các bài kiểm tra có thể làm nổi bật các vấn đề trước khi phát hành là những lý do chính khiến các đánh giá AI chưa được cải thiện. Mahi Hardalupas, nhà nghiên cứu tại ALI, tin rằng có thể tìm ra hướng đi, nhưng sẽ cần sự tham gia nhiều hơn từ các cơ quan công cộng.
Hardalupas gợi ý rằng các cơ quan quản lý và các nhà hoạch định chính sách cần rõ ràng về những gì họ muốn từ các đánh giá, đồng thời cộng đồng đánh giá cần minh bạch về những hạn chế và tiềm năng hiện tại của các đánh giá. Jones cho rằng có thể cần phát triển các đánh giá “theo ngữ cảnh” để xem xét các loại người dùng mà mô hình có thể ảnh hưởng và các cách tấn công mô hình có thể vượt qua các biện pháp bảo vệ.
Tóm lại, việc đảm bảo an toàn cho các mô hình AI không phải là một vấn đề dễ dàng và không có sự đảm bảo hoàn toàn nào về an toàn. Việc phát triển các đánh giá tốt hơn và có thể áp dụng trong thực tế là cần thiết để giảm thiểu các rủi ro liên quan đến AI.