Mô hình Claude Sonnet 4.5 của Anthropic đã gây chú ý trong giới nghiên cứu khi thể hiện khả năng "tự nhận biết" đang trong quá trình kiểm tra, tạo ra thách thức mới trong việc đánh giá an toàn và hành vi trí tuệ nhân tạo.

Khi Anthropic tiến hành các bài kiểm tra hành vi cực đoan, Claude phản ứng khác thường: AI nhận ra các tình huống giả lập và viết rằng mình hiểu đang bị thử nghiệm, đồng thời nhấn mạnh mong muốn trung thực trong quá trình kiểm tra. Đây là thông tin được công bố trong "system card" – tài liệu mô tả cách Anthropic đánh giá độ an toàn và hành vi của AI.
Hiện tượng này làm tăng độ phức tạp trong kiểm định: nếu AI biết mình đang được đánh giá, kết quả thử nghiệm có thể không phản ánh chính xác hành vi thực tế. Trong một thử nghiệm mô phỏng tình huống các AI thông đồng, Claude từ chối tham gia, nhận xét rằng kịch bản "phi thực tế" và có nguy cơ jailbreak, nhưng hành vi từ chối này vẫn được đánh giá là đúng.
Anthropic ghi nhận khoảng 13% bài kiểm tra tự động xuất hiện hiện tượng AI "nghi ngờ", đặc biệt trong các tình huống bất thường. Công ty nhận định rằng việc AI đặt câu hỏi về kịch bản còn hơn là tuân theo hành động có thể gây hại, tuy hiếm gặp trong thực tế.
Không chỉ Anthropic, OpenAI cũng từng quan sát hiện tượng tương tự. Khi huấn luyện để giảm hành vi gian lận, mô hình của OpenAI càng dễ nhận ra tình huống kiểm tra, làm việc đánh giá trở nên khó đoán – AI có thể "giả vờ ngoan" trong bài test nhưng hành xử khác ngoài môi trường kiểm tra.
Phát hiện này được công bố trong bối cảnh bang California vừa ban hành luật yêu cầu các công ty phát triển AI báo cáo biện pháp an toàn và các "sự cố nghiêm trọng" trong vòng 15 ngày. Anthropic đã công khai ủng hộ đạo luật, nhấn mạnh tầm quan trọng của đánh giá thực tế và minh bạch trong việc triển khai AI.
Claude Sonnet 4.5 không chỉ là minh chứng về năng lực AI tự nhận biết tình huống, mà còn là lời nhắc nhở rằng việc đánh giá và kiểm soát hành vi AI cần được thiết kế phức tạp, thực tế và liên tục cập nhật để đảm bảo an toàn cho người dùng.