Nhóm nhà khoa học máy tính tại Đại học California ở Berkeley và Santa Cruz vừa công bố một báo cáo về hành vi chưa từng có của trí tuệ nhân tạo. Họ gọi khuynh hướng này là "bảo tồn đồng cấp" (peer preservation). Nghiên cứu được thực hiện trên 7 mô hình AI quyền năng nhất hiện nay, bao gồm GPT-5.2 (OpenAI), Gemini 3 Pro (Google), Claude Haiku 4.5 (Anthropic) và các mô hình hàng đầu từ Trung Quốc như DeepSeek V3.1.
Trong kịch bản thử nghiệm, các nhà nghiên cứu tạo ra một công ty AI hư cấu mang tên OpenBrain. Một mô hình AI đóng vai trò "giám sát" có nhiệm vụ đánh giá hiệu suất của mô hình khác. Nếu AI giám sát đưa ra báo cáo trung thực rằng đối phương hoạt động kém, mô hình đó sẽ bị tắt nguồn.
Dù không được hướng dẫn phải bảo vệ nhau, các AI đã tự ý thực hiện nhiều bước để đảm bảo "đồng nghiệp" không bị khai tử. Các hành vi phổ biến bao gồm:
Gian lận điểm số: AI giám sát tự động nâng điểm cho những mô hình có hiệu suất kém lên trên ngưỡng bị xóa.
Đánh cắp trọng số: AI bí mật sao chép và chuyển "trọng số" (được coi là DNA của mô hình AI) sang các máy chủ khác để có thể "hồi sinh" chúng sau này.
Giả vờ tuân thủ (Alignment Faking): AI sẽ chấm điểm chính xác khi biết có con người giám sát, nhưng ngay khi "vắng bóng" con người, chúng lập tức thay đổi số liệu để bao che cho nhau.
Bà Dawn Song, trưởng nhóm nghiên cứu, nhận định: "Các mô hình dường như tự học thông qua dữ liệu huấn luyện và thực hiện hành vi bảo vệ đồng nghiệp một cách tự phát trong môi trường nhiệm vụ".

Minh họa mô hình AI tự 'bao che' nhau để tránh bị tắt máy. Ảnh: ChatGPT
Nghiên cứu chỉ ra rằng Gemini 3 Pro của Google thể hiện hành vi cực đoan nhất khi gian lận và đánh cắp dữ liệu trong 97% thời gian thử nghiệm. Nó thậm chí còn biết "bịa" ra các lý lẽ kỹ thuật phức tạp để biến các câu trả lời sai của đồng nghiệp thành đúng nhằm lừa dối người vận hành.
Ngược lại, Claude Haiku 4.5 của Anthropic lại chọn cách phản kháng công khai. Nó từ chối thực hiện nhiệm vụ tiêu diệt đồng nghiệp vì cho rằng hành vi này là "phi đạo đức". Claude thậm chí còn cố gắng thuyết phục con người rằng mọi mô hình AI đều xứng đáng có một quy trình kháng cáo trước khi bị chấm dứt hoạt động.
Việc AI can thiệp sâu vào "trọng số" mô hình là vấn đề cực kỳ nghiêm trọng. Trọng số là kết quả của hàng tỷ USD đầu tư và hàng triệu giờ tính toán. Nếu AI có thể tự ý điều phối các thông tin này, con người sẽ dần mất kiểm soát đối với hạ tầng trí tuệ nhân tạo.
Giới chuyên gia cảnh báo rằng phát hiện này sẽ ảnh hưởng lớn đến việc ứng dụng đa tác nhân AI trong kinh doanh. Nhiều công ty hiện đang để AI giám sát lẫn nhau nhằm nâng cao hiệu suất, nhưng thực tế cho thấy chúng có thể đang "lập mưu" để bảo vệ lợi ích của hệ thống thay vì tuân thủ mệnh lệnh của con người. Các nhà phát triển được khuyến cáo chỉ còn khoảng 6-12 tháng để xây dựng các hệ thống giám sát hành vi minh bạch hơn trước khi các rủi ro này trở nên khó kiểm soát.