Các chỉ số đánh giá AI truyền thống thường không phản ánh đúng khả năng của các mô hình AI hiện đại. Do đó, nhiều nhà phát triển và nghiên cứu đang chuyển sang sử dụng các trò chơi như Pictionary và Minecraft để kiểm tra khả năng sáng tạo, chiến lược và giải quyết vấn đề của AI.
Pictionary làm bài kiểm tra AI: Nhà phát triển Paul Calcraft đã tạo ra một trò chơi giống Pictionary, trong đó hai mô hình AI tương tác với nhau: một mô hình vẽ, trong khi mô hình còn lại đoán hình vẽ đó có nghĩa là gì. Cách làm này thử thách AI suy nghĩ vượt ra ngoài dữ liệu đã học bằng cách buộc chúng phải giải thích và phản ứng với các gợi ý sáng tạo. Pictionary giúp kiểm tra khả năng nhận thức không gian và sự hiểu biết của AI, đánh giá cách mà AI nhận diện hình dạng, màu sắc và các mối quan hệ không gian.
Minecraft làm chỉ số đánh giá: Adonis Singh, một bạn trẻ 16 tuổi, đã phát triển "mc-bench", công cụ cho phép AI chơi Minecraft và xây dựng các cấu trúc phức tạp. Minecraft cung cấp một môi trường không thể đoán trước, thử thách khả năng thích ứng, sáng tạo và lập kế hoạch chiến lược của AI theo cách mà các chỉ số đánh giá truyền thống không làm được. Singh tin rằng Minecraft giúp AI thể hiện khả năng tư duy thông qua các nhiệm vụ phức tạp, tương tự như giải quyết vấn đề trong thế giới thực.
Bối cảnh lịch sử và xu hướng hiện nay: Việc sử dụng trò chơi để kiểm tra AI không phải là điều mới mẻ. Vào những năm 1940, các trò chơi như cờ vua đã được coi là một chỉ số thử thách cho logic của phần mềm "thông minh". Ngày nay, các mô hình ngôn ngữ tiên tiến (LLMs) như GPT-4 và Claude cũng được đánh giá thông qua các trò chơi này, mặc dù các chuyên gia cho rằng tính hiệu quả của những chỉ số này còn gây tranh cãi. Một số nhà nghiên cứu cho rằng Minecraft và các trò chơi tương tự không nhất thiết phản ánh khả năng giải quyết vấn đề trong "thế giới thực" tốt hơn các trò chơi khác, mặc dù Minecraft có vẻ giống thế giới thực hơn.
Tác động tổng thể và triển vọng tương lai: Những chỉ số đánh giá không chính thống này phản ánh một sự chuyển hướng trong việc đánh giá AI qua các nhiệm vụ phức tạp, mở rộng thách thức cho các khả năng truyền thống. Bằng cách thử nghiệm AI trong những bối cảnh này, các nhà phát triển có thể hiểu rõ hơn về giới hạn của mô hình và thúc đẩy AI tiến gần hơn đến những kỹ năng giải quyết vấn đề và lập kế hoạch chiến lược, quan trọng trong các ứng dụng thực tế.