Ảnh được tạo bằng ánh sáng, nhưng nếu chân dung người có thể được tạo ra bằng âm thanh của giọng nói của họ thì sao? Một AI đang được nghiên cứu để tái tạo lại khuôn mặt của một người chỉ bằng một đoạn ghi âm ngắn giọng nói của người đó, kết quả rất ấn tượng và có chút đáng sợ.
Các nhà khoa học trí tuệ nhân tạo tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT (CSAIL) lần đầu tiên công bố một thuật toán AI có tên Speech2Face trong một bài báo vào năm 2019 và tiếp tục tinh chỉnh nó. cho đến nay.
Đầu tiên, các nhà nghiên cứu đã thiết kế và đào tạo một mạng lưới thần kinh sâu bằng cách sử dụng hàng triệu video nói chuyện của mọi người từ YouTube và Internet. Trong quá trình đào tạo này, AI đã học được mối tương quan giữa âm thanh của giọng nói và sự xuất hiện của người nói. Những mối tương quan này cho phép nó đưa ra phỏng đoán tốt nhất về tuổi, giới tính và dân tộc của người nói.
Con người không trực tiếp tham gia vào quá trình đào tạo, vì các nhà nghiên cứu không cần phải phân loại thủ công bất kỳ dữ liệu nào – AI chỉ đơn giản là được cung cấp một lượng lớn video và có nhiệm vụ tìm kiếm các kết nối. tương quan giữa giọng nói và các đặc điểm trên khuôn mặt.
Sau khi được đào tạo, AI dường như rất giỏi trong việc tạo ra những bức chân dung sống động như thật chỉ dựa trên bản ghi âm giọng nói. AI này hoạt động tốt hơn khi các bản ghi dài hơn.
Bên trái là khuôn mặt thật và bên phải là khuôn mặt do AI tạo ra từ giọng nói
Để phân tích thêm độ chính xác của việc tái tạo khuôn mặt, các nhà nghiên cứu đã xây dựng một “bộ giải mã khuôn mặt” tạo ra một tham chiếu từ khuôn mặt ban đầu, bỏ qua những thứ không liên quan như tư thế. Và ánh sáng. Điều này cho phép các nhà khoa học dễ dàng so sánh hình ảnh tạo ra từ giọng nói với hình ảnh khuôn mặt của người nói.
Một lần nữa, kết quả AI rất gần với khuôn mặt thật trong hầu hết các trường hợp.
Bên trái là khuôn mặt thật, ở giữa là khuôn mặt tham chiếu, bên phải là ảnh do AI tạo
Có một số trường hợp AI gặp khó khăn trong việc hình dung người nói trông như thế nào. Các yếu tố như trọng âm, ngôn ngữ và cao độ giọng nói là những yếu tố gây ra sự không khớp giữa giọng nói đối diện, trong đó giới tính, tuổi tác hoặc dân tộc không chính xác.
Những người có giọng cao (kể cả con trai) thường được coi là nữ trong khi những người có giọng thấp được coi là nam. Một người đàn ông châu Á nói tiếng Anh dẫn đến ngoại hình không giống người châu Á hơn là khi anh ta nói tiếng Trung Quốc.
AI đôi khi sai giới tính, chủng tộc, tuổi tác
Các nhà nghiên cứu cho biết họ đã cân nhắc về quyền riêng tư và đạo đức xung quanh dự án. Tất cả các kế hoạch sử dụng thực tế (nếu có) cần được kiểm tra cẩn thận.
Cơ quan thực thi pháp luật có thể sử dụng AI để vẽ chân dung nghi phạm nếu bằng chứng duy nhất là một đoạn ghi âm giọng nói. Tuy nhiên, điều này có thể gây ra nhiều tranh cãi liên quan đến quyền riêng tư và đạo đức.
Mặt khác, nó có thể có tác động tiêu cực đến những người sáng tạo nội dung trên YouTube và TikTok, những người đang cố gắng bảo vệ cuộc sống riêng tư của họ bằng cách chỉ lên tiếng và không xuất hiện trước ống kính.
Mặc dù AI có thể tạo ra chân dung chính xác của con người chỉ bằng giọng nói của họ là một khái niệm hấp dẫn và là thứ chỉ tồn tại trong khoa học viễn tưởng, đó không phải là mục tiêu của các nhà nghiên cứu. Họ nói rằng nghiên cứu nhằm cung cấp một cái nhìn toàn diện hơn về mối tương quan giữa khuôn mặt và giọng nói và có thể mở ra các cơ hội nghiên cứu và ứng dụng mới.
Tham khảo: Petapixel
Tổng hợp: Công Nghệ Chính Nhân