Tin tức D-ID Ra Mắt Công Nghệ Dịch Video AI Mới: Phát Triển Đổi Mới Trong Ngành Video

D-ID Ra Mắt Công Nghệ Dịch Video AI Mới: Phát Triển Đổi Mới Trong Ngành Video

26/08/2024

D-ID, nền tảng tạo video AI nổi bật, vừa công bố một công cụ mới giúp dịch video sang các ngôn ngữ khác bằng công nghệ AI tiên tiến. Đặc biệt, công nghệ mới của D-ID không chỉ dịch nội dung video mà còn sao chép giọng nói của người diễn giả và điều chỉnh chuyển động môi của họ để khớp với các từ đã được dịch.

Công nghệ này được phát triển dựa trên thành công của D-ID với các sản phẩm trước đây, bao gồm việc đưa ảnh cũ thành các video động. Sau khi huy động thành công 25 triệu đô la trong vòng gọi vốn Series B vào năm 2022, công ty đã mở rộng dịch vụ của mình nhằm phục vụ ngày càng nhiều khách hàng doanh nghiệp tại Mỹ.

Với công nghệ Dịch Video AI mới, hiện đang được cung cấp miễn phí cho các thuê bao của D-ID, các nhà sáng tạo nội dung có thể dễ dàng dịch video của họ sang 30 ngôn ngữ khác nhau, bao gồm tiếng Ả Rập, tiếng Trung, tiếng Nhật, tiếng Hindi, tiếng Tây Ban Nha và tiếng Pháp. Gói thuê bao của D-ID bắt đầu từ 56 đô la mỗi năm cho gói cơ bản và có thể lên đến 1,293 đô la mỗi năm trước khi chuyển sang mức giá doanh nghiệp.

Công nghệ mới của D-ID hứa hẹn giúp các doanh nghiệp tiết kiệm chi phí địa phương hóa khi mở rộng chiến dịch của họ ra toàn cầu trong các lĩnh vực marketing, giải trí và mạng xã hội. Công nghệ này sẽ cạnh tranh với các giải pháp dịch và lồng ghép video AI khác trên thị trường.

Trong nhiều năm qua, công nghệ lồng ghép âm thanh đã giúp người xem video nghe được âm thanh bằng ngôn ngữ của họ, nhưng thường không dễ tiếp cận với những nhà sáng tạo nhỏ hơn. Ví dụ, YouTube đã phát hành tính năng âm thanh đa ngôn ngữ để giúp các nhà sáng tạo kết nối với đối tượng rộng lớn hơn bằng cách dịch video của họ sang các ngôn ngữ khác. MrBeast, một trong những nhà sáng tạo nổi tiếng, là một trong những người đầu tiên áp dụng công nghệ này để mang các video nổi tiếng của mình đến 11 ngôn ngữ mới.

Công nghệ AI cũng đang mở rộng khả năng tạo, dịch, hoặc sao chép giọng nói. Microsoft đã công bố việc sử dụng AI để dịch và lồng ghép video YouTube trong năm nay, trong khi Vimeo đã ra mắt công cụ để dịch âm thanh và phụ đề, đồng thời sao chép giọng nói của người nói bằng công nghệ AI. Các công ty khác như Descript, ElevenLabs, Speechify, Veed, Camb.ai, Captions.ai, và Akool cũng cung cấp các công cụ sao chép giọng nói hoặc dịch AI, cùng với các công cụ cho phép tạo video sử dụng avatar AI có thể nói nhiều ngôn ngữ, như HeyGen và Deepbrain AI.

Các thư viện AI về lồng ghép âm thanh và chuyển động môi, như Wav2lip, đã giúp các startup dễ dàng xây dựng các công cụ này, đồng thời thu hút các nhà sáng tạo bằng cách hứa hẹn rằng việc sử dụng công nghệ AI sẽ trở nên dễ dàng và tiết kiệm hơn. Mô hình độc quyền mới của D-ID, Rosetta-1, là công nghệ nền tảng cho công cụ Dịch Video AI này.

Công nghệ Dịch Video AI mới của D-ID sẽ có mặt qua D-ID Studio và API của công ty. Một bản dùng thử miễn phí trong một tháng đã được cung cấp, và các bản demo thêm có sẵn trên trang web của công ty. Video có thể có độ dài từ 10 giây đến 5 phút và kích thước tệp không quá 2GB. Tính năng này hoạt động tốt nhất với một người trong khung hình và người đó nên đối diện với máy ảnh với khuôn mặt luôn được nhìn thấy.