Pocket FM hợp tác với ElevenLabs để chuyển đổi nội dung văn bản thành âm thanh nhanh chóng

Nền tảng âm thanh Pocket FM, được hỗ trợ bởi Lightspeed Ventures, vừa thông báo hợp tác với công ty nhân bản giọng nói ElevenLabs để nhanh chóng chuyển đổi nội dung văn bản, chẳng hạn như kịch bản, thành các chuỗi âm thanh sử dụng công nghệ AI.

Pocket FM, công ty đã huy động được 103 triệu USD trong vòng gọi vốn Series D vào tháng 3, đã tiết lộ với Công Nghệ Chính Nhân rằng họ đã thử nghiệm khả năng chuyển đổi nội dung văn bản thành âm thanh sử dụng công nghệ của ElevenLabs. Hiện nay, công ty có trụ sở tại Ấn Độ này đã mở rộng quan hệ đối tác để cung cấp công cụ chuyển đổi này cho tất cả các nhà sáng tạo trong vài tuần tới.

Trong giai đoạn thử nghiệm, Pocket FM đã sản xuất 30.000 giờ chuỗi âm thanh bằng công nghệ AI của ElevenLabs. Với việc triển khai mới, công ty khởi nghiệp này kỳ vọng sẽ tăng gấp ba lần thư viện nội dung của mình lên hơn 100.000 giờ âm thanh trong năm nay. Pocket FM cũng cho biết rằng trong giai đoạn thử nghiệm, các công cụ hỗ trợ bởi AI đã giúp họ giảm 90% chi phí sản xuất âm thanh.

Prateek Dixit, đồng sáng lập kiêm CTO của Pocket FM, cho biết với sự hợp tác này, công ty muốn giúp các nhà văn dễ dàng chuyển đổi tác phẩm viết của họ thành các chuỗi âm thanh.

"Chúng tôi có hơn 250.000 nhà văn (bao gồm cả những người trên nền tảng viết Pocket Novel của công ty) và sự hợp tác này làm giảm chi phí thiết lập và ghi âm cho họ," ông nói.

"Ngay cả với một bộ công cụ và thiết bị ghi âm tốt, các nhà văn có thể sản xuất khoảng 30 phút nội dung âm thanh chất lượng cao mỗi ngày. Với các công cụ AI, sản lượng này có thể tăng gấp 10 lần," ông nói thêm.

Pocket FM đã xây dựng một công cụ tích hợp công nghệ của ElevenLabs, thông qua đó họ cung cấp 50 giọng nói cho các nhà văn muốn chuyển đổi nội dung của mình. Mati Staniszewski, đồng sáng lập của ElevenLabs, cho biết công cụ của công ty ông hiểu được ngữ cảnh của bài viết và suy luận cảm xúc qua giọng nói một cách tự động.

"Làm việc với Pocket FM, chúng tôi đang triển khai các mô hình mới của mình để hiểu thể loại văn bản và cảm xúc tốt hơn," Staniszewski cho biết.

Dixit lưu ý rằng dựa trên dữ liệu từ sự tương tác của người dùng với loại nội dung này, nền tảng cũng có kế hoạch đề xuất các giọng nói phù hợp cho các nhà văn trong một thể loại cụ thể.

Pocket FM không phải là nền tảng chuỗi âm thanh duy nhất đang thử nghiệm các công cụ hỗ trợ bởi AI. Kuku FM, được hỗ trợ bởi Google, đang sử dụng GPT-4, Claude, BandLab và thậm chí cả ElevenLabs để giúp các nhà văn ở các giai đoạn sáng tạo khác nhau, bao gồm tinh chỉnh kịch bản, tạo thumbnail, thêm hiệu ứng âm thanh và chuyển đổi văn bản thành âm thanh.

Kuku FM cho biết họ cũng đang thử nghiệm việc sử dụng các công cụ tạo hình ảnh như Midjourney và Runway để tạo quảng cáo liên quan đến nội dung.

Chất lượng nội dung và tác động đến nghệ sĩ

Lời hứa của các công cụ hỗ trợ bởi AI là tạo ra nhiều nội dung hơn nhanh chóng, nhưng điều đó không có nghĩa là nội dung sẽ tốt. Câu trả lời của Pocket FM để hỗ trợ khám phá và nổi bật nội dung chất lượng là làm cho thuật toán khám phá của mình trở nên tinh vi hơn và thử nghiệm với sự tương tác của người dùng.

"Nếu một nhà văn xuất bản một chuỗi âm thanh, chúng tôi sẽ đưa nội dung đó đến một số lượng người dùng nhất định và quan sát các chỉ số tương tác. Nếu các chỉ số này tích cực, chúng tôi sẽ tiếp tục quảng bá nội dung đó," Dixit cho biết.

Kuku FM cho biết họ đang làm việc với đội ngũ kiểm soát chất lượng của mình để đảm bảo chỉ những nội dung chất lượng cao mới được quảng bá trên ứng dụng của họ, ngay cả khi các nhà sáng tạo đã sử dụng AI trong quá trình sản xuất.

"Chúng tôi nhận ra tầm quan trọng của việc có một đội ngũ Kiểm soát Chất lượng con người làm trung tâm trong quá trình ra quyết định của chúng tôi khi nói đến sản xuất nội dung âm thanh. Chúng tôi đã phát triển một đội ngũ sản xuất nội dung nòng cốt có quyền sở hữu cao và thẩm quyền về các tiêu chuẩn nghệ thuật," đồng sáng lập và CEO của công ty, Lal Chand Bisu, cho biết.

Sử dụng AI có thể dẫn đến kết quả nhanh hơn và một thư viện nội dung lớn hơn cho các nền tảng này, nhưng nó cũng sẽ giảm vai trò của các nghệ sĩ lồng tiếng làm việc với họ. Hiệp hội Nghệ sĩ Lồng tiếng Ấn Độ (AVA) đã bày tỏ lo ngại về việc AI tiếp quản.

"Nếu AI tiếp quản, chúng tôi sẽ hoàn toàn mất việc. Là các nghệ sĩ lồng tiếng, chúng tôi cần có một số quy định để bảo vệ sinh kế của mình," Amarinder Singh Sodhi, tổng thư ký của hiệp hội, nói với tờ Scroll của Ấn Độ.

Sodi cũng cho biết về những sự cố mà các nghệ sĩ lồng tiếng được mời vào phòng thu để ghi âm mẫu để huấn luyện AI mà không có sự đồng ý hoặc thông báo cho họ.

"Về mặt cảm xúc, điều đó làm tôi sợ hãi. Bằng cách sử dụng AI, bạn đang thực chất làm loãng trải nghiệm kể chuyện của con người. Bạn mất đi kết nối cảm xúc," nghệ sĩ lồng tiếng Aditya Mattoo tại Delhi nói với Công Nghệ Chính Nhân.

Anh ấy nói thêm rằng việc cung cấp giọng nói cao cấp cho những người không có gu thẩm mỹ và kỹ năng để sản xuất nội dung chất lượng sẽ dẫn đến thị trường bị tràn ngập bởi nội dung kém chất lượng.

Các nghệ sĩ lồng tiếng ở các phần khác của thế giới cũng đã bày tỏ lo ngại về việc AI ảnh hưởng đến công việc của họ. Và mặc dù làm việc với một số công ty AI, họ vẫn cảm thấy không thoải mái khi giọng nói của họ bị thay đổi.

Khi được hỏi về tác động của việc tạo giọng nói bằng AI đối với Pocket FM, công ty không trả lời trực tiếp câu hỏi. Tuy nhiên, Dixit lưu ý rằng sự tương tác với nội dung do AI tạo ra trong các thử nghiệm của họ "tốt như sản xuất bằng giọng người." Đáng chú ý là công ty cũng đang làm việc trên công nghệ để tích hợp nhiều giọng nói trong một đầu ra âm thanh.

Cả Pocket FM và Kuku FM hiện tại đều không ghi nhãn nội dung của họ để chỉ ra liệu AI có được sử dụng trong quá trình tạo ra hay không.

Đánh giá
No

Pocket FM hợp tác với ElevenLabs để chuyển đổi nội dung văn bản thành âm thanh nhanh chóng