Gạt bỏ lo ngại AI có thể giả giọng bất cứ ai, Hollywood bắt đầu phát triển mô hình kinh doanh mới

Được biết, ElevenLabs mới thành lập năm 2022, đã được các công ty đầu tư mạo hiểm là Andreessen Horowitz và Sequoia tài trợ. Công ty này đã tạo ra âm thanh cho sách và các bài báo, nhân vật trò chơi điện tử, phương tiện truyền thông xã hội và quảng cáo. Đầu năm 2024, công ty đã làm việc với các nhà xuất bản như New York Times và Washington Post và được Disney lựa chọn tham gia chương trình của hãng này.

Nhân bản giọng nói bằng AI đang được ứng dụng rộng rãi hơn

Đại diện ElevenLabs cho biết: Cần khoảng 30 phút âm thanh chất lượng cao để tạo bản sao giọng nói chuyên nghiệp. Giọng nói AI có thể được chọn để đọc văn bản nhưng không thể trích xuất giọng nói và nội dung trong một ứng dụng đọc. Chẳng hạn như người dùng có thể có các bài báo đọc bằng giọng của James Dean trong ứng dụng nhưng không thể tiếp cận giọng nói này cho bất cứ nội dung nào mà chưa có trong ứng dụng.

Những thỏa thuận kiểu này hỗ trợ thiết lập ranh giới cho tương lai, cho phép kiểm soát và quản lý tốt hơn các nội dung giọng nói do AI tạo ra. Việc làm này có ý nghĩa vô cùng quan trọng trong bối cảnh có nhiều lo ngại AI sử dụng trái phép giọng nói của người nổi tiếng, đặc biệt là sau vụ nữ diễn viên Scarlett Johansson tố OpenAI ăn cắp giọng nói của cô.

Trên thực tế, nhiều diễn viên đã bày tỏ lo ngại về việc sử dụng AI để tạo nội dung giọng nói. Vì vậy, một số người đã từ chối xem xét bất cứ thỏa thuận nào trong lĩnh vực này. Thế nhưng, bên cạnh đó vẫn có một bộ phận khác nhận định đây cũng là cơ hội để tăng tốc độ sao chép giọng nói cũng như giảm giá thành trên một số dạng sách nói.

Thời gian gần đây, các mô hình tạo giọng đã tiến bộ hơn so với các phiên bản trước đó nên để phân biệt giọng nói giả và thật sẽ khó khăn hơn. Khi giọng nói AI được cấp phép thì khối lượng công việc cho diễn viên lồng tiếng sẽ được giảm thiểu nhưng không thể thay thế họ. Bởi lẽ, họ sẽ can thiệp vào quá trình này bằng cách tập trung vào việc cung cấp bản sửa lỗi hoặc cải thiện các khía cạnh không thể diễn tả được như ngữ điệu, độ ấm…

Nhiều nghiên cứu đã chỉ ra rằng, AI chỉ tốt khi các mô hình được đào tạo tốt. Và, bộ dữ liệu giọng nói của diễn viên trở thành một phần của quá trình này.

Ông Nauman Dawalatabad đang công tác tại Phòng thí nghiệm Khoa học máy tính và Trí tuệ nhân tạo MIT, cũng là người có nhiều nghiên cứu sâu rộng về tạo giọng nói AI tiết lộ: Việc truyền tải giọng nói của các ngôi sao điện ảnh góp phần bổ sung cho khả năng học của AI thông qua việc cung cấp các bộ dữ liệu giọng nói chất lượng cao. Từ đó có cơ sở để đào tạo và tinh chỉnh các mô hình lớn.

Trước đó, ElevenLabs cho biết công cụ của họ gồm AI Speech Classifier giúp xác định nội dung âm thanh có phải do công cụ AI của công ty tạo ra không. Ngoài ra, các sản phẩm sẽ tập trung vào hoạt động lồng tiếng cho phim.

ElevenLabs được biết đến là một công ty chuyên phát triển phần mềm tổng hợp giọng nói có âm thanh tự nhiên bằng cách sử dụng công nghệ học sâu. Mặc dù mới thành lập nhưng ElevenLabs đã được công nhận là một trong những công ty lớn đứng sau sự bùng nổ AI đang diễn ra mạnh mẽ. Điều đặc biệt ở start-up này là nguồn cảm hứng thành lập công ty xuất phát từ việc xem những bộ phim Mỹ được lồng tiếng không đầy đủ của những nhà sáng lập.