Meta разработала генеративную модель искусственного интеллекта для преобразования текста в речь

Автор: Богдан Каминский, 16 июня 2023, 18:54
Meta разработала генеративную модель искусственного интеллекта для преобразования текста в речь

Компания Meta представила генеративную модель преобразования текста в речь Voicebox. По словам разработчиков, алгоритм сделает для устной речи то, что ChatGPT и DALL-E сделали для текста и изображений.

Что известно

Подобно генеративным системам для текста и изображений, Voicebox может создавать выходные данные с нуля, преобразовывать стили, а также изменять предоставленный образец. Систему тренировали на 50 000 часах записанной речи и стенограмм аудиокниг, находящихся в общественном достоянии, на английском, французском, испанском, немецком, польском и португальском языках.

В результате Voicebox способен редактировать клипы, устранять шум  и заменять неправильно произнесенные слова. 

"Человек может определить, какой необработанный сегмент речи поврежден шумом (например, лаем собаки), обрезать его и поручить модели регенерировать этот сегмент", — сказали исследователи.

Также Voicebox может воспроизводить речь по двухсекундному отрывку, переносить межязыковой стиль, а также создавать разнообразные выборки для синтетических наборов данных.

Когда ждать

Meta не стала публиковать исходный код модели. Разработчики сослались на "потенциальные риски неправильного использования", несмотря на "множество интересных вариантов использования генеративных речевых моделей".

Источник: Meta.

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.

Поделиться