Vall-E — новая модель ИИ Microsoft, которая имитирует любой человеческий голос на основе всего 3-секундного оригинала
Компания Microsoft представила новую модель искусственного интеллекта под названием Vall-E. Она базируется на технологии EnCodec, которую Meta анонсировала в октябре 2022 года.
Что это такое
Microsoft называет VALL-E «языковой моделью нейронного кодека». Этот искусственный интеллект способен имитировать любой человеческий голос, причем для этого ему надо прослушать всего 3 секунды оригинального голоса. ИИ разбивает информацию на компоненты и синтезирует вариации его звучания в разных фразах, в результате чего может точно воспроизводить тембр и эмоциональный тон говорящего.
Для обучения Vall-E компания Microsoft использовала записи 60 тысяч часов разговоров, которые записали более 7 тысяч реальных людей. В основном для этого брали аудиокниги из библиотеки LibriVox.
Примеры имитации голосов Vall-E можно послушать на GitHub.
Microsoft говорит, что Vall-E можно будет использовать как инструмент преобразования текста в голос, способ редактирования речи и систему создания аудио, соединив его с другими генеративными ИИ.
Источник: Vall-E