Vall-E — новая модель ИИ Microsoft, которая имитирует любой человеческий голос на основе всего 3-секундного оригинала

Автор: Елена Щербань, 11 января 2023, 00:47
Vall-E — новая модель ИИ Microsoft, которая имитирует любой человеческий голос на основе всего 3-секундного оригинала

Компания Microsoft представила новую модель искусственного интеллекта под названием Vall-E. Она базируется на технологии EnCodec, которую Meta анонсировала в октябре 2022 года.

Что это такое

Microsoft называет VALL-E «языковой моделью нейронного кодека». Этот искусственный интеллект способен имитировать любой человеческий голос, причем для этого ему надо прослушать всего 3 секунды оригинального голоса. ИИ разбивает информацию на компоненты и синтезирует вариации его звучания в разных фразах, в результате чего может точно воспроизводить тембр и эмоциональный тон говорящего.

Для обучения Vall-E компания Microsoft использовала записи 60 тысяч часов разговоров, которые записали более 7 тысяч реальных людей. В основном для этого брали аудиокниги из библиотеки LibriVox.

Примеры имитации голосов Vall-E можно послушать на GitHub.

Microsoft говорит, что Vall-E можно будет использовать как инструмент преобразования текста в голос, способ редактирования речи и систему создания аудио, соединив его с другими генеративными ИИ.

Источник: Vall-E

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.

Поделиться