Новый синтезатор речи Google разговаривает, как настоящий человек

Автор: Евгений Щербань, 04 января 2018, 11:02

Google представила синтезатор речи Tacotron Второго поколения. Благодаря грамотному использованию ИИ инженерам компании удалось синтезировать человеческий голос, который непросто отличить от оригинала.

Что умеет Tacotron 2

Благодаря ИИ синтезатор речи научился говорить как живой человек, а не Далек из "Доктора Кто". То есть, он ставит паузы после запятых и точек, акцентирует внимание на начале предложение, соблюдает ударения и держит темп, как живой человек. По ссылке есть его сравнение с живым человеком. Попробуйте угадать не глядя. А вот необычные слова порой ставят его в тупик.

Как это работает

Google разбила процесс синтеза речи на 2 этапа и разделила их между двумя нейросетями. Первая нейросеть превращает текст в аудио спектрограмму  эдакий скриншот эквалайзера с четкой последовательностью звуковых частот. А вторая нейросеть WaveNet интерпретирует этот файл и превращает его в речь. Благодаря этому помощнику Google не нужно подключение к интернету, чтобы заговорить.

Что дальше

Google пока не раскрывает планов по реализации Tacotron 2. Однако не нужно быть гением, чтобы предположить, что раз все работает, то уже в ближайшее время появится в продуктах Google вроде голосового помощника, переводчика или Google карт.