Новый синтезатор речи Google разговаривает, как настоящий человек
Google представила синтезатор речи Tacotron Второго поколения. Благодаря грамотному использованию ИИ инженерам компании удалось синтезировать человеческий голос, который непросто отличить от оригинала.
Что умеет Tacotron 2
Благодаря ИИ синтезатор речи научился говорить как живой человек, а не Далек из "Доктора Кто". То есть, он ставит паузы после запятых и точек, акцентирует внимание на начале предложение, соблюдает ударения и держит темп, как живой человек. По ссылке есть его сравнение с живым человеком. Попробуйте угадать не глядя. А вот необычные слова порой ставят его в тупик.
Как это работает
Google разбила процесс синтеза речи на 2 этапа и разделила их между двумя нейросетями. Первая нейросеть превращает текст в аудио спектрограмму — эдакий скриншот эквалайзера с четкой последовательностью звуковых частот. А вторая нейросеть WaveNet интерпретирует этот файл и превращает его в речь. Благодаря этому помощнику Google не нужно подключение к интернету, чтобы заговорить.
Что дальше
Google пока не раскрывает планов по реализации Tacotron 2. Однако не нужно быть гением, чтобы предположить, что раз все работает, то уже в ближайшее время появится в продуктах Google вроде голосового помощника, переводчика или Google карт.