Amazon створила найбільшу на сьогодні модель перетворення тексту на мову
Christian Wiediger/Unsplash
Дослідницька група Amazon зі штучного інтелекту анонсувала розробку найбільшої на цей момент моделі для перетворення тексту на мову. Під "найбільшою" мається на увазі кількість параметрів і обсяг даних, використаних для навчання.
Що відомо
Представлена модель під назвою BASE TTS містить 980 млн параметрів. Її навчали на 100 000 годин аудіозаписів мови з публічних ресурсів, переважно англійською мовою.
Також системі продемонстрували приклади розмовних фраз іншими мовами, щоб вона могла правильно вимовляти поширені вирази.
Під час тестування на невеликих даних команда Amazon виявила "стрибок" у якості синтезу мови при досягненні 150 млн параметрів. При цьому модель почала демонструвати низку нових мовних можливостей.
Фахівці зазначають, що BASE TTS з'явиться у відкритому доступі, щоб уникнути неетичного використання. Замість цього вона послужить навчальною базою для поліпшення наявних рішень у цій сфері.
Джерело: TechXplore