Amazon создала крупнейшую на сегодня модель преобразования текста в речь

Автор: Богдан Каминский, 20 февраля 2024, 18:50

Christian Wiediger/Unsplash

Исследовательская группа Amazon по искусственному интеллекту анонсировала разработку самой большой на данный момент модели для преобразования текста в речь. Под «самой большой» подразумевается количество параметров и объем данных, использованных для обучения.

Что известно

Представленная модель под названием BASE TTS содержит 980 млн параметров. Ее обучали на 100 000 часов аудиозаписей речи с публичных ресурсов, в основном на английском языке.

Также системе продемонстрировали примеры разговорных фраз на других языках, чтобы она могла правильно произносить распространенные выражения.

В ходе тестирования на небольших данных команда Amazon выявила «скачок» в качестве синтеза речи при достижении 150 млн параметров. При этом модель начала демонстрировать ряд новых языковых возможностей.

Специалисты отмечают, что BASE TTS появится в открытом доступе во избежание неэтичного использования. Вместо этого она послужит учебной базой для улучшения существующих решений в данной сфере.

Источник: TechXplore

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.

Искусственный интеллект