OpenAI объявила о новой технологии клонирования голоса из 15-секундного аудио

Автор: Анастасия Бобкова, 30 марта 2024, 04:47

OpenAI представила новый инновационный инструмент под названием Voice Engine, который может клонировать голос любого лица из 15-секундного аудиообразца.

Что известно

Voice Engine анализирует короткий аудиосигнал и создает речь с естественным звучанием с "эмоциональными и реалистичными голосами". Эта инновационная технология, основанная на уже имеющемся API синтеза речи от OpenAI, может быть полезной для различных целей: аудиокниги, языковой перевод и помощь людям с речевыми расстройствами.

OpenAI признает серьезные риски использования этой технологии, в частности, возможность ее злоупотребления недобросовестными лицами. Поэтому компания активно работает над обеспечением конфиденциальности и безопасности, включая ряд мер, таких как водяные знаки и проактивный мониторинг использования системы.

Согласно объявленному, Voice Engine остается на этапе предварительного просмотра, но компания уже провела успешные пилотные программы, которые демонстрируют потенциал Voice Engine. Предварительный просмотр проводился в Brown University, где функция была использована для помощи пациентам с нарушениями речи.

По словам OpenAI, их Voice Engine будет внедрен при сборе отзывов от партнеров и соблюдении политики, запрещающей использовать клонированный голос без согласия лица. Кроме того, планируется создать "список запрещенных голосов", чтобы избежать злоупотреблений.

Стоимость вопроса

Ориентировочная стоимость использования Voice Engine составляет примерно 15 долларов за миллион символов, а это примерно 162 500 слов.

Источник: Engadget