Meta представила Audiobox — ИИ для генерации голоса и звуковых эффектов
Meta
Компания Meta анонсировала новую ИИ-платформу Audiobox, позволяющую создавать персонализированные голоса и звуковые эффекты при помощи голосовых команд.
Что известно
Audiobox базируется на более ранней разработке Meta — Voicebox. Однако по словам разработчиков, новинка превосходит предшественника по качеству звучания и функционалу.
Starting today you can try our new foundation research model for audio generation. The demo includes Zero shot TTS, Text to sound effects, Infilling and more!
— AI at Meta (@AIatMeta) December 11, 2023
Try Audiobox ➡️ https://t.co/8OPcJYy8a9 pic.twitter.com/lo9rCOZMAh
Главное отличие Audiobox — возможность не только генерировать, но и редактировать аудио. Платформа умеет создавать речь на разных языках, звуковые эффекты (автомобильные гудки, собачий лай, раскаты грома) и целые звуковые ландшафты.
При этом Meta встроила в Audiobox средства контроля над процессом генерации, чтобы максимально точно настроить нужный результат.
Чтобы предотвратить злоупотребления, разработчики интегрировали в Audiobox систему цифровых водяных знаков. Любое сгенерированное при помощи платформы аудио автоматически маркируется, так что его происхождение можно отследить.
По словам разработчиков Audiobox, скорость генерации аудио в 25 раз выше, чем в предыдущих ИИ-моделях Meta. Это стало возможным благодаря использованию персонализированных алгоритмов обработки данных для каждой конкретной задачи.
Ограничением технологии пока остается нехватка качественно промаркированных данных для обучения ИИ-модели. Например, чтобы Audiobox мог точно имитировать разные породы собак или акценты людей, ей нужен соответствующий набор примеров. По мере расширения базы данных возможности платформы будут только расти.
Источник: Meta