Meta представила Audiobox — ИИ для генерации голоса и звуковых эффектов

Автор: Богдан Каминский, 12 декабря 2023, 14:05

Что известно

Audiobox базируется на более ранней разработке Meta — Voicebox. Однако по словам разработчиков, новинка превосходит предшественника по качеству звучания и функционалу.

Starting today you can try our new foundation research model for audio generation. The demo includes Zero shot TTS, Text to sound effects, Infilling and more!

Try Audiobox ➡️ https://t.co/8OPcJYy8a9 pic.twitter.com/lo9rCOZMAh
— AI at Meta (@AIatMeta) December 11, 2023

Главное отличие Audiobox — возможность не только генерировать, но и редактировать аудио. Платформа умеет создавать речь на разных языках, звуковые эффекты (автомобильные гудки, собачий лай, раскаты грома) и целые звуковые ландшафты.

При этом Meta встроила в Audiobox средства контроля над процессом генерации, чтобы максимально точно настроить нужный результат.

Чтобы предотвратить злоупотребления, разработчики интегрировали в Audiobox систему цифровых водяных знаков. Любое сгенерированное при помощи платформы аудио автоматически маркируется, так что его происхождение можно отследить.

По словам разработчиков Audiobox, скорость генерации аудио в 25 раз выше, чем в предыдущих ИИ-моделях Meta. Это стало возможным благодаря использованию персонализированных алгоритмов обработки данных для каждой конкретной задачи.

Ограничением технологии пока остается нехватка качественно промаркированных данных для обучения ИИ-модели. Например, чтобы Audiobox мог точно имитировать разные породы собак или акценты людей, ей нужен соответствующий набор примеров. По мере расширения базы данных возможности платформы будут только расти.

Источник: Meta

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.

Искусственный интеллект