Meta представила Audiobox - ШІ для генерації голосу та звукових ефектів
Meta
Компанія Meta анонсувала нову ШІ-платформу Audiobox, що дає змогу створювати персоналізовані голоси та звукові ефекти за допомогою голосових команд.
Що відомо
Audiobox базується на більш ранній розробці Meta - Voicebox. Однак за словами розробників, новинка перевершує попередника за якістю звучання і функціоналом.
З сьогоднішнього дня ви можете спробувати нашу нову фундаментальну дослідницьку модель для генерації аудіо. У демоверсії - Zero shot TTS, Text to sound effects, Infilling та багато іншого!
- AI at Meta (@AIatMeta) 11 грудня 2023 року
Try Audiobox ➡️ https://t.co/8OPcJYy8a9 pic.twitter.com/lo9rCOZMAh
Головна відмінність Audiobox - можливість не лише генерувати, а й редагувати аудіо. Платформа вміє створювати мовлення різними мовами, звукові ефекти (автомобільні гудки, собачий гавкіт, гуркіт грому) і цілі звукові ландшафти.
При цьому Meta вбудувала в Audiobox засоби контролю над процесом генерації, щоб максимально точно налаштувати потрібний результат.
Щоб запобігти зловживанням, розробники інтегрували в Audiobox систему цифрових водяних знаків. Будь-яке згенероване за допомогою платформи аудіо автоматично маркується, тож його походження можна відстежити.
За словами розробників Audiobox, швидкість генерації аудіо у 25 разів вища, ніж у попередніх АІ-моделях Meta. Це стало можливим завдяки використанню персоналізованих алгоритмів обробки даних для кожного конкретного завдання.
Обмеженням технології поки що залишається брак якісно промаркованих даних для навчання ШІ-моделі. Наприклад, щоб Audiobox міг точно імітувати різні породи собак або акценти людей, їй потрібен відповідний набір прикладів. У міру розширення бази даних можливості платформи будуть тільки зростати.
Джерело: Meta