Meta розробила генеративну модель штучного інтелекту для перетворення тексту на мову
Компанія Meta представила генеративну модель перетворення тексту на мову Voicebox. За словами розробників, алгоритм зробить для усного мовлення те, що ChatGPT і DALL-E зробили для тексту і зображень.
Що відомо
Подібно до генеративних систем для тексту і зображень, Voicebox може створювати вихідні дані з нуля, перетворювати стилі, а також змінювати наданий зразок. Систему тренували на 50 000 годинах записаної мови та стенограм аудіокниг, що перебувають у суспільному надбанні, англійською, французькою, іспанською, німецькою, польською та португальською мовами.
У результаті Voicebox здатний редагувати кліпи, усувати шум і замінювати неправильно вимовлені слова.
"Людина може визначити, який необроблений сегмент мови пошкоджений шумом (наприклад, гавкотом собаки), обрізати його і доручити моделі регенерувати цей сегмент", - сказали дослідники.
Також Voicebox може відтворювати мову за двосекундним уривком, переносити міжмовний стиль, а також створювати різноманітні вибірки для синтетичних наборів даних.
Коли чекати
Meta не стала публікувати вихідний код моделі. Розробники послалися на "потенційні ризики неправильного використання", попри "безліч цікавих варіантів використання генеративних мовних моделей".
Джерело: Meta.