Meta ha introdotto Audiobox - AI per la generazione di voci ed effetti sonori

Di: Bohdan Kaminskyi | 12.12.2023, 13:05

Ecco cosa sappiamo

Audiobox si basa sul precedente sviluppo di Meta, Voicebox. Tuttavia, secondo gli sviluppatori, questa novità supera il suo predecessore per qualità del suono e funzionalità.

Da oggi è possibile provare il nostro nuovo modello di ricerca di base per la generazione audio. La demo include Zero shot TTS, Text to sound effects, Infilling e molto altro!

Prova Audiobox ➡️ https://t.co/8OPcJYy8a9 pic.twitter.com/lo9rCOZMAh
- AI at Meta (@AIatMeta) 11 dicembre 2023

La differenza principale di Audiobox è la capacità non solo di generare ma anche di modificare l'audio. La piattaforma è in grado di creare discorsi in diverse lingue, effetti sonori (clacson, abbai di cani, tuoni) e interi paesaggi sonori.

Meta ha integrato in Audiobox i mezzi di controllo sul processo di generazione, in modo da poter regolare il risultato desiderato nel modo più preciso possibile.

Per evitare abusi, gli sviluppatori hanno integrato in Audiobox un sistema di watermarking digitale. Ogni audio generato con la piattaforma viene automaticamente etichettato in modo da poterne rintracciare l'origine.

Secondo gli sviluppatori di Audiobox, la velocità di generazione dell'audio è 25 volte superiore a quella dei precedenti modelli Meta AI. Ciò è reso possibile dall'utilizzo di algoritmi di elaborazione dei dati personalizzati per ogni compito specifico.

Un limite di questa tecnologia rimane la mancanza di dati etichettati di qualità per addestrare il modello AI. Per esempio, affinché Audiobox possa imitare con precisione le diverse razze di cani o l'accento delle persone, ha bisogno di una serie di esempi appropriati. Con l'espansione del database, le capacità della piattaforma non potranno che crescere.

Fonte: Meta

Intelligenza artificiale