Meta heeft een generatief AI-model ontwikkeld voor tekst-naar-spraak
Meta heeft een generatief model voor het omzetten van tekst naar spraak geïntroduceerd met de naam Voicebox. Volgens de ontwikkelaars zal het algoritme voor spraak doen wat ChatGPT en DALL-E deden voor tekst en afbeeldingen.
Wat we weten
Net als generatieve systemen voor tekst en afbeeldingen kan Voicebox uitvoer vanaf nul creëren, stijlen converteren en het aangeleverde voorbeeld aanpassen. Het systeem is getraind op 50.000 uur opgenomen spraak en audiodomein audioboektranscripties in het Engels, Frans, Spaans, Duits, Pools en Portugees.
Hierdoor kan Voicebox clips bewerken, ruis verwijderen en verkeerd uitgesproken woorden vervangen.
"Een persoon kan identificeren welk ruw spraaksegment beschadigd is door ruis (zoals het blaffen van een hond), het afkappen en het model de opdracht geven om dat segment te regenereren," aldus de onderzoekers.
Voicebox kan ook spraak reproduceren van een fragment van twee seconden, taaloverstijgende stijl overbrengen en een verscheidenheid aan samples creëren voor synthetische datasets.
Wanneer te verwachten
Meta heeft de broncode van het model niet gepubliceerd. De ontwikkelaars noemden "potentiële risico's van misbruik" ondanks de "vele interessante toepassingen van generatieve taalmodellen".
Bron: Meta.