Amazon heeft het grootste tekst-naar-spraak model tot nu toe gemaakt
Christian Wiediger/Unsplash
Amazon's onderzoeksgroep voor kunstmatige intelligentie heeft de ontwikkeling aangekondigd van het grootste tekst-naar-spraak model tot nu toe. Het "grootste" verwijst naar het aantal parameters en de hoeveelheid gegevens die zijn gebruikt voor de training.
Dit is wat we weten
Het gepresenteerde model, BASE TTS genaamd, bevat 980 miljoen parameters. Het werd getraind op 100.000 uur aan audio-opnames van spraak uit openbare bronnen, voornamelijk in het Engels.
Het systeem kreeg ook voorbeelden te zien van gesproken zinnen in andere talen, zodat het veelvoorkomende uitdrukkingen correct kon uitspreken.
Tijdens het testen op kleine data, identificeerde het Amazon team een "sprong" in spraaksynthese kwaliteit bij het bereiken van 150 miljoen parameters. Tegelijkertijd begon het model een aantal nieuwe taalvaardigheden te demonstreren.
Experts merken op dat BASE TTS in het publieke domein zal verschijnen om onethisch gebruik te voorkomen. In plaats daarvan zal het dienen als een trainingsbasis voor het verbeteren van bestaande oplossingen op dit gebied.
Bron: TechXplore