Amazon ha creato il più grande modello di text-to-speech finora realizzato
Christian Wiediger/Unsplash
Il gruppo di ricerca sull'intelligenza artificiale di Amazon ha annunciato lo sviluppo del più grande modello di sintesi vocale finora realizzato. Il termine "più grande" si riferisce al numero di parametri e alla quantità di dati utilizzati per l'addestramento.
Ecco cosa sappiamo
Il modello presentato, chiamato BASE TTS, contiene 980 milioni di parametri. È stato addestrato su 100.000 ore di registrazioni audio di parlato provenienti da risorse pubbliche, per lo più in inglese.
Al sistema sono stati mostrati anche esempi di frasi parlate in altre lingue, in modo che potesse pronunciare correttamente espressioni comuni.
Durante i test su piccoli dati, il team di Amazon ha individuato un "salto" nella qualità della sintesi vocale quando ha raggiunto i 150 milioni di parametri. Allo stesso tempo, il modello ha iniziato a dimostrare una serie di nuove capacità linguistiche.
Gli esperti fanno notare che BASE TTS non sarà di dominio pubblico per evitare usi non etici. Servirà invece come base di addestramento per migliorare le soluzioni esistenti in questo settore.
Fonte: TechXplore