Amazon har skapt den største tekst-til-tale-modellen til nå

Av: Bohdan Kaminskyi | 20.02.2024, 18:50
Amazon har skapt den største tekst-til-tale-modellen til nå
Christian Wiediger/Unsplash

Amazons forskningsgruppe for kunstig intelligens har kunngjort at de har utviklet den hittil største tekst-til-tale-modellen. "Størst" refererer til antall parametere og mengden data som brukes til trening.

Dette er hva vi vet

Den presenterte modellen, kalt BASE TTS, inneholder 980 millioner parametere. Den ble trent på 100 000 timer med lydopptak av tale fra offentlige ressurser, hovedsakelig på engelsk.

Systemet ble også vist eksempler på talte fraser på andre språk, slik at det kunne uttale vanlige uttrykk korrekt.

Under testing på små datamengder identifiserte Amazon-teamet et "hopp" i talesyntesekvaliteten da den nådde 150 millioner parametere. Samtidig begynte modellen å demonstrere en rekke nye språkfunksjoner.

Eksperter påpeker at BASE TTS vil være offentlig tilgjengelig for å unngå uetisk bruk. I stedet vil den fungere som en treningsbase for å forbedre eksisterende løsninger på dette området.

Kilde: TechXplore TechXplore