Meta presenterer et datasett som gjør det mulig å trene talegjenkjenningssystemer på "klynger" av talere.

Av: Bohdan Kaminskyi | 14.07.2023, 22:03
Meta presenterer et datasett som gjør det mulig å trene talegjenkjenningssystemer på "klynger" av talere.

Meta AI har presentert et nytt datasett som lover å øke effektiviteten til verktøy for automatisk talegjenkjenning (ASR) ved å gruppere talere.

Det som er kjent

Mange datasett som brukes til å trene ASR-modeller, er organisert etter demografi: aldersgruppe, kjønn, nasjonalitet og engelsk aksent. Dette begrenser utvalget av uttaler som algoritmene trenes på, og hindrer dem i å forstå et bredt spekter av brukere.

For å omgå dette problemet har Meta AI utviklet et datasett som baserer seg på en metode for gruppering av ytringer. Hver klynge inneholder et lignende sett med fraser fra forskjellige talere. Dette betyr at ASR-modellen lærer seg å gjenkjenne den samme ytringen fra ulike personer.

Det endelige Meta-datasettet inneholder drøyt 27 000 teamytringer fra 595 frivillige i USA. Setningene fokuserer på syv hovedtemaer: musikk, fotografering, verktøy, håndtering av varsler, meldinger, samtaler og diktering.

Som ledetekster ble talerne stilt spørsmål om hvordan de ville gjort et stemmesøk etter en sang eller lagt planer med venner.

Resultatene av testingen av datasettet var lovende: Modellens ytelse ble forbedret "på tvers av alle demografier [...], selv om de største gevinstene ble oppnådd gjennom økt bruk av aksenter ", står det i blogginnlegget.

Totalt sett økte ytelsen til ASR med 10 % ved bruk av klyngemetoden. Samtidig ble det også oppnådd en betydelig økning i aldersgruppen 66-85 år, som tradisjonelt har vært underrepresentert på stemmestyringsområdet.

Kilde: Meta AI: Meta AI.