Meta presenteert een dataset waarmee spraakherkenningssystemen kunnen worden getraind op "clusters" van sprekers
Meta AI heeft een nieuwe dataset gepresenteerd die belooft de efficiëntie van automatische spraakherkenningstools (ASR) te verhogen door sprekers te clusteren.
Wat is bekend
Veel datasets die worden gebruikt om ASR-modellen te trainen, zijn georganiseerd op basis van demografie: leeftijdsgroep, geslacht, nationaliteit en Engels accent. Dit beperkt de verscheidenheid aan uitspraken waarop algoritmes worden getraind en zorgt ervoor dat ze een breed scala aan gebruikers niet kunnen begrijpen.
Om dit probleem te omzeilen heeft Meta AI een dataset ontwikkeld die gebaseerd is op een methode om uitingen te clusteren. Elk cluster bevat een vergelijkbare set zinnen van verschillende sprekers. Dit betekent dat het ASR-model dezelfde uitspraak van verschillende mensen leert herkennen.
De uiteindelijke Meta dataset bevat iets meer dan 27.000 teamuitingen van 595 vrijwilligers in de Verenigde Staten. Hun uitspraken richten zich op zeven hoofdonderwerpen: muziek, fotograferen, hulpprogramma's, meldingen beheren, berichten, bellen en dicteren.
Als prompts kregen de sprekers vragen over hoe ze met hun stem naar een liedje zouden zoeken of plannen zouden maken met vrienden.
De resultaten van het testen van de dataset waren veelbelovend: de prestaties van het model verbeterden "in alle demografische groepen [...], hoewel de grootste winst werd behaald door het toegenomen gebruik van accenten ", aldus het blogbericht.
In het algemeen verbeterden de prestaties van ASR bij gebruik van de clustermethode met 10%. Tegelijkertijd werd ook een significante verbetering behaald in de groep 66-85-jarigen, die traditioneel ondervertegenwoordigd zijn in de spraakbesturing.
Bron: Meta AI.