Meta presenta un dataset che consentirà di addestrare i sistemi di riconoscimento vocale su "cluster" di parlanti
Meta AI ha presentato un nuovo set di dati che promette di aumentare l'efficienza degli strumenti di riconoscimento automatico del parlato (ASR) raggruppando i parlanti.
Cosa si sa
Molti dataset utilizzati per addestrare i modelli ASR sono organizzati in base a criteri demografici: fascia d'età, sesso, nazionalità e accento inglese. Questo limita la varietà di pronunce su cui gli algoritmi vengono addestrati e impedisce loro di comprendere un'ampia gamma di utenti.
Per ovviare a questo problema, Meta AI ha sviluppato un set di dati che si basa su un metodo di raggruppamento degli enunciati. Ogni cluster contiene un insieme di frasi simili provenienti da parlanti diversi. Ciò significa che il modello ASR imparerà a riconoscere lo stesso enunciato pronunciato da persone diverse.
Il set di dati finale Meta comprende poco più di 27.000 enunciati di gruppo raccolti da 595 volontari negli Stati Uniti. Le loro frasi coprono sette argomenti principali: musica, riprese, utilità, gestione delle notifiche, messaggistica, chiamate e dettatura.
Come prompt, agli oratori sono state poste domande su come avrebbero cercato a voce una canzone o fatto programmi con gli amici.
I risultati dei test sul set di dati sono stati promettenti: le prestazioni del modello sono migliorate "in tutte le fasce demografiche [...], anche se i guadagni maggiori sono stati ottenuti grazie a un maggiore uso degli accenti ", si legge nel blog.
Complessivamente, le prestazioni dell'ASR quando si utilizza il metodo di clustering sono aumentate del 10%. Allo stesso tempo, è stato ottenuto un aumento significativo anche nella fascia di età compresa tra i 66 e gli 85 anni, tradizionalmente sottorappresentata nello spazio dei comandi vocali.
Fonte: Meta AI.