Meta stellt einen Datensatz vor, mit dem Spracherkennungssysteme auf "Clustern" von Sprechern trainiert werden können
Meta AI hat einen neuen Datensatz vorgestellt, der verspricht, die Effizienz von automatischen Spracherkennungsprogrammen (ASR) durch Clustering von Sprechern zu erhöhen.
Was wir wissen
Viele Datensätze, die zum Trainieren von ASR-Modellen verwendet werden, sind nach demografischen Kriterien geordnet: Altersgruppe, Geschlecht, Nationalität und englischer Akzent. Dies schränkt die Vielfalt der Aussprachen ein, auf denen die Algorithmen trainiert werden, und hindert sie daran, ein breites Spektrum von Benutzern zu verstehen.
Um dieses Problem zu umgehen, hat Meta AI einen Datensatz entwickelt, der auf einer Methode zum Clustern von Äußerungen beruht. Jeder Cluster enthält einen ähnlichen Satz von Phrasen von verschiedenen Sprechern. Das bedeutet, dass das ASR-Modell lernt, dieselbe Äußerung zu erkennen, die von verschiedenen Personen gesprochen wird.
Der endgültige Meta-Datensatz umfasst etwas mehr als 27.000 Team-Äußerungen, die von 595 Freiwilligen in den Vereinigten Staaten gesammelt wurden. Die Phrasen beziehen sich auf sieben Hauptthemen: Musik, Schießen, Dienstprogramme, Verwaltung von Benachrichtigungen, Nachrichten, Anrufe und Diktate.
Als Aufforderungen wurden den Sprechern Fragen gestellt, wie sie per Sprachsuche nach einem Lied suchen oder sich mit Freunden verabreden würden.
Die Ergebnisse der Tests mit dem Datensatz waren vielversprechend: Die Leistung des Modells verbesserte sich "on all demographic groups [...], though by far the largest gains are with respect to more inclusivity of accents" ", heißt es im Blogbeitrag.
Insgesamt stieg die Leistung von ASR bei Verwendung der Clustering-Methode um 10 %. Gleichzeitig wurde auch in der Gruppe der 66- bis 85-Jährigen, die in der Sprachsteuerung traditionell unterrepräsentiert ist, eine signifikante Steigerung erzielt.
Quelle: Meta AI.