Meta présente un ensemble de données qui permettra d'entraîner les systèmes de reconnaissance vocale sur des "grappes" de locuteurs.

Par: Bohdan Kaminskyi | 14.07.2023, 21:03
Meta présente un ensemble de données qui permettra d'entraîner les systèmes de reconnaissance vocale sur des "grappes" de locuteurs.

Meta AI a présenté un nouvel ensemble de données qui promet d'accroître l'efficacité des outils de reconnaissance automatique de la parole (ASR) en regroupant les locuteurs.

Ce que l'on sait

De nombreux ensembles de données utilisés pour former des modèles de reconnaissance vocale automatique sont organisés en fonction de critères démographiques : groupe d'âge, sexe, nationalité et accent anglais. Cela limite la variété des prononciations sur lesquelles les algorithmes sont entraînés et les empêche de comprendre un large éventail d'utilisateurs.

Pour contourner ce problème, Meta AI a développé un ensemble de données qui repose sur une méthode de regroupement des énoncés. Chaque groupe contient un ensemble similaire de phrases provenant de différents locuteurs. Cela signifie que le modèle ASR apprendra à reconnaître la même phrase prononcée par différentes personnes.

L'ensemble de données Meta final comprend un peu plus de 27 000 énoncés d'équipe recueillis auprès de 595 volontaires aux États-Unis. Leurs phrases portent sur sept sujets principaux : la musique, la prise de vue, les utilitaires, la gestion des notifications, la messagerie, les appels et la dictée.

Les locuteurs ont été invités à répondre à des questions sur la manière dont ils rechercheraient vocalement une chanson ou organiseraient des réunions avec des amis.

Les résultats des tests effectués sur l'ensemble des données sont prometteurs : les performances du modèle se sont améliorées "dans toutes les catégories démographiques [...], bien que les gains les plus importants aient été obtenus grâce à l'utilisation accrue des accents ", peut-on lire dans le billet de blog.

Dans l'ensemble, les performances du modèle ASR utilisant la méthode de regroupement ont augmenté de 10 %. Dans le même temps, une augmentation significative a également été obtenue dans le groupe des 66-85 ans, traditionnellement sous-représenté dans l'espace de commande vocale.

Source : Meta AI : Meta AI.