Meta presenta un conjunto de datos que permitirá entrenar sistemas de reconocimiento del habla en "clusters" de hablantes
Meta AI ha presentado un nuevo conjunto de datos que promete aumentar la eficacia de las herramientas de reconocimiento automático del habla (ASR) mediante la agrupación de hablantes.
Lo que se sabe
Muchos conjuntos de datos utilizados para entrenar modelos ASR están organizados por datos demográficos: grupo de edad, sexo, nacionalidad y acento inglés. Esto limita la variedad de pronunciaciones con las que se entrenan los algoritmos y les impide comprender a una amplia gama de usuarios.
Para evitar este problema, Meta AI ha desarrollado un conjunto de datos que se basa en un método de agrupación de enunciados. Cada grupo contiene un conjunto similar de frases de distintos hablantes. Esto significa que el modelo ASR aprenderá a reconocer la misma frase pronunciada por distintas personas.
El conjunto de datos final de Meta incluye algo más de 27.000 frases de 595 voluntarios de Estados Unidos. Sus frases se centran en siete temas principales: música, disparos, utilidades, gestión de notificaciones, mensajería, llamadas y dictados.
Como indicaciones, se hicieron preguntas a los hablantes sobre cómo buscarían por voz una canción o harían planes con sus amigos.
Los resultados de las pruebas con el conjunto de datos fueron prometedores: el rendimiento del modelo mejoró "en todos los grupos demográficos [...], aunque los mayores avances se lograron con un mayor uso de los acentos ", dice la entrada del blog.
En general, el rendimiento de ASR al utilizar el método de agrupación aumentó un 10%. Al mismo tiempo, también se obtuvo un aumento significativo en el grupo de 66 a 85 años, tradicionalmente infrarrepresentado en el espacio de los comandos de voz.
Fuente: Meta AI.