L'apprentissage automatique prédit les émotions à partir de la voix en 1,5 seconde avec une précision comparable à celle de l'homme
Domingo Alvarez E/Unsplash
Des chercheurs allemands ont mis au point des modèles d'apprentissage automatique capables de reconnaître des émotions dans de courts extraits vocaux d'une durée de 1,5 seconde seulement, avec une précision comparable à celle des humains.
Ce que nous savons
Dans une nouvelle étude publiée dans la revue Frontiers in Psychology, les chercheurs ont comparé trois types de modèles : les réseaux neuronaux profonds (DNN), les réseaux neuronaux convolutifs (CNN) et un modèle hybride (C-DNN).
Les modèles ont été entraînés sur des ensembles de données allemands et canadiens contenant des phrases dépourvues de sens prononcées par des acteurs aux tonalités émotionnelles différentes afin d'exclure l'influence de la langue et du sens sur la reconnaissance.
"Nos modèles ont atteint une précision similaire à celle des humains lorsqu'il s'agit de catégoriser des phrases sans signification avec une coloration émotionnelle prononcées par des acteurs", a déclaré l'auteur principal Hannes Diemerling, de l'Institut Max Planck pour le développement humain.
Les chercheurs ont constaté que les DNN et un C-DNN hybride combinant des données audio et visuelles ont obtenu de meilleurs résultats que les CNN utilisant uniquement des spectrogrammes. Dans l'ensemble, tous les modèles ont obtenu de meilleurs résultats que les suppositions aléatoires en ce qui concerne la précision de la reconnaissance des émotions.
Selon M. Dimerling, le fait que les humains et les modèles d'IA aient obtenu des résultats comparables pourrait signifier qu'ils s'appuient sur des modèles sonores similaires pour détecter le sous-texte émotionnel.
Les chercheurs ont noté que de tels systèmes pourraient trouver des applications dans des domaines nécessitant l'interprétation des émotions, tels que la thérapie ou la technologie de la communication. Toutefois, des recherches supplémentaires sont nécessaires pour déterminer la durée optimale des clips audio et analyser les expressions émotionnelles spontanées.
Source : TechXplore TechXplore