Machine learning voorspelt emotie uit stem in 1,5 seconden met menselijke nauwkeurigheid
Domingo Alvarez E/Unsplash
Onderzoekers uit Duitsland hebben machine-leermodellen ontwikkeld die emoties kunnen herkennen in korte stemfragmenten van slechts 1,5 seconden met een nauwkeurigheid die vergelijkbaar is met die van mensen.
Dit is wat we weten
In een nieuwe studie, gepubliceerd in het tijdschrift Frontiers in Psychology, vergeleken onderzoekers drie soorten modellen: diepe neurale netwerken (DNN's), convolutionele neurale netwerken (CNN's) en een hybride model (C-DNN).
De modellen werden getraind op Duitse en Canadese datasets met betekenisloze zinnen gesproken door acteurs met verschillende emotionele tonen om de invloed van taal en betekenis op de herkenning uit te sluiten.
"Onze modellen bereikten een nauwkeurigheid die vergelijkbaar is met die van mensen bij het categoriseren van betekenisloze zinnen met emotionele kleuren gesproken door acteurs", aldus hoofdauteur Hannes Diemerling van het Max Planck Institute for Human Development.
De onderzoekers ontdekten dat DNN's en een hybride C-DNN die audio en visuele gegevens combineert, beter presteerden dan CNN's die alleen spectrogrammen gebruikten. In het algemeen presteerden alle modellen beter dan willekeurige gissingen in de nauwkeurigheid van emotieherkenning.
Dimerling zei dat het feit dat mensen en AI-modellen vergelijkbaar presteerden zou kunnen betekenen dat ze vertrouwen op vergelijkbare patronen in geluid om emotionele subtekst te detecteren.
Onderzoekers merkten op dat dergelijke systemen toepassingen zouden kunnen vinden op gebieden die emotie-interpretatie vereisen, zoals therapie of communicatietechnologie. Er is echter verder onderzoek nodig naar de optimale duur van audioclips en het analyseren van spontane emotionele expressies.
Bron: TechXplore