Maskinlæring forutser følelser fra stemmen på 1,5 sekunder med menneskelignende nøyaktighet
Domingo Alvarez E/Unsplash
Forskere fra Tyskland har utviklet maskinlæringsmodeller som kan gjenkjenne følelser i korte talesnutter på bare 1,5 sekunder med samme nøyaktighet som mennesker.
Dette vet vi nå
I en ny studie publisert i tidsskriftet Frontiers in Psychology har forskerne sammenlignet tre typer modeller: dype nevrale nettverk (DNN), konvolusjonelle nevrale nettverk (CNN) og en hybridmodell (C-DNN).
Modellene ble trent på tyske og kanadiske datasett med meningsløse setninger uttalt av skuespillere med ulike emosjonelle toner for å utelukke at språk og mening påvirker gjenkjennelsen.
"Modellene våre oppnådde en nøyaktighet som ligner på menneskers når de kategoriserte meningsløse setninger med emosjonell farge uttalt av skuespillere", sier hovedforfatter Hannes Diemerling ved Max Planck Institute for Human Development.
Forskerne fant ut at DNN og en hybrid C-DNN som kombinerer lyd- og visuelle data, presterte bedre enn CNN som bare bruker spektrogrammer. Totalt sett presterte alle modellene bedre enn tilfeldige gjetninger når det gjaldt nøyaktighet i følelsesgjenkjenning.
Dimerling sier at det faktum at mennesker og AI-modeller presterte sammenlignbart, kan bety at de er avhengige av lignende mønstre i lyd for å oppdage emosjonell undertekst.
Forskerne påpekte at slike systemer kan finne anvendelse på områder som krever tolkning av følelser, for eksempel terapi eller kommunikasjonsteknologi. Det er imidlertid behov for ytterligere forskning på optimal varighet av lydklipp og analyse av spontane følelsesuttrykk.
Kilde: TechXplore TechXplore