Maschinelles Lernen sagt Emotionen anhand der Stimme in 1,5 Sekunden mit menschenähnlicher Genauigkeit voraus
Domingo Alvarez E/Unsplash
Forscher aus Deutschland haben maschinelle Lernmodelle entwickelt, die Emotionen in kurzen Sprachfetzen von nur 1,5 Sekunden Dauer mit einer Genauigkeit erkennen können, die mit der von Menschen vergleichbar ist.
Was bekannt ist
In einer neuen Studie, die in der Fachzeitschrift Frontiers in Psychology veröffentlicht wurde, verglichen die Forscher drei Arten von Modellen: tiefe neuronale Netze (DNNs), faltige neuronale Netze (CNNs) und ein Hybridmodell (C-DNN).
Die Modelle wurden auf deutschen und kanadischen Datensätzen mit bedeutungslosen Sätzen trainiert, die von Schauspielern mit unterschiedlichen emotionalen Tönen gesprochen wurden, um den Einfluss von Sprache und Bedeutung auf die Erkennung auszuschließen.
"Unsere Modelle erreichten bei der Kategorisierung von bedeutungslosen Sätzen mit emotionaler Färbung, die von Schauspielern gesprochen wurden, eine ähnliche Genauigkeit wie Menschen", sagte der Hauptautor Hannes Diemerling vom Max-Planck-Institut für Bildungsforschung.
Die Forscher fanden heraus, dass DNNs und ein hybrides C-DNN, das Audio- und visuelle Daten kombiniert, besser abschneiden als CNNs, die nur Spektrogramme verwenden. Insgesamt übertrafen alle Modelle bei der Erkennung von Emotionen die Ergebnisse zufälliger Schätzungen.
Dimerling sagte, dass die Tatsache, dass Menschen und KI-Modelle vergleichbare Leistungen erbrachten, bedeuten könnte, dass sie sich auf ähnliche Muster im Ton verlassen, um emotionalen Subtext zu erkennen.
Die Forscher merkten an, dass solche Systeme in Bereichen eingesetzt werden könnten, in denen die Interpretation von Emotionen erforderlich ist, z. B. in der Therapie oder in der Kommunikationstechnologie. Allerdings sind weitere Forschungen über die optimale Dauer von Audioclips und die Analyse spontaner emotionaler Ausdrücke erforderlich.
Quelle: TechXplore