L'apprendimento automatico prevede le emozioni dalla voce in 1,5 secondi con una precisione simile a quella umana
Domingo Alvarez E/Unsplash
Ricercatori tedeschi hanno sviluppato modelli di apprendimento automatico in grado di riconoscere le emozioni in brevi frammenti di voce della durata di appena 1,5 secondi con una precisione paragonabile a quella degli esseri umani.
Ecco cosa sappiamo
In un nuovo studio pubblicato sulla rivista Frontiers in Psychology, i ricercatori hanno confrontato tre tipi di modelli: reti neurali profonde (DNN), reti neurali convoluzionali (CNN) e un modello ibrido (C-DNN).
I modelli sono stati addestrati su set di dati tedeschi e canadesi con frasi senza senso pronunciate da attori con toni emotivi diversi, per escludere l'influenza del linguaggio e del significato sul riconoscimento.
"I nostri modelli hanno raggiunto un'accuratezza simile a quella degli esseri umani nella categorizzazione di frasi senza senso con toni emotivi pronunciate da attori", ha dichiarato l'autore principale Hannes Diemerling del Max Planck Institute for Human Development.
I ricercatori hanno scoperto che le DNN e una C-DNN ibrida che combina dati audio e visivi hanno ottenuto risultati migliori rispetto alle CNN che utilizzano solo gli spettrogrammi. Nel complesso, tutti i modelli hanno superato le ipotesi casuali nell'accuratezza del riconoscimento delle emozioni.
Secondo Dimerling, il fatto che gli esseri umani e i modelli di intelligenza artificiale abbiano ottenuto risultati simili potrebbe significare che si basano su modelli simili nel suono per rilevare il sottotesto emotivo.
I ricercatori hanno osservato che tali sistemi potrebbero trovare applicazione in campi che richiedono l'interpretazione delle emozioni, come la terapia o la tecnologia della comunicazione. Tuttavia, sono necessarie ulteriori ricerche sulla durata ottimale delle clip audio e sull'analisi delle espressioni emotive spontanee.
Fonte: TechXplore