El aprendizaje automático predice emociones a partir de la voz en 1,5 segundos con una precisión similar a la humana
Domingo Álvarez E/Unsplash
Investigadores alemanes han desarrollado modelos de aprendizaje automático capaces de reconocer emociones en breves fragmentos de voz de apenas 1,5 segundos con una precisión comparable a la humana.
Esto es lo que sabemos
En un nuevo estudio publicado en la revista Frontiers in Psychology, los investigadores compararon tres tipos de modelos: redes neuronales profundas (DNN), redes neuronales convolucionales (CNN) y un modelo híbrido (C-DNN).
Los modelos se entrenaron en conjuntos de datos alemanes y canadienses con frases sin sentido pronunciadas por actores con diferentes tonos emocionales para descartar la influencia del lenguaje y el significado en el reconocimiento.
"Nuestros modelos lograron una precisión similar a la de los humanos a la hora de clasificar frases sin sentido con tonos emocionales pronunciadas por actores", afirmó el autor principal, Hannes Diemerling, del Instituto Max Planck para el Desarrollo Humano.
Los investigadores descubrieron que las DNN y una C-DNN híbrida que combinaba datos sonoros y visuales obtenían mejores resultados que las CNN que sólo utilizaban espectrogramas. En general, todos los modelos superaron a las suposiciones aleatorias en precisión de reconocimiento de emociones.
Según Dimerling, el hecho de que los humanos y los modelos de IA obtuvieran resultados comparables podría significar que se basan en patrones similares del sonido para detectar el subtexto emocional.
Los investigadores señalaron que estos sistemas podrían encontrar aplicaciones en campos que requieren la interpretación de las emociones, como la terapia o la tecnología de la comunicación. Sin embargo, es necesario seguir investigando sobre la duración óptima de los clips de audio y el análisis de las expresiones emocionales espontáneas.
Fuente: TechXplore