Amazon ha creado el mayor modelo de conversión de texto a voz hasta la fecha
Christian Wiediger/Unsplash
El grupo de investigación en inteligencia artificial de Amazon ha anunciado el desarrollo del mayor modelo de conversión de texto en voz hasta la fecha. El "mayor" se refiere al número de parámetros y a la cantidad de datos utilizados para el entrenamiento.
Esto es lo que sabemos
El modelo presentado, llamado BASE TTS, contiene 980 millones de parámetros. Se entrenó con 100.000 horas de grabaciones de audio de habla procedentes de recursos públicos, la mayoría en inglés.
También se mostraron al sistema ejemplos de frases habladas en otros idiomas para que pudiera pronunciar correctamente expresiones comunes.
Durante las pruebas con datos pequeños, el equipo de Amazon identificó un "salto" en la calidad de la síntesis del habla cuando alcanzó los 150 millones de parámetros. Al mismo tiempo, el modelo empezó a demostrar una serie de nuevas capacidades lingüísticas.
Los expertos señalan que BASE TTS aparecerá en el dominio público para evitar usos poco éticos. En su lugar, servirá de base de entrenamiento para mejorar las soluciones existentes en este campo.
Fuente: TechXplore