Amazon a créé le plus grand modèle de synthèse vocale à ce jour

Par: Bohdan Kaminskyi | 20.02.2024, 17:46

Christian Wiediger/Unsplash

Le groupe de recherche en intelligence artificielle d'Amazon a annoncé le développement du plus grand modèle de synthèse vocale à ce jour. Le terme "plus grand" fait référence au nombre de paramètres et à la quantité de données utilisées pour l'entraînement.

Ce que nous savons

Le modèle présenté, appelé BASE TTS, contient 980 millions de paramètres. Il a été entraîné sur 100 000 heures d'enregistrements audio de discours provenant de ressources publiques, principalement en anglais.

Des exemples de phrases parlées dans d'autres langues ont également été montrés au système afin qu'il puisse prononcer correctement des expressions courantes.

Lors des tests effectués sur de petites données, l'équipe d'Amazon a constaté un "saut" dans la qualité de la synthèse vocale lorsqu'elle a atteint 150 millions de paramètres. Dans le même temps, le modèle a commencé à démontrer un certain nombre de nouvelles capacités linguistiques.

Les experts notent que BASE TTS apparaîtra dans le domaine public afin d'éviter toute utilisation contraire à l'éthique. Il servira plutôt de base de formation pour améliorer les solutions existantes dans ce domaine.

Source : TechXplore TechXplore