Amazon hat das bisher größte Text-to-Speech-Modell entwickelt

Von: Bohdan Kaminskyi | 20.02.2024, 18:46

Christian Wiediger/Unsplash

Amazons Forschungsgruppe für künstliche Intelligenz hat die Entwicklung des bisher größten Text-to-Speech-Modells angekündigt. Das "größte" bezieht sich auf die Anzahl der Parameter und die Menge der für das Training verwendeten Daten.

Was bekannt ist

Das vorgestellte Modell, BASE TTS genannt, enthält 980 Millionen Parameter. Es wurde mit 100.000 Stunden Audioaufnahmen von Sprache aus öffentlichen Quellen trainiert, hauptsächlich in englischer Sprache.

Dem System wurden auch Beispiele für gesprochene Sätze in anderen Sprachen gezeigt, damit es gängige Ausdrücke korrekt aussprechen kann.

Während der Tests mit kleinen Datenmengen stellte das Amazon-Team einen "Sprung" in der Sprachsynthesequalität fest, als es 150 Millionen Parameter erreichte. Gleichzeitig begann das Modell, eine Reihe von neuen Sprachfähigkeiten zu demonstrieren.

Experten weisen darauf hin, dass BASE TTS in der öffentlichen Domäne erscheinen wird, um eine unethische Nutzung zu vermeiden. Stattdessen wird es als Trainingsbasis für die Verbesserung bestehender Lösungen in diesem Bereich dienen.

Quelle: TechXplore