Meta hat ein generatives KI-Modell für Text-to-Speech entwickelt

Von: Bohdan Kaminskyi | 16.06.2023, 18:53

Meta hat ein generatives Modell für die Umwandlung von Text in Sprache namens Voicebox vorgestellt. Den Entwicklern zufolge wird der Algorithmus für Sprache das tun, was ChatGPT und DALL-E für Text und Bilder getan haben.

Was wir wissen

Ähnlich wie generative Systeme für Text und Bilder kann Voicebox die Ausgabe von Grund auf neu erstellen, Stile konvertieren und das bereitgestellte Beispiel ändern. Das System wurde anhand von 50.000 Stunden aufgezeichneter Sprache und öffentlich zugänglicher Hörbuchtranskripte in Englisch, Französisch, Spanisch, Deutsch, Polnisch und Portugiesisch trainiert.

Dadurch ist Voicebox in der Lage, Clips zu bearbeiten, Rauschen zu entfernen und falsch ausgesprochene Wörter zu ersetzen.

"A person could identify which raw segment of the speech is corrupted by noise (like a dog barking), crop it, and instruct the model to regenerate that segment"

Voicebox kann auch Sprache aus einem zwei Sekunden langen Ausschnitt reproduzieren, sprachübergreifende Stile übertragen und eine Vielzahl von Samples für synthetische Datensätze erstellen.

Wann zu erwarten ist

Meta hat den Quellcode des Modells nicht veröffentlicht. Die Entwickler verwiesen auf "the potential risks of misuse" trotz der "many exciting use cases for generative speech models".

Quelle: Meta.