Vall-E, Microsofts neues KI-Modell, das jede menschliche Stimme auf der Grundlage eines 3-Sekunden-Originals nachahmt

Von Elena Shcherban | 10.01.2023, 23:47
Vall-E, Microsofts neues KI-Modell, das jede menschliche Stimme auf der Grundlage eines 3-Sekunden-Originals nachahmt

Microsoft hat ein neues Modell künstlicher Intelligenz namens Vall-E vorgestellt. Es basiert auf der EnCodec-Technologie, die Meta im Oktober 2022 angekündigt hat.

Einzelheiten

Microsoft nennt VALL-E ein "neuronales Codec-Sprachmodell". Diese künstliche Intelligenz ist in der Lage, jede menschliche Stimme zu imitieren, und sie muss sich dazu nur 3 Sekunden der Originalstimme anhören. Die KI zerlegt die Informationen in Komponenten und synthetisiert Variationen des Klangs in verschiedenen Sätzen, wodurch sie die Klangfarbe und den emotionalen Ton des Sprechers genau wiedergeben kann.

Um Vall-E zu trainieren, verwendete Microsoft Aufnahmen von 60.000 Stunden an Gesprächen, die von mehr als 7.000 realen Personen aufgenommen wurden. Hauptsächlich wurden dabei Hörbücher aus der LibriVox-Bibliothek verwendet.

Beispiele von Vall-E simulierten Stimmen können auf GitHub angehört werden.

Microsoft sagt, dass Vall-E als Text-zu-Stimme-Tool, als Möglichkeit zur Bearbeitung von Sprache und als Audioerstellungssystem verwendet werden könnte, indem es mit anderen generativen KI-Systemen verbunden wird.

Quelle: Vall-E