Microsoft enthüllt Dipfake- und Stimmenklon-Tools

Von: Bohdan Kaminskyi | 16.11.2023, 16:35

Microsoft

Auf der Ignite-Konferenz kündigte Microsoft einen Dienst an, mit dem fotorealistische Avatare von Personen mit Lippenanimation nach einem vorgegebenen Text erstellt werden können. Außerdem wurde ein Tool zum Klonen von Stimmen anhand von Audio-Samples vorgestellt.

Was bekannt ist

Der neue Azure AI Speech Text-to-Speech-Avatar-Service ermöglicht es, ein Foto einer Person hochzuladen und ein Skript zu verfassen. Auf dieser Grundlage wird dann ein Video eines sprechenden Avatars erstellt.

Die digitalen Doppelgänger können mehrere Sprachen sprechen. In Skripten können sie Modelle künstlicher Intelligenz wie GPT-3.5 von OpenAI verwenden, um Kundenfragen außerhalb von Skripten zu beantworten.

Eine weitere Funktion von Personal Voice kann die Stimme eines Benutzers in Sekundenschnelle nachbilden. Dazu ist eine einminütige Audioaufnahme erforderlich.

Das Unternehmen schlägt vor, Personal Voice zu verwenden, um personalisierte Sprachassistenten zu erstellen, Inhalte in verschiedene Sprachen zu synchronisieren und individuelle Erzählungen für Geschichten, Hörbücher und Podcasts zu erstellen.

Nach Angaben von Microsoft werden beide Tools nur einer begrenzten Anzahl von Nutzern und nur für bestimmte Szenarien zur Verfügung stehen. Außerdem müssen die Kunden ihre ausdrückliche Zustimmung zur Verwendung ihrer Stimme und ihres Bildes geben.

Damit soll der potenzielle Missbrauch der Technologie zur Erstellung von Fälschungen ohne das Wissen der Nutzer eingeschränkt werden. Microsoft sagt, dass es einen verantwortungsvollen Ansatz für die KI-Ethik verfolgt.

Quelle: Microsoft, Microsoft