OpenAI kündigt neue Technologie zum Klonen von Stimmen aus 15-Sekunden-Audio an

Von: Nastya Bobkova | 30.03.2024, 04:47

OpenAI hat ein neues innovatives Tool namens Voice Engine vorgestellt, das die Stimme einer beliebigen Person aus einem 15-sekündigen Audiobeispiel klonen kann.

Was bekannt ist

Voice Engine analysiert ein kurzes Audiosignal und erzeugt natürlich klingende Sprache mit "emotionalen und realistischen Stimmen". Diese innovative Technologie, die auf der bestehenden Sprachsynthese-API von OpenAI basiert, kann für eine Vielzahl von Zwecken nützlich sein: Hörbücher, Sprachübersetzung und Hilfe für Menschen mit Sprachstörungen.

OpenAI ist sich der ernsthaften Risiken bewusst, die mit der Nutzung dieser Technologie verbunden sind, einschließlich der Möglichkeit des Missbrauchs durch skrupellose Personen. Daher arbeitet das Unternehmen aktiv daran, den Datenschutz und die Sicherheit zu gewährleisten und führt eine Reihe von Maßnahmen ein, wie z. B. Wasserzeichen und eine proaktive Überwachung der Systemnutzung.

Der Ankündigung zufolge befindet sich Voice Engine noch in der Vorschauphase, aber das Unternehmen hat bereits erfolgreiche Pilotprogramme durchgeführt, die das Potenzial von Voice Engine zeigen. Die Vorschau wurde an der Brown University durchgeführt, wo die Funktion zur Unterstützung von Patienten mit Sprachstörungen eingesetzt wurde.

Nach Angaben von OpenAI wird die Voice Engine unter Berücksichtigung des Feedbacks von Partnern und unter Einhaltung einer Richtlinie, die die Verwendung geklonter Stimmen ohne die Zustimmung des Betroffenen verbietet, implementiert. Außerdem ist geplant, eine "Liste der verbotenen Stimmen" zu erstellen, um Missbrauch zu vermeiden.

Wie viel kostet es?

Die geschätzten Kosten für die Nutzung von Voice Engine belaufen sich auf etwa 15 US-Dollar pro Million Zeichen, was etwa 162.500 Wörtern entspricht.

Quelle: Engadget