Meta hat Audiobox eingeführt - KI für Spracherzeugung und Soundeffekte

Von Bohdan Kaminskyi | 12.12.2023, 13:05

Was bekannt ist

Audiobox basiert auf einer früheren Entwicklung von Meta, Voicebox. Laut den Entwicklern übertrifft die Neuheit jedoch ihren Vorgänger in Sachen Klangqualität und Funktionalität.

Ab heute können Sie unser neues Grundlagenforschungsmodell für die Audiogenerierung ausprobieren. Die Demo beinhaltet Zero shot TTS, Text to sound effects, Infilling und mehr!

Try Audiobox ➡️ https://t.co/8OPcJYy8a9 pic.twitter.com/lo9rCOZMAh
- AI at Meta (@AIatMeta) December 11, 2023

Audiobox zeichnet sich vor allem dadurch aus, dass es Audio nicht nur erzeugen, sondern auch bearbeiten kann. Die Plattform kann Sprache in verschiedenen Sprachen, Soundeffekte (Autohupen, Hundebellen, Donnerschläge) und ganze Klanglandschaften erzeugen.

Meta hat in Audiobox die Möglichkeit eingebaut, den Erzeugungsprozess zu kontrollieren, so dass das gewünschte Ergebnis so genau wie möglich eingestellt werden kann.

Um Missbrauch zu verhindern, haben die Entwickler ein digitales Wasserzeichensystem in Audiobox integriert. Jedes mit der Plattform erzeugte Audio wird automatisch gekennzeichnet, so dass seine Herkunft nachvollzogen werden kann.

Nach Angaben der Audiobox-Entwickler ist die Geschwindigkeit der Audiogenerierung 25 Mal höher als bei früheren Meta-KI-Modellen. Ermöglicht wird dies durch die Verwendung personalisierter Datenverarbeitungsalgorithmen für jede spezifische Aufgabe.

Eine Einschränkung der Technologie besteht bisher darin, dass es an qualitativ hochwertigen gelabelten Daten fehlt, um das KI-Modell zu trainieren. Damit Audiobox zum Beispiel verschiedene Hunderassen oder den Akzent von Menschen genau nachahmen kann, braucht es einen geeigneten Satz von Beispielen. Mit der Vergrößerung der Datenbank werden die Möglichkeiten der Plattform weiter wachsen.

Quelle: Meta

Künstliche Intelligenz

Fügen Sie Gagadget zu Ihrem Google News-Feed hinzu