Meta hat Audiobox eingeführt - KI für Spracherzeugung und Soundeffekte
Meta
Meta hat eine neue KI-Plattform namens Audiobox angekündigt, mit der Sie über Sprachbefehle personalisierte Stimmen und Soundeffekte erstellen können.
Was bekannt ist
Audiobox basiert auf einer früheren Entwicklung von Meta, Voicebox. Laut den Entwicklern übertrifft die Neuheit jedoch ihren Vorgänger in Sachen Klangqualität und Funktionalität.
Ab heute können Sie unser neues Grundlagenforschungsmodell für die Audiogenerierung ausprobieren. Die Demo beinhaltet Zero shot TTS, Text to sound effects, Infilling und mehr!
- AI at Meta (@AIatMeta) December 11, 2023
Try Audiobox ➡️ https://t.co/8OPcJYy8a9 pic.twitter.com/lo9rCOZMAh
Audiobox zeichnet sich vor allem dadurch aus, dass es Audio nicht nur erzeugen, sondern auch bearbeiten kann. Die Plattform kann Sprache in verschiedenen Sprachen, Soundeffekte (Autohupen, Hundebellen, Donnerschläge) und ganze Klanglandschaften erzeugen.
Meta hat in Audiobox die Möglichkeit eingebaut, den Erzeugungsprozess zu kontrollieren, so dass das gewünschte Ergebnis so genau wie möglich eingestellt werden kann.
Um Missbrauch zu verhindern, haben die Entwickler ein digitales Wasserzeichensystem in Audiobox integriert. Jedes mit der Plattform erzeugte Audio wird automatisch gekennzeichnet, so dass seine Herkunft nachvollzogen werden kann.
Nach Angaben der Audiobox-Entwickler ist die Geschwindigkeit der Audiogenerierung 25 Mal höher als bei früheren Meta-KI-Modellen. Ermöglicht wird dies durch die Verwendung personalisierter Datenverarbeitungsalgorithmen für jede spezifische Aufgabe.
Eine Einschränkung der Technologie besteht bisher darin, dass es an qualitativ hochwertigen gelabelten Daten fehlt, um das KI-Modell zu trainieren. Damit Audiobox zum Beispiel verschiedene Hunderassen oder den Akzent von Menschen genau nachahmen kann, braucht es einen geeigneten Satz von Beispielen. Mit der Vergrößerung der Datenbank werden die Möglichkeiten der Plattform weiter wachsen.
Quelle: Meta