NVIDIA hat ein "Schweizer Messer für Audio" entwickelt: Ein neues KI-Modell kann beliebige Audiodaten auf der Grundlage von Textanweisungen erstellen und bearbeiten

Von: Vlad Cherevko | 26.11.2024, 12:41

Nvidia hat Fugatto angekündigt, einen innovativen Audiogenerator mit künstlicher Intelligenz, der Musik, Sprache und Geräusche auf der Grundlage von Textanweisungen erstellen und bearbeiten kann.

Was bekannt ist

Das KI-Modell Fugatto (Foundational Generative Audio Transformer Opus), das als "Schweizer Messer für Sound" bezeichnet wird, ist in der Lage, auf der Grundlage von Textbefehlen Audio zu erzeugen und bestehende Musik-, Sprach- und Sounddateien zu verändern. Fugatto wurde von einem internationalen Forscherteam entwickelt, das seine mehrsprachigen und akzentfreien Fähigkeiten verbessert hat.

Das Tool kann Sprache durch Hinzufügen von Akzenten oder Ändern des Tons modifizieren, Musik durch Isolieren von Gesang, Hinzufügen von Instrumenten oder Ersetzen von Melodien bearbeiten. Nvidia behauptet, dass Fugatto auf Millionen von Audiosamples trainiert wurde und eine breite Palette von Aufgaben ohne zusätzliche Daten durchführen kann.

Das Unternehmen macht jedoch keine Angaben dazu, wann oder ob das Tool der Öffentlichkeit zur Verfügung stehen wird. Fugatto hebt sich von anderen KI-Tools wie Stability AI und OpenAI durch seine Fähigkeit ab, völlig neue Klänge zu erzeugen.

Quelle: NVIDIA