NVIDIA a créé un "couteau suisse pour l'audio" : un nouveau modèle d'IA peut créer et éditer n'importe quel son à partir d'indices textuels.

Par: Vlad Cherevko | 26.11.2024, 11:41

Nvidia a annoncé Fugatto, un générateur audio innovant doté d'une intelligence artificielle qui permet de créer et d'éditer de la musique, de la parole et des sons à partir d'indices textuels.

Voici ce que nous savons

Le modèle Fugatto (Foundational Generative Audio Transformer Opus AI), décrit comme un "couteau suisse pour le son", est capable de créer de l'audio et de modifier des fichiers musicaux, vocaux et sonores existants à partir de commandes textuelles. Fugatto a été développé par une équipe internationale de chercheurs, ce qui a permis d'améliorer ses capacités multilingues et multiaccentuelles.

L'outil peut modifier la voix en ajoutant des accents ou en changeant le ton, éditer la musique en isolant les voix, en ajoutant des instruments ou en remplaçant les mélodies. Nvidia affirme que Fugatto a été formé sur des millions d'échantillons audio et qu'il peut effectuer un large éventail de tâches sans avoir besoin de données supplémentaires.

Toutefois, l'entreprise ne précise pas quand et si l'outil sera disponible pour le public. Fugatto se distingue d'autres outils d'IA tels que Stability AI et OpenAI par sa capacité à créer des sons entièrement nouveaux.

Source : NVIDIA NVIDIA