Apple a dévoilé un modèle d'IA pour l'édition d'images basé sur des commandes textuelles.

Par: Bohdan Kaminskyi | 08.02.2024, 14:30

Laurenz Heymann/Unsplash.

Apple, en collaboration avec des chercheurs de l'université de Californie, a mis au point et publié un modèle d'intelligence artificielle appelé MLLM-Guided Image Editing (MGIE). Il permet de modifier des images à partir d'instructions textuelles en langage naturel.

Ce que nous savons

MGIE utilise la technologie des modèles multimodaux de grandes langues. Il est ainsi possible d'interpréter des commandes courtes et ambiguës de l'utilisateur pour modifier des photos. Par exemple, l'IA peut interpréter une commande "rendre plus sain" pour une photo de pizza comme un besoin d'ajouter des ingrédients végétaux.

Outre les modifications majeures apportées au contenu, le modèle peut effectuer des opérations de base telles que le recadrage, la rotation, le redimensionnement et la correction des couleurs des images. L'IA peut également traiter des régions individuelles pour transformer certains objets.

MGIE est disponible sur GitHub. En outre, Apple a publié une version de démonstration du service sur le site Hugging Face.

On ne sait pas encore si l'entreprise prévoit d'intégrer la technologie dans ses propres produits.

Source : Engadget Engadget