L'inatteignable sommet de l'art : pourquoi l'intelligence artificielle Midjourney dessine-t-elle 6 doigts sur les mains et comment y remédier ?

Par: Vladislav Nuzhnov | 24.01.2023, 09:00

Pourquoi l'intelligence artificielle (IA) a-t-elle des mains étranges ? Ce sujet, comme tout ce qui concerne les réseaux neuronaux, est devenu très pertinent et soulève beaucoup de questions, il faut donc l'aborder une fois pour toutes. Seuls les paresseux n'ont pas essayé de "jouer" avec Midjourney ou DALL-E. Les photos qu'ils créent en quelques minutes trouvent rapidement leur public. Inutile de dire que des communautés entières de plus de 100 000 personnes se créent pour partager leurs œuvres générées par l'IA.

Tout est allé si loin que les artistes d'Artstation, le plus grand portail pour artistes, ont organisé une grève contre l'IA, demandant l'étiquetage des images qui n'ont pas été créées par des humains. Pour certains, cela peut leur rappeler les événements du jeu Detroit : Become Human, lorsque l'humanité s'est opposée à des androïdes intelligents qui étaient meilleurs que les humains en tout et les ont remplacés dans de nombreux domaines de la vie. Des conducteurs aux athlètes professionnels. C'est pourquoi le débat autour des réseaux neuronaux ne s'apaise pas, et maintenant certaines personnes ont commencé à penser sérieusement si l'IA sera capable de remplacer les gens dans diverses professions dans notre monde, pas dans le jeu ?

Mais revenons au sujet des mains. Pourquoi l'IA ne peut-elle pas afficher correctement les doigts, et qu'est-ce qui influence cela ? Est-ce parce que même les humains trouvent difficile de dessiner des mains ? Ou le problème réside-t-il dans l'insuffisance de la base de données sur laquelle s'appuie l'intelligence artificielle ? Que se passe-t-il si nous exigeons trop de l'IA ? En fait, tout ce qui précède est vrai, et le résultat est même influencé par la psychologie humaine. C'est pourquoi l'équipe éditoriale de gg a enquêté et vous dira pourquoi Midjourney a un problème pour générer des membres humains.

Un exemple de la façon dont Midjourney génère des bras (Illustration : medium)

Pour commencer, qu'est-ce que Midjourney et les outils similaires ?

Midjourney est un laboratoire de recherche indépendant qui développe un programme d'intelligence artificielle du même nom qui crée des images à partir de descriptions textuelles. Les images sont créées à l'aide d'un chatbot spécial sur Discord. L'outil est actuellement en test bêta ouvert, qui a débuté le 12 juillet 2022. Les analogues populaires de Midjourney sont DALL-E et Stable Diffusion. Le principe de fonctionnement est très similaire. La seule différence réside dans le style et le niveau de développement de l'IA.

Image créée par l'IA. (Illustration : howtogeek)

Pour ceux qui veulent en savoir plus : comment se crée exactement une image ?

Une simple saisie de texte ne suffit pas. Si vous demandez simplement à Midjourney de représenter un cochon dans un jacuzzi, le résultat sera médiocre. Mais nous avons vu toutes ces images incroyables, quel est le secret ? Nous utilisons des invites pour nous aider. Nous les utilisons pour spécifier le type d'image que nous voulons obtenir de l'intelligence artificielle. Et avec le bon message, vous pouvez obtenir un cochon réaliste.

Le résultat "avant" et "après" une invite détaillée (Capture d'écran : itpedia)


Et les doigts ?

Parlons maintenant de l'obstacle que l'IA ne peut pas surmonter : la représentation correcte des doigts ou des orteils. Et c'est loin d'être une hypothèse. Ce problème est très répandu et est déjà devenu un sujet de discussion et de moquerie.

Un exemple de la réaction des gens aux mains générées par l'IA (Illustration : knowyourmeme)

Mais pourquoi cela se produit-il ? La réponse à cette question existe déjà. D'ailleurs, grâce à une autre IA.

Réponse du développeur de l'une des IA

Il existe une intelligence artificielle appelée The Jasper Whisperer. Elle est spécialisée dans l'écriture de textes et crée également des images génératives (et non, "génératif" n'a rien à voir avec "dégénéré", bien qu'ils se ressemblent beaucoup). The Jasper Whisperer a également un blog sur medium, qui décrit pourquoi il y a un problème avec la reproduction des membres. Plusieurs facteurs influent sur ce phénomène, et chacun doit être analysé séparément.

Un exemple du travail de The Jasper Whisperer (Illustration : medium)

La main est une partie complexe du corps

L'anatomie de la main elle-même est assez complexe. Au minimum, les doigts ont des formes et des tailles différentes. Ils doivent toujours être représentés correctement, sinon la main n'a pas l'air naturelle. Même lorsque les mains sont dans une position "détendue", certaines informations doivent être dessinées : rides et plis sur les articulations ou ombres sur les paumes.

En raison de la géométrie complexe, il n'existe pas d'ensemble standard de lignes ou de formes que l'IA puisse reconnaître comme une main. L'IA doit comparer de nombreuses formes différentes à chaque fois, et elle finit par reconnaître 6 doigts ou plus.

En outre, il existe environ 30 points de différences géométriques dans la main humaine. De la longueur et de la largeur des doigts aux os métacarpiens et aux articulations carpiennes. En général, nos mains sont si complexes et uniques que leur géométrie peut être un identifiant biométrique encore meilleur que notre visage.

Voici combien de détails sont nécessaires pour dessiner une main réaliste (Photo : artincontext)

Les mains sont difficiles à dessiner, même pour les humains.

La représentation des mains est donc l'une des tâches les plus difficiles du dessin. Leur géométrie en fait des objets difficiles à illustrer. C'est pourquoi les personnages de dessins animés sont souvent dessinés avec trois doigts et un pouce. C'est beaucoup plus facile. Et nous le voyons si souvent que nous ne le remarquons même pas. Ainsi, le problème des mains n'est pas nouveau et n'est pas lié à l'intelligence artificielle. C'est un problème d'art. Le Jasper Whisperer trouve même un peu drôle que l'IA ait les mêmes difficultés artistiques que les humains.

Illustration : screenrant

Pour ceux qui veulent en savoir plus : qu'en pense ChatGPT ?

Une autre IA populaire aujourd'hui est ChatGPT. Il s'agit d'un chatbot lancé par OpenAI en novembre 2022 qui s'est fait connaître pour ses réponses détaillées et précises dans de nombreux domaines de connaissance, même dans l'industrie informatique. C'est pourquoi les programmeurs plaisantent déjà en disant que ce bot les remplacera un jour.

Réaction des programmeurs à ChatGPT (Illustration : Clément Mihailescu)

Et si vous demandez à ChatGPT pourquoi les gens ont du mal à dessiner les mains et les doigts, il vous répondra ce qui suit : "Dessiner des mains est souvent considéré comme l'un des éléments les plus difficiles pour un artiste en raison du niveau de détail et de complexité. Les mains sont composées de nombreux petits os, muscles et tendons. Et tous ces éléments doivent être représentés avec précision pour que le dessin soit réaliste. En outre, la position des mains peut être difficile à représenter car elles sont constamment en mouvement et peuvent être positionnées d'un nombre infini de façons. En raison de ces difficultés, de nombreux artistes considèrent que le dessin des mains est l'un des aspects les plus frustrants et les plus difficiles de leur métier."

Capture d'écran : medium

ChatGPT est également d'accord avec la déclaration de The Jasper Whisperer.


Nous exigeons trop de l'intelligence artificielle

The Jasper Whisperer estime que nous demandons à l'IA de faire l'impossible. Les humains dessinent depuis qu'il y a des humains, mais il faut parfois une semaine pour créer une main réaliste. La technologie de l'intelligence artificielle est encore en développement. C'est pourquoi Midjourney a moins d'un an. Et bien que nous puissions déjà voir des images étonnantes, il existe certaines limites.

La situation se complique encore lorsque vous créez plusieurs mains dans une même image, par exemple deux personnes se tenant la main ou un groupe d'amis dans une étreinte. Et chaque main doit être dessinée avec précision, sinon l'image entière ne sera pas ce qu'elle devrait être. Le plus souvent, les mains de l'IA ont un aspect étrange parce qu'elles sont "surchargées" dans la photo.

Un exemple de mains "surchargées" dans le cadre (Illustration : medium)

Qu'en pensent les utilisateurs ordinaires ?

J'ai trouvé une explication assez détaillée sur Reddit. L'un des utilisateurs a décrit le problème en détail. Le fait est que l'IA n'a pas de pensée logique lorsqu'elle "crée" de l'art. Elle ne sait pas que les humains ont un squelette avec un certain nombre d'os, d'organes, de muscles et tout le reste. Elle ne sait pas ce qui doit être à tel ou tel endroit et ressembler à telle ou telle chose en fonction des mouvements du corps. Tout ce que l'IA peut faire, c'est reproduire ce qu'on lui dit. Le Midjourney conditionnel répondra à la question "Qu'est-ce que c'est" avec son image, pas "Pourquoi est-ce". Parfois, il génère des ceintures de vêtements qui se fondent dans la peau humaine et d'autres choses similaires. En fait, le robot ne sera jamais capable de comprendre les choses qu'il "dessine" de la manière dont vous les comprenez. Il ne construit pas son art comme le fait un véritable artiste. Les humains comprennent ce qu'ils dessinent à un niveau plus profond et prennent en compte de nombreuses autres choses qui ne sont pas reflétées dans le dessin.

Midjourney n'a pas totalement compris à quoi devait ressembler la main d'un astronaute (Illustration : medium)

Quelques théories farfelues

Par exemple, les auteurs du site web theamericangenius ont avancé la théorie selon laquelle l'IA trouve des moyens de calmer nos peurs et de nous assurer qu'elle ne va pas prendre le contrôle du monde. De cette façon, elle semble essayer de dire : "Je ne suis pas une menace, je ne peux pas dessiner de simples bras ou jambes." Blague à part, toute théorie a le droit d'exister.

Illustration : theamericangenius

L'IA se laisse principalement guider par les photos disponibles sur Internet. Et de ce fait sur Reddit découle une autre théorie. L'intelligence artificielle peut facilement créer des visages symétriques car il y a des millions de photos et de dessins de ceux-ci. Les mains ne sont pas si nombreuses, sans compter qu'elles-mêmes et leurs poses sont plus complexes. Cette théorie est renforcée par les dessins d'artistes en herbe ou les cours pour débutants, où l'on voit souvent des mains cachées dans des poches ou simplement hors du cadre.

Un exemple qui est démontré pour les artistes débutants. Mains cachées dans une poche (Photo : artistsnetwork)

Une théorie sur la psychologie humaine

Le dernier exemple est lié au fait que nous sommes psychologiquement enclins à chercher les erreurs dans les mains des gens, et non dans leur visage. Pour mieux comprendre ce dont nous parlons, il faut regarder l'image inversée du visage d'Adèle :

Illustration : businessinsider

À première vue, il n'y a rien de mal à cela, mais si vous retournez l'image, le résultat sera le même :

Illustration : businessinsider

Pourquoi ne le remarquons-nous pas ? Cette illusion est connue sous le nom d'"effet Thatcher", du nom de l'ancien Premier ministre britannique Margaret Thatcher, dont l'image a été utilisée pour la première fois pour ce tour.

L'effet Thatcher (Illustration : businessinsider)

Cet effet met en évidence une faille dans le fonctionnement de notre cerveau : nous ne pouvons pas traiter un visage à l'envers. Une étude menée par The Naked Scientists suggère que les gens reconnaissent les visages par leurs parties - les yeux, la bouche et le nez. Par conséquent, lorsqu'on nous montre une image de Thatcher à l'envers, elle n'est pas traitée correctement.

Et comme l'a écrit businessinsider, nous rencontrons rarement des visages à l'envers dont nous sommes incapables d'interpréter l'expression. Les traits du visage semblent normaux, et notre cerveau pense donc que le reste du visage est normal. C'est pourquoi nous ne remarquons rien d'inhabituel jusqu'à ce que nous orientions le visage de manière appropriée.

La situation avec les mains est très différente. The Jasper Whisperer note qu'il y a quelque chose dans les mains auquel nous sommes très sensibles et que nous connaissons instinctivement. Par conséquent, si l'IA fait une erreur avec les mains, nous le remarquons immédiatement. Même si l'épaule n'est pas représentée correctement, une personne peut ne pas le remarquer. Mais si les proportions du pouce, de l'index, du majeur, de l'annulaire et de l'auriculaire sont légèrement faussées, cela se remarque immédiatement.

Nous remarquons immédiatement les mains mal représentées (Illustration : medium)

Nous avons donc deux côtés de la médaille. D'une part, l'intelligence artificielle ne dispose pas d'une base de données suffisamment importante de photos de mains humaines et ne comprend pas totalement ce que sont des "mains anatomiquement correctes". Elle doit donc encore passer beaucoup de temps à traiter ces données particulières. Et d'autre part, il y a le facteur psychologique d'une personne qui, pour une raison quelconque, remarque immédiatement les imperfections de la main. Cependant, il est encore possible d'améliorer la génération des doigts avec l'aide de l'IA.

Comment faire pour que l'IA dessine mieux les mains ?

Le Jasper Whisperer vient à nouveau à la rescousse. Cette IA dispose d'un guide complet sur la façon d'améliorer la génération des mains sur son blog.

Donnez aux mains quelque chose à faire

Les mains qui font quelque chose sont mieux traitées par l'IA. Par exemple, si la main doit tenir une tasse. Cela est dû aux données d'entraînement : vous réduisez le cercle de recherche qui montre les doigts dans certaines positions. Bien sûr, le résultat n'est pas toujours réussi. Voici deux images générées : la première est DALL-E, la seconde est Midjourney. La photo avec la fille tenant le verre est plus ou moins réussie. Mais la photo avec le poisson a mal fonctionné quelque part (et pas seulement avec les mains).

Dans la deuxième photo, quelque chose a mal tourné (Illustrations : medium, midjourney)

Utiliser l'inpainting

L'inpainting vous permet d'effacer une partie de l'image générée afin que l'IA la remplisse avec autre chose. C'est un bon moyen de redessiner les mains. Le Dall-E 2 est le meilleur pour cela. Et pour comparer, voici les photos avant et après l'inpainting :

Illustration : petapixel

Améliorez-le vous-même

Cette méthode ne convient pas à tout le monde, mais si vous ou un ami connaissez Adobe Photoshop ou un autre éditeur graphique, vous pouvez retravailler les mains générées par l'IA si vous le souhaitez.

Recadrez la photo

Parfois, la solution la plus simple et la plus efficace consiste simplement à recadrer un peu la photo afin que certaines des mains ne soient pas dans le cadre. C'est exactement ce qu'a fait l'un des utilisateurs du serveur Discord Midjourney.

Fournir des photos pour la comparaison

Midjourney dispose d'une fonction appelée "image à image", qui consiste à fournir au réseau neuronal une photo, puis à écrire ce qu'il faut faire dans le texte. Cette méthode facilitera grandement la tâche de l'IA, qui a déjà du mal à créer des mains.

La main reste un problème, mais il n'est pas aussi crucial. (Illustration : All About AI)

5) Plus d'indices. Il est déjà clair que le simple fait d'écrire "main" ne nous donnera pas le bon résultat. Par conséquent, nous devons donner plus d'indices à l'IA. Décrivez la pose et l'action en détail, mentionnez les petits détails comme les ongles ou les rides sur les jointures. Et décrivez la forme de votre main. Pour ce faire, utilisez des termes tels que "plié" ou "ouvert".

Là encore, il est bon de vous rappeler que demander "5 doigts" ne changera rien à la situation. Après tout, c'est exactement ce qui m'est arrivé. J'ai écrit l'invite que le Jasper recommande : "main avec 5 doigts, ongles, rides autour des jointures, ouverte, --ar 2:3 --q 2 --v 4". Et j'ai réussi à obtenir un résultat avec une main à 5 doigts. Mais seulement dans 2 des 4 images. Et chacune d'entre elles ressemble au concept art d'un jeu d'horreur. Cependant, nous avons déjà une chance qu'après la génération nous ayons un résultat plus ou moins bon.

Comment faire autrement pour que l'IA dessine une main ?

En fait, pour ne pas écrire un tas de conseils pour l'IA, mais pour obtenir une main avec 5 doigts qui ne ressemble pas à des jeux ou des films d'horreur, il faut écrire un seul mot - "moufles". Ce mot m'a suffi pour obtenir ce résultat. Donc si vous n'avez pas besoin d'une main "nue", cette option sera la meilleure.

Mais que faire si vous avez besoin non seulement de mains, mais de les faire participer au cadre ? Écrivez alors, par exemple, "un couple qui se tient la main en marchant dans un parc et qui porte des gants". Si vous commencez à zoomer sur l'image, vous pouvez trouver des défauts mineurs, mais il est assez difficile de voir ce qui ne va pas à l'œil nu.

En effet, si l'on recherche simplement "gants" dans Google images, on constate que sur la plupart des photos, les gants sont bien droits et que l'on peut clairement voir 5 doigts. Et l'IA s'appuie sur la base de données de photos disponibles en ligne.

Si vous avez besoin d'une main sans gants, une manucure ordinaire viendra à votre secours. Par exemple, entrez "alliance, et vernis à ongles" dans The Jasper Whsiperer et voilà, 5 doigts, sans aucun défaut ni rien d'autre.

Illustration : moyen

La raison est la même que pour les moufles. Dans 90% des photos Google avec des manucures, on peut clairement voir 5 doigts, souvent dans les mêmes positions. Par conséquent, l'IA sera en mesure de trouver comment les représenter plus rapidement.

En résumé : quand peut-on s'attendre à un soulèvement des machines ?

En fait, Midjourney et ses homologues sont capables de représenter une main à cinq doigts. C'est juste que la plupart des demandes des gens n'étaient pas tout à fait exactes, et la situation était compliquée par la structure même des mains, qui est difficile à représenter, ce qui a conduit à des discussions si animées. Le résultat avec 5 doigts en IA ne sera pas toujours le bon. Mais il existe déjà suffisamment d'options. Il est important de se rappeler que certains des réseaux neuronaux mentionnés aujourd'hui ont moins d'un an. Même les artistes expérimentés qui dessinent depuis des années ne seront pas toujours en mesure de créer rapidement une main réaliste. Par conséquent, il n'est pas utile d'exiger des réseaux neuronaux des résultats exceptionnellement cool ici et maintenant. L'intelligence artificielle apprend tous les jours, et si vous voulez qu'elle atteigne un nouveau niveau lors de la création d'une image, vous devez lui donner des requêtes de plus en plus correctes qui contiennent beaucoup de raffinements. En général, il y a quelques années, lorsque les gens voyaient l'IA tenter de créer quelque chose, ils étaient peu nombreux à la prendre au sérieux. Aujourd'hui, cependant, la question de savoir si les machines vont nous remplacer fait l'objet d'une discussion active. Non, bien sûr que non, et le besoin de photographes n'a pas disparu avec l'avènement d'Adobe Photoshop. Pour les artistes professionnels, Midjourney sera un autre outil utile qui accélérera et améliorera leur travail. Pour certains, ce sera un outil intéressant avec lequel jouer, tandis que d'autres essaieront de comprendre quel est le problème des empreintes digitales. Et puis quelques années passeront et il sera possible de se demander s'il y aura un soulèvement des machines ?