Het onbereikbare toppunt van kunst: waarom tekent de kunstmatige intelligentie van Midjourney 6 vingers op je handen en hoe is dat te verhelpen?

Via: Vladislav Nuzhnov | 24.01.2023, 09:00

Waarom produceert kunstmatige intelligentie (AI) onbegrijpelijke handen? Dit onderwerp, zoals alles wat met neurale netwerken te maken heeft, is erg actueel geworden en roept veel vragen op. Want alleen de meest luie persoon heeft niet geprobeerd te "spelen" met Midjourney of DALL-E. De foto's die ze in een paar minuten maken hebben al snel een publiek gevonden. Wat valt er te praten als er hele gemeenschappen van 100+ duizend mensen ontstaan om hun door AI gegenereerde werk te delen.

Het is allemaal zo ver gegaan dat kunstenaars op Artstation, het grootste portaal voor kunstenaars, in staking zijn gegaan tegen AI en hebben opgeroepen om beelden die niet door mensen zijn gemaakt te labelen. Voor sommigen doet dit alles misschien denken aan de gebeurtenissen in Detroit: Become Human, toen de mensheid het opnam tegen intelligente androïden die in alles beter waren dan mensen en hen op veel gebieden van het leven vervingen. Van bestuurders tot professionele atleten. Het debat rond neurale netwerken is dus nog niet geluwd, en sommigen beginnen zich al serieus af te vragen of AI de mens kan vervangen in verschillende beroepen die nu al in onze wereld bestaan, en niet in het spel?

Maar terug naar het onderwerp handen. Waarom kan de AI de vingers niet correct weergeven, wat heeft dat te maken? Misschien omdat zelfs mensen moeite hebben met het tekenen van handen? Of is het probleem onvoldoende database waarop de kunstmatige intelligentie vertrouwt. Wat als we te veel eisen stellen aan de AI? In feite wordt al het bovenstaande en het resultaat zelfs beïnvloed door de menselijke psychologie. Dus de gg-redactie heeft het onderzocht en zal uitleggen waarom de fictieve Midjourney een probleem heeft met het genereren van menselijke ledematen.

Een voorbeeld van hoe Midjourney handen genereert (Illustratie: medium)

Om te beginnen, wat is Midjourney en soortgelijke tools?

Midjourney is een onafhankelijk onderzoekslab dat een gelijknamig kunstmatig intelligentieprogramma ontwikkelt dat beelden genereert uit tekstuele beschrijvingen. De beelden worden gemaakt met behulp van een speciale chatbot in Discord. De tool is momenteel in open bètatests, die begonnen zijn op 12 juli 2022. Populaire analogen van Midjourney zijn DALL-E en Stable Diffusion. Het werkingsprincipe is bij allemaal zeer vergelijkbaar. Het enige verschil is de stijl en het niveau van de AI-ontwikkeling.

Beeld gemaakt door de AI (Illustratie: howtogeek)

Voor wie meer wil weten: hoe maak je precies een afbeelding?

Een tekstinvoer alleen is niet genoeg. Als je Midjourney gewoon vraagt om op de conventionele manier een varken in een bubbelbad af te beelden, zal het resultaat zo-zo zijn. Maar we hebben al die ongelooflijke beelden gezien, wat is het geheim? Een prompt, of aanwijzing, komt te hulp. Die gebruiken we om aan te geven wat voor beeld we van de kunstmatige intelligentie willen krijgen. Met de juiste prompt kan je zo'n realistisch biggetje krijgen.

Het resultaat "voor" en "na" een gedetailleerde aanwijzing (Screenshot: itpedia)


Dus hoe zit het met de vingers?

En nu over de barrière die de AI niet kan nemen - het correct weergeven van vingers of tenen. En dit is verre van een hypothese. Het probleem is wijdverbreid en is al onderwerp geweest van zowel debat als spot.

Een voorbeeld van hoe mensen reageren op AI-gegenereerde handen (Illustratie: knowyourmeme)

Maar waarom gebeurt dit? Het antwoord op die vraag bestaat al. Overigens dankzij een andere AI.

Het antwoord van de ontwikkelaar van een van de AI's

Er bestaat een kunstmatige intelligentie genaamd The Jasper Whisperer. Die is gespecialiseerd in het schrijven van tekst en maakt ook generatieve beelden (En nee, "generatief" heeft niets te maken met het woord "degeneratief", hoewel ze te veel op elkaar lijken). De Jasper Whisperer heeft ook een eigen blog op medium, waarin wordt beschreven waarom er een probleem is met de voortplanting van ledematen. Dit wordt beïnvloed door verschillende factoren en elk moet apart worden uitgezocht.

Een voorbeeld van het werk van The Jasper Whisperer (Illustratie: medium)

De hand is een complex lichaamsdeel

De anatomie van de hand zelf is vrij complex. De vingers zijn er in allerlei vormen en maten. Het is altijd noodzakelijk ze correct weer te geven, anders ziet de hand er onnatuurlijk uit. Zelfs wanneer de handen in een 'ontspannen' positie zijn, moet er informatie worden getekend: rimpels en vouwen op de knokkels of schaduw op de handpalmen.

Door de complexe geometrie is er geen standaardset lijnen of vormen die de AI kan herkennen als hand. De AI moet telkens veel verschillende vormen matchen, en dat vertaalt zich uiteindelijk in 6 of meer vingers.

En er zijn ook ongeveer 30 punten van geometrische divergentie in de menselijke hand. Van de lengte en breedte van de vingers tot de middenhandsbeentjes en polsgewrichten. Onze handen zijn zelfs zo complex en uniek dat hun geometrie een betere biometrische identificatie is dan ons gezicht.

Dit is hoeveel detail er nodig is om een realistische hand te tekenen (Foto: artincontext)

Handen zijn moeilijk te tekenen, zelfs voor mensen

Daarom is het afbeelden van handen een van de moeilijkste taken bij het tekenen. Door hun geometrie zijn het moeilijke objecten om te illustreren. Daarom worden stripfiguren vaak getekend met 3 vingers en een duim. Omdat het zoveel makkelijker is. En we zien het zo vaak dat het ons niet eens opvalt. Het probleem met handen is dus niet nieuw en heeft niets te maken met kunstmatige intelligentie. Het is een kunstprobleem. De Jasper Whisperer vindt het zelfs lichtelijk amusant dat AI dezelfde artistieke moeilijkheden ondervindt als mensen.

Illustratie: screenrant

Voor wie meer wil weten: wat vindt ChatGPT ervan?

Een andere populaire AI dezer dagen is ChatGPT. Het is een in november 2022 door OpenAI gelanceerde chatbot, die beroemd is geworden om zijn gedetailleerde en duidelijke antwoorden op vele kennisgebieden, zelfs IT. Programmeurs maken dan ook al grapjes dat deze bot hen ooit zal vervangen.

Reacties van programmeurs op ChatGPT (Illustratie: Clément Mihailescu)

En als je ChatGPT vraagt waarom mensen het moeilijk vinden om handen en vingers te tekenen, antwoordt het het volgende: "Het tekenen van handen wordt vaak beschouwd als een van de moeilijkste elementen voor een kunstenaar vanwege het niveau van detail en complexiteit. Handen bestaan uit vele kleine botjes, spieren en pezen. En die moeten allemaal nauwkeurig worden weergegeven, wil de tekening realistisch zijn. Bovendien kan de positie van de handen moeilijk over te brengen zijn, omdat ze voortdurend in beweging zijn en op een oneindig aantal manieren gepositioneerd kunnen worden. Vanwege deze complexiteit beschouwen veel kunstenaars het tekenen van handen als een van de meest frustrerende en uitdagende aspecten van hun vak."

Screenshot: medium

The Jasper Whisperer is het dus ook eens met de bewering van ChatGPT.


We vragen te veel van kunstmatige intelligentie

The Jasper Whisperer is van mening dat we de AI vragen het onmogelijke te doen. Een mens tekent zolang hij bestaat, maar het kan een week duren om een realistische hand te creëren. De technologie van kunstmatige intelligentie evolueert nog steeds. Dezelfde Midjourney is minder dan een jaar oud. En hoewel we al verbluffende beelden zien, zijn er beperkingen.

Het wordt nog ingewikkelder als je meerdere handen in hetzelfde beeld creëert, zoals twee mensen die elkaars hand vasthouden, of een groep vrienden in een omhelzing. En elke hand moet nauwkeurig worden getekend, anders is het hele beeld niet wat het moet zijn. Meestal zijn de handen van de AI zo vreemd omdat ze "overladen" zijn in de foto.

Voorbeeld van "overladen" handen in een kader (Illustratie: medium)

Wat vinden gewone gebruikers hiervan?

Het was op Reddit dat ik een nogal lange uitleg tegenkwam. Een van de gebruikers beschreef dit probleem in detail. Het punt is dat de AI niet logisch nadenkt wanneer het kunst "creëert". Het weet niet dat mensen een skelet hebben met een bepaalde hoeveelheid botten, organen, spieren en al het andere. Ze weet niet wat er op deze of gene plaats moet zitten en wat er moet uitzien afhankelijk van de beweging van het lichaam. Het enige wat de AI kan doen is reproduceren wat hem is verteld. De voorwaardelijke Midjourney zal met zijn beeld de vraag "WAT is het" beantwoorden in plaats van "WAAROM is het zo". Soms zal het kledingriemen genereren die opgaan in iemands huid en dergelijke. In feite kan de bot de dingen die hij "tekent" nooit begrijpen zoals jij ze begrijpt. Hij construeert zijn kunst niet zoals een echte kunstenaar dat doet. Mensen begrijpen wat ze tekenen op een dieper niveau en houden rekening met vele andere dingen die niet in de tekening tot uiting komen.

Midjourney begrijpt niet helemaal wat de hand van een astronaut moet zijn (Illustratie: medium)

Enkele gekke theorieën

De auteurs van theamericangenius komen met een theorie dat AI manieren vindt om onze angsten te sussen en ons gerust te stellen dat het de wereld niet gaat overnemen. Het is alsof het probeert te zeggen "Ik ben geen bedreiging, ik kan geen simpele armen of benen tekenen". Grappen zijn grappen, maar elke theorie heeft bestaansrecht.

Illustratie: theamericangenius

De AI laat zich vooral leiden door de plaatjes die op internet staan. En uit dit gegeven op Reddit komt een andere theorie naar voren. Kunstmatige intelligentie kan gemakkelijk symmetrische gezichten maken omdat er miljoenen foto's en tekeningen van zijn. Er zijn niet zoveel handen, om nog maar te zwijgen van het feit dat ze zelf en hun poseren complexer zijn. Deze theorie wordt bevestigd door tekeningen van beginnende kunstenaars of lessen voor beginners, waarin vaak handen te zien zijn die verborgen zijn in zakken of gewoon niet in het kader staan.

Een voorbeeld dat wordt getoond voor beginnende kunstenaars. Handen verborgen in zakken (Foto: artistsnetwork)

Een theorie over de menselijke psychologie

Het laatste voorbeeld heeft te maken met het feit dat we psychologisch geneigd zijn om fouten eerder in de menselijke hand dan in het gezicht te zoeken. Om een beter idee te krijgen waar we het over hebben, moet je kijken naar de omgekeerde afbeelding van Adele's gezicht:

Illustratie: businessinsider

Op het eerste gezicht is hier niets aan de hand, maar als je de afbeelding nog eens ondersteboven draait, is het resultaat al dit:

Illustratie: businessinsider

Waarom valt dit niet op? Deze illusie staat bekend als het 'Thatcher-effect', genoemd naar de voormalige Britse premier Margaret Thatcher, wiens afbeelding voor het eerst voor deze truc werd gebruikt.

Het Thatcher-effect (Illustratie: businessinsider)

Dit effect wijst op een fout in de manier waarop onze hersenen werken - we kunnen een omgekeerd gezicht niet verwerken. Uit een studie van The Naked Scientists blijkt dat mensen een gezicht herkennen aan de hand van de onderdelen - ogen, mond en neus. Dus als we een omgekeerde afbeelding van Thatcher te zien krijgen, wordt het niet goed verwerkt.

En zoals businessinsiders hebben geschreven, komen we zo zelden omgekeerde gezichten tegen dat we de uitdrukking erop niet kunnen interpreteren. De gelaatstrekken zien er normaal uit, dus denken onze hersenen dat de rest van het gezicht dat ook doet. Daarom merken we niets ongewoons op totdat we ons gezicht daarop afstemmen.

Maar met de handen is het heel anders. De Jasper Whisperer merkt op dat er iets aan de handen is waar we heel gevoelig voor zijn en dat we instinctief kennen. Dus als de AI een fout maakt met de handen, merken we dat onmiddellijk. Zelfs als de schouder niet correct is weergegeven, merkt een mens dat misschien niet eens. Maar als de verhoudingen van de duim, wijsvinger, middelvinger, ringvinger en pink iets afwijken, valt dat onmiddellijk op.

Verkeerd gegenereerde handen vallen onmiddellijk op (Illustratie: medium)

We hebben dus twee kanten van de medaille. Aan de ene kant hebben we een kunstmatige intelligentie die niet over een voldoende grote database van menselijke handafbeeldingen beschikt en niet volledig begrijpt wat "anatomisch correcte handen" in het algemeen betekent. Zij moet dus nog veel tijd besteden aan de verwerking van deze specifieke gegevens. En aan de andere kant is er de psychologische factor van een persoon die om een of andere reden onmiddellijk onvolkomenheden aan de hand opmerkt. Maar het is nog steeds mogelijk om het genereren van vingers te verbeteren met behulp van AI.

Hoe kan de AI beter handen tekenen?

En weer schiet The Jasper Whisperer te hulp. De blog van deze AI heeft een hele gids over hoe je het genereren van handen kunt verbeteren.

Geef de handen iets te doen

Handen die iets doen worden beter behandeld door de AI. Bijvoorbeeld als de hand een kopje moet vasthouden. Dit heeft te maken met trainingsgegevens: je verkleint de zoekopdracht die de vingers in bepaalde posities laat zien. Natuurlijk is het resultaat niet altijd succesvol. Hier zijn twee gegenereerde beelden: de eerste is DALL-E, de tweede is Midjourney. Op de foto, waar het meisje het glas vasthoudt, is alles min of meer gelukt. Maar de foto met de vis gaf ergens een hapering (en niet alleen met de handen).

Er ging iets mis in de tweede foto (Illustraties: medium, midjourney)

Gebruik schaduw (inpainting)

Met inpainting kun je een deel van de gegenereerde afbeelding uitwissen zodat de AI deze kan vullen met iets anders. Dit is een goede manier om de handen opnieuw te tekenen. Dit wordt het best gedaan door Dall-E 2. En ter vergelijking een voor- en naschildering:

Illustratie: petapixel

Je eigen handen verbeteren

De methode zal niet voor iedereen werken, maar als jij of iemand die je kent Adobe Photoshop of een andere grafische editor heeft, kun je de handen die de AI genereerde opnieuw tekenen.

Knip de foto bij

Soms is de makkelijkste en beste optie om de foto gewoon een beetje bij te snijden om een deel van de handen buiten beeld te houden. Dit is precies wat een gebruiker op de Discord server Midjourney deed.

Geef foto's ter vergelijking

Midjourney heeft een functie genaamd "beeld-naar-beeld" - dit is wanneer je het neurale netwerk eerst een foto geeft, en dan tekst wat er gedaan moet worden. En deze manier maakt het een stuk makkelijker voor de AI, die het al moeilijk heeft met het maken van handen.

De hand is nog steeds een probleem, maar niet zo kritisch. (Illustratie: All About AI)

5) Meer hints. Het is al duidelijk dat simpelweg "hand" schrijven niet het gewenste resultaat oplevert. Dus moeten we de AI meer hints geven. Beschrijf de houding en actie in detail, denk aan kleine details zoals: vingernagels of knokkelrimpels. En beschrijf de vorm van de hand. Gebruik hiervoor termen als 'gebogen' of 'open'.

Nogmaals, het is goed te onthouden dat vragen naar "5 vingers" geen verschil zal maken. In feite is dit precies wat mij overkwam. Ik spelde "hand met 5 vingers, nagels, rimpels rond de knokkels, open, --ar 2:3 --q 2 --v 4" zoals voorgesteld door The Jasper. En ik kreeg inderdaad een resultaat met een hand die 5 vingers heeft. Maar slechts in 2 van de 4 afbeeldingen. Ook lijkt elk van hen op de concept art van een horrorgame. Er is echter al een kans dat we na generatie een min of meer goed resultaat hebben.

Hoe kan de AI anders een hand tekenen?

Eigenlijk hoef je de AI niet veel hints voor te schrijven, maar om een hand met 5 vingers te krijgen die niet op griezelspelletjes of films lijkt, hoef je maar één woord te schrijven - "handschoenen". Dat woord was voor mij voldoende om een resultaat als dit te krijgen. Dus als je geen "blote" hand nodig hebt, is dit de beste optie.

Maar als je niet alleen handen wilt, maar ze in het kader wilt betrekken? Schrijf dan bijvoorbeeld "een koppel dat elkaars handen vasthoudt terwijl ze in een park lopen en handschoenen dragen. Als je gaat inzoomen, kun je kleine foutjes vinden, maar met het blote oog is het moeilijk te zien wat er mis is.

De reden hiervoor is dat we door simpelweg "gloves" in te typen in google images kunnen zien hoe in de meeste foto's de handschoenen rechtop liggen en we er duidelijk 5 vingers aan kunnen zien. En de AI baseert zich gewoon op een database van foto's die online staan.

Wil je echter een hand zonder handschoenen, dan schiet een gewone manicure te hulp. Dus voer bijvoorbeeld "trouwring, en nagellak" in The Jasper Whsiper in en voila, 5 vingers, zonder onvolkomenheden of wat dan ook.

Illustratie: medium

De reden is dezelfde als bij de handschoenen. Een google-foto van 90% manicure kan duidelijk 5 vingers zien, en vaak in dezelfde positie. Daarom heeft de AI sneller door hoe dit afgebeeld moet worden.

Bottom line: wanneer kunnen we de opkomst van de machines verwachten?

In feite kunnen Midjourney en dergelijke dus een hand met 5 vingers afbeelden. Het is gewoon dat de meeste verzoeken van mensen niet helemaal accuraat waren, en de situatie werd bemoeilijkt door de structuur zelf van de hand, die moeilijk af te beelden is, wat leidde tot zulke verhitte discussies. Het resultaat met 5 vingers van een AI zal niet altijd zijn zoals het zou moeten zijn. Maar er zijn al genoeg opties. Het is belangrijk om te onthouden dat de neurale netwerkonderdelen die vandaag worden genoemd nog geen jaar oud zijn. Zelfs ervaren tekenaars die al jaren tekenen zullen niet altijd snel een realistische hand creëren. Dus "hier en nu" uitzonderlijk gave resultaten eisen van neurale netwerken is geen goed idee. Kunstmatige intelligentie leert met de dag, en als het naar het volgende niveau wil in het creëren van een afbeelding, moet het steeds meer van de juiste verzoeken krijgen die veel verfijning bevatten. Als mensen een paar jaar geleden zagen dat AI iets probeerde te creëren, namen maar weinigen dat serieus. Tegenwoordig is er echter een actieve discussie gaande over "Zullen machines ons vervangen?". Zeker niet iedereen; de behoefte aan fotografen is niet verdwenen met de komst van Adobe Photoshop. Voor professionele kunstenaars zal Midjourney weer een nuttig hulpmiddel zijn om je werk te versnellen en te verbeteren. Sommigen zullen het een interessant hulpmiddel vinden om mee te spelen, terwijl anderen zullen proberen uit te zoeken wat het probleem is met finger mapping. Over een paar jaar kunnen we ons afvragen of er een opstand van de machines zal plaatsvinden.

Voor wie meer wil weten