Kunstens uoppnåelige høydepunkt: Hvorfor tegner Midjourneys kunstige intelligens 6 fingre på hendene dine, og hvordan kan det fikses?

Av: Vladyslav Nuzhnov | 24.01.2023, 09:00

Hvorfor produserer kunstig intelligens (AI) uforståelige hender? Dette temaet, som alt annet som har med nevrale nettverk å gjøre, har blitt svært aktuelt og reiser mange spørsmål, så vi må komme til bunns i det en gang for alle. For det er bare den lateste som ikke har prøvd å "leke" med Midjourney eller DALL-E. Bildene de skaper i løpet av noen minutter har raskt funnet et publikum. Hva er det å snakke om når det skapes hele samfunn på 100+ tusen mennesker som deler deres AI-genererte verk.

Det hele har gått så langt at kunstnere på Artstation, som er den største portalen for kunstnere, har gått til streik mot AI og krever at bilder som ikke er skapt av mennesker, skal merkes. For noen vil dette kanskje minne om hendelsene i Detroit: Become Human, der menneskeheten sto overfor intelligente androider som var bedre enn mennesker i alt og erstattet dem på mange områder. Fra sjåfører til profesjonelle idrettsutøvere. Så debatten rundt nevrale nettverk har ikke avtatt, og noen har allerede begynt å seriøst vurdere om AI kan erstatte mennesker i ulike yrker allerede i vår verden, og ikke i spillet?

Men tilbake til temaet hender. Hvorfor kan ikke AI-en vise fingrene riktig, hva påvirker det? Kanskje fordi selv mennesker har problemer med å tegne hender? Eller er problemet en utilstrekkelig database som kunstig intelligens baserer seg på? Hva om vi krever for mye av den kunstige intelligensen? Alt dette, og resultatet påvirkes til og med av menneskets psykologi. Derfor har gg-redaksjonen undersøkt saken og vil forklare hvorfor den fiktive Midjourney har problemer med å generere menneskelige lemmer.

Et eksempel på hvordan Midjourney genererer hender (Illustrasjon: medium).

For det første, hva er Midjourney og lignende verktøy?

Midjourney er et uavhengig forskningslaboratorium som utvikler et kunstig intelligens-program med samme navn som genererer bilder fra tekstlige beskrivelser. Bildene skapes ved hjelp av en spesiell chatbot i Discord. Verktøyet er for tiden i åpen betatesting, som startet 12. juli 2022. Populære analoger til Midjourney er DALL-E og Stable Diffusion. Prinsippet om drift er veldig likt i dem alle. Den eneste forskjellen er stilen og nivået på AI-utviklingen.

Bilde skapt av AI (Illustrasjon: howtogeek)

For de som vil vite mer: hvordan lager man egentlig et bilde?

En tekstoppføring alene er ikke nok. Hvis du bare ber Midjourney om å lage et vanlig bilde av en gris i et boblebad, blir resultatet så som så. Men vi har jo sett alle de fantastiske bildene, hva er hemmeligheten? En prompt, eller ledetråd, kommer til unnsetning. Vi bruker dem til å spesifisere hva slags bilde vi ønsker å få fra den kunstige intelligensen. Med riktig ledetekst kan du få en slik realistisk grisunge.

Resultatet "før" og "etter" detaljert prompt (Skjermbilde: itpedia)


Så hva skjer med fingrene?

Og nå om barrieren som AI ikke kan krysse - korrekt representasjon av fingre eller tær. Og dette er langt fra en hypotese. Problemet er utbredt og har allerede vært gjenstand for både debatt og latterliggjøring.

Et eksempel på hvordan folk reagerer på AI-genererte hender (Illustrasjon: knowyourmeme).

Men hvorfor skjer dette? Svaret på det spørsmålet finnes allerede. Forresten, takket være en annen kunstig intelligens.

Svaret fra utvikleren av en av de kunstige intelligensene

Det finnes en kunstig intelligens som heter The Jasper Whisperer. Den har spesialisert seg på å skrive tekst og skaper også generative bilder (og nei, "generativ" har ingenting med ordet "degenerativ" å gjøre, selv om de høres altfor like ut). The Jasper Whisperer har også en egen blogg på mediet, som beskriver hvorfor det er et problem med reproduksjon av lemmer. Dette påvirkes av flere faktorer, og hver av dem må løses separat.

Et eksempel på Jaspis-hviskerens arbeid (Illustrasjon: medium)

Hånden er en kompleks kroppsdel

Håndens anatomi er i seg selv ganske kompleks. Ikke minst finnes fingrene i alle mulige former og størrelser. Det er alltid nødvendig å representere dem riktig, ellers vil hånden se unaturlig ut. Selv når hendene er i en "avslappet" posisjon, er det informasjon som skal tegnes: rynker og bretter på knokene eller skygger på håndflatene.

På grunn av den komplekse geometrien finnes det ikke noe standard sett med linjer eller former som AI-en kan gjenkjenne som en hånd. Den kunstige intelligensen må matche mange forskjellige former hver gang, og til slutt blir det 6 eller flere fingre.

Og det er også rundt 30 punkter med geometriske avvik i menneskehånden. Fra fingrenes lengde og bredde til mellomhåndsknoklene og håndleddsleddene. Hendene våre er faktisk så komplekse og unike at geometrien deres til og med kan være en bedre biometrisk identifikator enn ansiktet vårt.

Så mange detaljer må til for å tegne en realistisk hånd (Foto: artincontext)

Hender er vanskelige å tegne, selv for mennesker.

Derfor er det å avbilde hender en av de vanskeligste oppgavene innen tegning. Geometrien gjør dem til vanskelige objekter å illustrere. Derfor tegnes tegneseriefigurer ofte med tre fingre og en tommel. Fordi det er så mye enklere. Og vi ser det så ofte at vi ikke engang legger merke til det. Så problemet med hender er ikke nytt og har ikke noe med kunstig intelligens å gjøre. Det er et kunstproblem. Jasper Whisperer synes til og med at det er litt morsomt at AI opplever de samme kunstneriske vanskelighetene som mennesker.

Illustrasjon: screenrant

For de som vil vite mer: Hva mener ChatGPT om det?

En annen populær AI i disse dager er ChatGPT. Det er en chatbot som ble lansert av OpenAI i november 2022, og som har blitt kjent for sine detaljerte og klare svar innen mange kunnskapsområder, også IT. Så programmerere spøker allerede med at denne roboten en dag vil erstatte dem.

Programmerernes reaksjoner på ChatGPT (Illustrasjon: Clément Mihailescu).

Og hvis du spør ChatGPT hvorfor folk synes det er vanskelig å tegne hender og fingre, svarer den følgende: "Å tegne hender regnes ofte som et av de vanskeligste elementene for en kunstner på grunn av detaljnivået og kompleksiteten. Hendene består av mange små bein, muskler og sener. Og alle disse må gjengis nøyaktig for at tegningen skal bli realistisk. I tillegg kan håndens posisjon være vanskelig å gjengi fordi den er i konstant bevegelse og kan plasseres på uendelig mange måter. På grunn av denne kompleksiteten anser mange kunstnere det å tegne hender som en av de mest frustrerende og utfordrende sidene ved håndverket sitt."

Skjermdump: medium

The Jasper Whisperer er altså enig med ChatGPTs påstand.


Vi krever for mye av kunstig intelligens

The Jasper Whisperer mener at vi ber den kunstige intelligensen om å gjøre det umulige. Et menneske tegner så lenge det eksisterer, men det kan ta en uke å lage en realistisk hånd. Teknologien for kunstig intelligens er fortsatt under utvikling. Den samme Midjourney er mindre enn ett år gammel. Og selv om vi allerede ser fantastiske bilder, finnes det begrensninger.

Det blir enda mer komplisert når du skal lage flere hender i samme bilde, for eksempel to personer som holder hverandre i hånden, eller en vennegjeng som klemmer hverandre. Og hver hånd må tegnes nøyaktig, ellers blir ikke hele bildet slik det skal være. Ofte er hendene fra AI så rare fordi de er "overbelastet" på bildet.

Eksempel på "overbelastede" hender i en ramme (Illustrasjon: medium)

Hva synes vanlige brukere om dette?

Det var på Reddit at jeg kom over en ganske lang forklaring. En av brukerne beskrev dette problemet i detalj. Poenget er at AI-en ikke tenker logisk når den "skaper" kunst. Den vet ikke at mennesker har et skjelett med en viss mengde bein, organer, muskler og alt mulig annet. Den vet ikke hva som må være på et bestemt sted og ha et bestemt utseende avhengig av kroppens bevegelser. Alt AI-en kan gjøre, er å reprodusere det den har fått beskjed om. Den betingede Midjourney med sitt bilde vil svare på spørsmålet "HVA er det" i stedet for "HVORFOR er det slik". Noen ganger vil den generere klesbelter som går i ett med personens hud og andre slike ting. Faktisk kan roboten aldri forstå tingene den "tegner" på samme måte som du forstår dem. Den konstruerer ikke kunsten sin på samme måte som en ekte kunstner. Mennesker forstår det de tegner på et dypere nivå og tar hensyn til mange andre ting som ikke gjenspeiles i tegningen.

Midjourney forstår ikke helt hva en astronauthånd skal være (Illustrasjon: medium)

Noen sprø teorier

Forfatterne av theamericangenius fremsetter en teori om at AI finner måter å døyve frykten vår på og forsikre oss om at den ikke kommer til å ta over verden. På den måten er det som om den prøver å si "jeg er ingen trussel, jeg kan ikke tegne enkle armer eller ben". Vitser er vitser, men alle teorier har rett til å eksistere.

Illustrasjon: theamericangenius

AI-en styres for det meste av bildene som finnes på internett. Og ut fra dette faktum på Reddit dukker det opp en ny teori. Kunstig intelligens kan enkelt lage symmetriske ansikter fordi det finnes millioner av bilder og tegninger av dem. Det finnes ikke like mange hender, for ikke å snakke om det faktum at de selv og poseringene deres er mer komplekse. Denne teorien underbygges av tegninger av uerfarne kunstnere eller leksjoner for nybegynnere, der du ofte kan se hender som er gjemt i lommer eller rett og slett ikke er i rammen.

Et eksempel som vises for nybegynnere. Hender skjult i lommer (Foto: artistsnetwork)

En teori om menneskets psykologi

Det siste eksemplet har å gjøre med det faktum at vi psykologisk sett er tilbøyelige til å lete etter feil i hånden i stedet for i ansiktet. For å få en bedre idé om hva vi snakker om, må du se på det opp-ned-vendte bildet av Adeles ansikt:

Illustrasjon: businessinsider

Ved første øyekast er det ikke noe galt her, men hvis du snur bildet opp ned igjen, er resultatet allerede dette:

Illustrasjon: businessinsider

Hvorfor legger vi ikke merke til dette? Denne illusjonen er kjent som "Thatcher-effekten", oppkalt etter den tidligere britiske statsministeren Margaret Thatcher, hvis bilde først ble brukt til dette trikset.

Thatcher-effekten (Illustrasjon: businessinsider)

Denne effekten setter søkelyset på en feil i måten hjernen vår fungerer på - vi kan ikke bearbeide et omvendt ansikt. Og en studie fra The Naked Scientists tyder på at mennesker gjenkjenner et ansikt ut fra dets deler - øyne, munn og nese. Så når vi får se et opp-ned-bilde av Thatcher, blir det ikke behandlet på riktig måte.

Og som businessinsiders har skrevet, møter vi så sjelden omvendte ansikter at vi ikke er i stand til å tolke uttrykket på dem. Ansiktstrekkene ser normale ut, så hjernen vår tror at resten av ansiktet også gjør det. Derfor legger vi ikke merke til noe uvanlig før vi orienterer ansiktet deretter.

Det er imidlertid en helt annen situasjon med hendene. The Jasper Whisperer påpeker at det er noe ved hendene som vi er veldig følsomme for, og som vi kjenner instinktivt. Så hvis AI-en gjør en feil med hendene, merker vi det umiddelbart. Selv om skulderen ikke er korrekt gjengitt, er det ikke sikkert at en person legger merke til det. Men hvis proporsjonene til tommelen, pekefingeren, langfingeren, ringfingeren og lillefingeren er litt feil, vil det merkes umiddelbart.

Du vil umiddelbart legge merke til de feilgenererte hendene (Illustrasjon: medium)

Vi har altså to sider av saken. På den ene siden har vi en kunstig intelligens som ikke har en stor nok database med bilder av menneskehender og ikke helt forstår hva "anatomisk korrekte hender" betyr generelt. Derfor må den fortsatt bruke mye tid på å behandle akkurat disse dataene. På den andre siden har vi den psykologiske faktoren med en person som av en eller annen grunn umiddelbart legger merke til ufullkommenheter i hendene. Men det er fortsatt mulig å forbedre genereringen av fingre ved hjelp av AI.

Hvordan få AI til å tegne hender bedre?

Og nok en gang kommer Jasper Whisperer til unnsetning. Bloggen til denne AI-en har en hel guide til hvordan du kan forbedre genereringen av hender.

Gi hendene noe å gjøre

Hender som gjør noe, håndteres bedre av AI-en. For eksempel hvis hånden din skal holde en kopp. Dette har med treningsdata å gjøre: Du begrenser søket som viser fingrene i bestemte posisjoner. Resultatet er selvfølgelig ikke alltid vellykket. Her er to genererte bilder: det første er DALL-E, det andre er Midjourney. På bildet der jenta holder glasset, er alt mer eller mindre vellykket. Men bildet med fisken mislyktes et sted (og ikke bare hendene).

Noe gikk galt i det andre bildet (Illustrasjoner: medium, midjourney)

Bruk skyggelegging (inpainting)

Med inpainting kan du slette en del av det genererte bildet slik at AI-en kan fylle det med noe annet. Dette er en god måte å tegne hendene på. Dette håndteres best av Dall-E 2. Og til sammenligning er et før- og etterbilde malt over:

Illustrasjon: petapixel

Forbedre dine egne hender

Metoden vil ikke fungere for alle, men hvis du eller noen du kjenner har Adobe Photoshop eller et annet grafisk redigeringsprogram, kan du gjøre om hendene som AI-en har generert.

Beskjær bildet

Noen ganger er det enkleste og beste alternativet ganske enkelt å beskjære bildet litt for å holde noen av hendene utenfor rammen. Det var akkurat dette en bruker på Discord-serveren Midjourney gjorde.

Legg ut bilder til sammenligning

Midjourney har en funksjon som kalles "image-to-image" - det vil si at du først gir det nevrale nettverket et bilde og deretter skriver en tekst om hva som skal gjøres. Og denne måten vil gjøre det mye enklere for AI-en, som allerede har vanskelig for å lage hender.

Hånden er fortsatt et problem, men ikke så kritisk. (Illustrasjon: Alt om AI)

5) Flere hint. Det er allerede klart at det å bare skrive "hånd" ikke vil gi oss de resultatene vi trenger. Derfor må vi gi den kunstige intelligensen flere hint. Beskriv posituren og handlingen i detalj, tenk på små detaljer som fingernegler eller rynker på knokene. Og beskriv håndens form. Bruk begreper som "bøyd" eller "åpen" for å gjøre dette.

Nok en gang er det verdt å huske at det ikke gjør noen forskjell å be om "5 fingre". Det var tross alt akkurat det som skjedde med meg. Jeg stavet "hånd med 5 fingre, negler, rynker rundt knokene, åpen, --ar 2:3 --q 2 --v 4" som foreslått av Jasper. Og jeg fikk faktisk et resultat med en hånd som har 5 fingre. Men bare på 2 av de 4 bildene. Dessuten ligner de alle på konsepttegningene til et skrekkspill. Det er imidlertid allerede en sjanse for at vi etter generering vil ha et mer eller mindre godt resultat.

Hvordan ellers få AI til å tegne en hånd?

Faktisk, for å unngå å måtte foreskrive mange hint til AI, men for å få en hånd med 5 fingre som ikke ligner på skumle spill eller filmer, trenger du bare å skrive ett ord - "hansker". Det ordet var nok for meg å få et resultat som dette. Så hvis du ikke trenger en "bar" hånd, ville dette være det beste alternativet.

Men hvis du ikke bare vil ha hender, men vil at de skal være involvert i rammen? Da skriver du for eksempel "et par som holder hverandre i hånden mens de går i en park og har på seg hansker". Hvis du begynner å zoome inn, kan du finne små feil, men med det blotte øye er det vanskelig å se hva som er galt.

Grunnen til dette er at man bare ved å skrive "gloves" på google images kan se at hanskene på de fleste bildene ligger rett opp, og at man tydelig kan se fem fingre på dem. Og AI-en baserer seg bare på en database med bilder som ligger på nettet.

Hvis du imidlertid vil ha en hånd uten hansker, kommer en vanlig manikyr til unnsetning. Skriv for eksempel inn "giftering og neglelakk" i The Jasper Whsiper, og vips har du 5 fingre uten feil og mangler.

Illustrasjon: medium

Årsaken er den samme som med hanskene. På et google-bilde av 90 % manikyr kan man tydelig se 5 fingre, og ofte i samme posisjon. Derfor er AI raskere til å finne ut hvordan dette skal avbildes.

Poenget er: Når kan vi forvente at maskinene kommer?

Så faktisk er Midjourney og lignende i stand til å avbilde en hånd med 5 fingre. Det er bare det at de fleste forespørslene fra folk ikke var helt nøyaktige, og situasjonen ble komplisert av selve håndstrukturen, som er vanskelig å avbilde, noe som førte til slike opphetede diskusjoner. Resultatet med 5 fingre fra en AI vil ikke alltid være slik det skal være. Men det finnes allerede mange alternativer. Det er viktig å huske at de nevrale nettverksdelene som er nevnt i dag, er mindre enn ett år gamle. Selv erfarne kunstnere som har tegnet i årevis, vil ikke alltid kunne skape en realistisk hånd på kort tid. Så det er ingen god idé å kreve eksepsjonelt kule resultater fra nevrale nettverk "her og nå". Kunstig intelligens lærer for hver dag som går, og hvis den skal komme til neste nivå når det gjelder å skape et bilde, må den få flere og flere riktige forespørsler som inneholder mye raffinement. For et par år siden var det generelt få som tok AI på alvor når de så den prøve å skape noe. I dag er det imidlertid en aktiv diskusjon om "Vil maskiner erstatte oss?". Absolutt ikke alle; behovet for fotografer har ikke forsvunnet med Adobe Photoshop. For profesjonelle kunstnere vil Midjourney være nok et nyttig verktøy for å gjøre arbeidet raskere og bedre. Noen vil synes det er et interessant verktøy å leke med, mens andre vil prøve å finne ut hva som er problemet med fingermapping. Om noen år vil vi kanskje lure på om det kommer til å bli et opprør blant maskinene.

For de som vil vite mer

  • AI-GULAG: hvordan kunstig intelligens bidrar til å "omskolere" dissidenter i Kina.
  • Big Brother won't track: hvordan verden har lært seg å lure ansiktsgjenkjenningssystemer.
  • Digital Disneyland: Hvordan moderne teknologi gjør det mulig for Disney å drive verdens beste fornøyelsespark.
  • Ikke bare Excalibur: historien til høypresisjonsammunisjon for 155 mm kanoner fra M712 Copperhead til M1156 PGK