L'irraggiungibile apice dell'arte: perché l'intelligenza artificiale di Midjourney disegna 6 dita sulle mani e come si può rimediare?

Di: Vladislav Nuzhnov | 24.01.2023, 09:00

Perché l'intelligenza artificiale (IA) mostra mani strane? Questo argomento, come tutto ciò che riguarda le reti neurali, è diventato molto rilevante e solleva molte domande, quindi dobbiamo affrontarlo una volta per tutte. Solo i pigri non hanno provato a "giocare" con Midjourney o DALL-E. Le foto che creano in pochi minuti trovano rapidamente il loro pubblico. Inutile dire che si stanno creando intere comunità di oltre 100 mila persone per condividere le opere generate dall'IA.

Tutto questo è arrivato al punto che gli artisti di Artstation, il più grande portale per artisti, hanno inscenato uno sciopero contro l'IA, chiedendo di etichettare le immagini che non sono state create da esseri umani. Per alcuni, questo potrebbe ricordare gli eventi del gioco Detroit: Become Human, quando l'umanità si è opposta agli androidi intelligenti che erano migliori degli umani in tutto e li hanno sostituiti in molti settori della vita. Dagli autisti agli atleti professionisti. Ecco perché il dibattito sulle reti neurali non si placa, e ora alcuni hanno iniziato a pensare seriamente se l'IA sarà in grado di sostituire le persone in varie professioni nel nostro mondo, non nel gioco?

Ma torniamo al tema delle mani. Perché l'IA non è in grado di visualizzare correttamente le dita e cosa influisce su questo? È perché anche gli esseri umani hanno difficoltà a disegnare le mani? Oppure il problema sta nell'insufficiente database su cui si basa l'intelligenza artificiale? E se pretendessimo troppo dall'IA? In realtà, tutto ciò è vero e il risultato è persino influenzato dalla psicologia umana. Per questo motivo la redazione di gg ha indagato e vi spiegherà perché Midjourney ha un problema nella generazione di arti umani.

Un esempio di come Midjourney genera le braccia (illustrazione: medium)

Per cominciare, cos'è Midjourney e altri strumenti simili?

Midjourney è un laboratorio di ricerca indipendente che sviluppa l'omonimo programma di intelligenza artificiale che crea immagini a partire da descrizioni testuali. Le immagini vengono create utilizzando uno speciale chatbot su Discord. Lo strumento è attualmente in fase di beta testing aperto, iniziato il 12 luglio 2022. Analoghi popolari di Midjourney sono DALL-E e Stable Diffusion. Il principio di funzionamento è molto simile. L'unica differenza è lo stile e il livello di sviluppo dell'IA.

Immagine creata dall'IA. (Illustrazione: howtogeek)

Per chi vuole saperne di più: come viene creata esattamente un'immagine?

Un singolo inserimento di testo non è sufficiente. Se si chiede semplicemente a Midjourney di raffigurare un maiale in una vasca idromassaggio, il risultato sarà mediocre. Ma abbiamo visto tutte quelle immagini incredibili, qual è il segreto? Usiamo i suggerimenti per aiutarci. Li usiamo per specificare il tipo di immagine che vogliamo ottenere dall'intelligenza artificiale. E con il giusto suggerimento, è possibile ottenere un maiale realistico.

Il risultato "prima" e "dopo" una richiesta dettagliata (Screenshot: itpedia)


E le dita?

Parliamo ora della barriera che l'intelligenza artificiale non riesce a superare: la corretta rappresentazione delle dita delle mani e dei piedi. E questa è tutt'altro che un'ipotesi. Questo problema è molto diffuso ed è già diventato un argomento di discussione e di scherno.

Un esempio di come le persone reagiscono alle mani generate dall'IA (Illustrazione: knowyourmeme)

Ma perché succede questo? La risposta a questa domanda esiste già. Tra l'altro, grazie a un'altra IA.

Risposta dello sviluppatore di una delle IA

Esiste un'intelligenza artificiale chiamata Jasper Whisperer. È specializzata nella scrittura di testi e crea anche immagini generative (e no, "generativo" non ha nulla a che fare con "degenerato", anche se hanno un suono molto simile). The Jasper Whisperer ha anche un blog su medium, che descrive il motivo per cui esiste un problema di riproduzione degli arti. Ci sono diversi fattori che influiscono su questo aspetto e ognuno deve essere analizzato separatamente.

Un esempio del lavoro di The Jasper Whisperer (Illustrazione: medium)

La mano è una parte complessa del corpo

L'anatomia della mano è piuttosto complessa. Le dita hanno forme e dimensioni diverse. Devono sempre essere rappresentate correttamente, altrimenti la mano sembrerà innaturale. Anche quando le mani sono in posizione "rilassata", ci sono informazioni che devono essere disegnate: rughe e pieghe sulle nocche o ombreggiature sui palmi.

A causa della geometria complessa, non esiste un insieme standard di linee o forme che l'IA possa riconoscere come mani. L'IA deve confrontare ogni volta molte forme diverse, che alla fine si trasformano in 6 o più dita.

Inoltre, ci sono circa 30 punti di differenze geometriche nella mano umana. Dalla lunghezza e larghezza delle dita alle ossa metacarpali e alle articolazioni carpali. In generale, le nostre mani sono così complesse e uniche che la loro geometria può essere un identificatore biometrico ancora migliore del nostro volto.

Ecco quanti dettagli sono necessari per disegnare una mano realistica (Foto: artincontext)

Le mani sono difficili da disegnare, anche per gli esseri umani

La rappresentazione delle mani è uno dei compiti più difficili del disegno. La loro geometria le rende oggetti difficili da illustrare. Ecco perché i personaggi dei cartoni animati sono spesso disegnati con tre dita e un pollice. È molto più semplice. E lo vediamo così spesso che non ci facciamo nemmeno caso. Quindi, il problema delle mani non è nuovo e non è legato all'intelligenza artificiale. Si tratta di un problema artistico. Il sussurratore di Jasper trova persino un po' divertente che l'intelligenza artificiale abbia le stesse difficoltà artistiche degli esseri umani.

Illustrazione: screenrant

Per chi vuole saperne di più: cosa ne pensa ChatGPT?

Un'altra IA molto popolare al giorno d'oggi è ChatGPT. Si tratta di un chatbot lanciato da OpenAI nel novembre 2022 che si è fatto conoscere per le sue risposte dettagliate e precise in molti campi del sapere, anche nel settore informatico. Per questo motivo i programmatori stanno già scherzando sul fatto che questo bot un giorno li sostituirà.

Lareazione dei programmatori a ChatGPT (Illustrazione: Clément Mihailescu)

E se chiedete a ChatGPT perché le persone trovano difficile disegnare mani e dita, vi risponderà quanto segue: "Disegnare le mani è spesso considerato uno degli elementi più difficili per un artista a causa del livello di dettaglio e complessità. Le mani sono composte da molte piccole ossa, muscoli e tendini. E tutti devono essere rappresentati accuratamente perché il disegno sia realistico. Inoltre, la posizione delle mani può essere difficile da trasmettere perché sono costantemente in movimento e possono essere posizionate in un numero infinito di modi. A causa di queste difficoltà, molti artisti trovano che il disegno delle mani sia uno degli aspetti più frustranti e impegnativi del loro mestiere".

Schermata: medium

Anche ChatGPT è d'accordo con l'affermazione di The Jasper Whisperer.


Pretendiamo troppo dall'intelligenza artificiale

The Jasper Whisperer ritiene che stiamo chiedendo all'intelligenza artificiale di fare l'impossibile. Gli esseri umani disegnano da sempre, ma possono impiegare una settimana per creare una mano realistica. La tecnologia dell'intelligenza artificiale è ancora in fase di sviluppo. Ecco perché Midjourney ha meno di un anno. E anche se siamo già in grado di vedere immagini straordinarie, ci sono alcuni limiti.

La situazione diventa ancora più complicata quando si creano più mani in un'unica immagine, ad esempio due persone che si tengono per mano o un gruppo di amici in un abbraccio. E ogni mano deve essere disegnata con precisione, altrimenti l'intera immagine non sarà come dovrebbe essere. Molto spesso, le mani dell'IA appaiono strane perché sono "sovraccariche" nella foto.

Un esempio di mani "sovraccariche" nell'inquadratura (Illustrazione: medium)

Cosa ne pensano gli utenti comuni?

Ho trovato una spiegazione piuttosto dettagliata su Reddit. Uno degli utenti ha descritto il problema in dettaglio. Il fatto è che l'IA non ha un pensiero logico quando "crea" l'arte. Non sa che gli esseri umani hanno uno scheletro con un certo numero di ossa, organi, muscoli e tutto il resto. Non sa cosa dovrebbe trovarsi in questo o quel posto e avere un certo aspetto a seconda del movimento del corpo. L'IA può solo riprodurre ciò che le viene detto. Il Midjourney condizionale risponde alla domanda "COSA è" con la sua immagine, non "PERCHÉ è". A volte genera cinture di abbigliamento che si confondono con la pelle umana e altre cose simili. In realtà, il bot non sarà mai in grado di capire le cose che "disegna" come le capite voi. Non costruisce la sua arte come fa un vero artista. Gli esseri umani comprendono ciò che disegnano a un livello più profondo e tengono conto di molte altre cose che non si riflettono nel disegno.

Midjourney non ha compreso appieno come dovrebbe essere la mano di un astronauta (Illustrazione: medium)

Alcune teorie assurde

Ad esempio, gli autori del sito web theamericangenius hanno avanzato la teoria secondo cui l'intelligenza artificiale trova il modo di calmare le nostre paure e di assicurarci che non sta per conquistare il mondo. In questo modo, sembra che stia cercando di dire: "Non sono una minaccia, non posso disegnare semplici braccia o gambe". Scherzi a parte, ogni teoria ha il diritto di esistere.

Illustrazione: theamericangenius

L'intelligenza artificiale è guidata principalmente dalle foto disponibili su Internet. E da questo fatto su Reddit nasce un'altra teoria. L'intelligenza artificiale può creare facilmente volti simmetrici perché ci sono milioni di foto e disegni. Le mani non sono così numerose, senza contare che esse stesse e la loro posa sono più complesse. Questa teoria è rafforzata dai disegni di aspiranti artisti o dalle lezioni per principianti, dove spesso si vedono mani nascoste nelle tasche o semplicemente fuori dall'inquadratura.

Un esempio che viene dimostrato agli artisti principianti. Mani nascoste in una tasca (Foto: artistsnetwork)

Una teoria sulla psicologia umana

L'ultimo esempio è legato al fatto che siamo psicologicamente portati a cercare gli errori nelle mani delle persone, non nei loro volti. Per capire meglio di cosa stiamo parlando, dobbiamo guardare l'immagine rovesciata del volto di Adele:

Illustrazione: businessinsider

A prima vista, non c'è nulla di sbagliato, ma se si capovolge l'immagine, il risultato sarà lo stesso:

Illustrazione: businessinsider

Perché non ce ne accorgiamo? Questa illusione è nota come "effetto Thatcher", dal nome dell'ex primo ministro britannico Margaret Thatcher, la cui immagine è stata utilizzata per la prima volta per questo trucco.

L'effetto Thatcher (illustrazione: businessinsider)

Questo effetto enfatizza un difetto di funzionamento del nostro cervello: non siamo in grado di elaborare un volto capovolto. Uno studio di The Naked Scientists suggerisce che le persone riconoscono i volti dalle loro parti: occhi, bocca e naso. Pertanto, quando ci viene mostrata un'immagine della Thatcher capovolta, non viene elaborata correttamente.

E come ha scritto businessinsider, raramente incontriamo volti capovolti di cui non riusciamo a interpretare l'espressione. I tratti del viso sembrano normali, quindi il nostro cervello pensa che il resto del viso sia normale. Per questo motivo non notiamo nulla di insolito finché non orientiamo il volto in modo appropriato.

La situazione delle mani è molto diversa. The Jasper Whisperer osserva che c'è qualcosa nelle mani a cui siamo molto sensibili e che conosciamo istintivamente. Pertanto, se l'IA commette un errore con le mani, lo notiamo immediatamente. Anche se la spalla non è rappresentata correttamente, una persona potrebbe non notarlo. Ma se le proporzioni del pollice, dell'indice, del medio, dell'anulare e del mignolo sono leggermente sbagliate, lo noteremo immediatamente.

Notiamo subito le mani generate in modo errato (illustrazione: medium)

Abbiamo quindi due facce della medaglia. Da un lato, l'intelligenza artificiale non dispone di un database sufficientemente ampio di foto di mani umane e non comprende appieno cosa siano le "mani anatomicamente corrette". Quindi ha ancora bisogno di spendere molto tempo per elaborare questi dati particolari. Dall'altro lato, c'è il fattore psicologico di una persona che, per qualche motivo, nota immediatamente le imperfezioni delle mani. Tuttavia, è ancora possibile migliorare la generazione delle dita con l'aiuto dell'IA.

Come far sì che l'IA disegni meglio le mani?

L'uomo che sussurra a Jasper viene di nuovo in soccorso. Questa IA ha un'intera guida su come migliorare la generazione delle mani sul suo blog.

Dare alle mani qualcosa da fare

Le mani che fanno qualcosa vengono elaborate meglio dall'IA. Ad esempio, se la mano deve tenere una tazza. Ciò è dovuto ai dati di addestramento: si restringe il cerchio di ricerca che mostra le dita in determinate posizioni. Naturalmente, il risultato non è sempre positivo. Ecco due immagini generate: la prima è DALL-E, la seconda è Midjourney. La foto con la ragazza che tiene il bicchiere è più o meno riuscita. Ma la foto con il pesce ha avuto un malfunzionamento da qualche parte (e non solo con le mani).

Nella seconda foto, qualcosa è andato storto (Illustrazioni: medium, midjourney)

Utilizzare l'inpainting

L'inpainting consente di cancellare una parte dell'immagine generata in modo che l'IA la riempia con qualcos'altro. È un buon modo per ridisegnare le mani. Dall-E 2 è il migliore in questo senso. Per un confronto, ecco le foto prima e dopo l'inpainting:

Illustrazione: petapixel

Migliorare da soli

Questo metodo non è adatto a tutti, ma se voi o un amico conoscete Adobe Photoshop o un altro editor grafico, potete rielaborare le mani generate dall'IA se lo desiderate.

Ritagliare la foto

A volte, l'opzione più semplice e migliore è semplicemente quella di ritagliare un po' la foto in modo che alcune mani non siano presenti nell'inquadratura. Questo è esattamente ciò che ha fatto uno degli utenti del server Discord di Midjourney.

Fornire foto di confronto

Midjourney dispone di una funzione chiamata immagine-immagine, che significa che prima si fornisce alla rete neurale una foto e poi si scrive in un testo ciò che deve essere fatto. Questo metodo renderà molto più semplice la creazione di mani da parte dell'intelligenza artificiale, che ha già difficoltà a crearle.

La mano è ancora un problema, ma non così critico. (Illustrazione: All About AI)

5) Più suggerimenti. È già chiaro che scrivere semplicemente "mano" non ci darà il risultato giusto. Pertanto, dobbiamo dare all'IA più suggerimenti. Descrivete dettagliatamente la posa e l'azione, menzionate piccoli dettagli come le unghie o le rughe sulle nocche. E descrivere la forma della mano. A tale scopo, utilizzare termini come "piegata" o "aperta".

Anche in questo caso, vale la pena ricordare che chiedere "5 dita" non cambierà la situazione. Dopo tutto, questo è esattamente ciò che è successo a me. Ho scritto il prompt che The Jasper raccomanda: "mano con 5 dita, unghie, rughe intorno alle nocche, aperta, --ar 2:3 --q 2 --v 4". E sono riuscito a ottenere un risultato con una mano con 5 dita. Ma solo in 2 delle 4 immagini. E ognuna di esse assomiglia al concept art di un gioco horror. Tuttavia, abbiamo già la possibilità che dopo la generazione avremo un risultato più o meno buono.

In quale altro modo possiamo fare in modo che l'IA disegni una mano?

In realtà, per non scrivere molti suggerimenti per l'IA, ma per ottenere una mano con 5 dita che non assomigli a giochi o film raccapriccianti, è necessario scrivere solo una parola: "guanti". Questa parola è stata sufficiente per ottenere questo risultato. Quindi, se non avete bisogno di una mano "nuda", questa opzione sarà la migliore.

Ma se non avete bisogno solo di mani, ma di coinvolgerle nell'inquadratura? Allora scrivete, ad esempio, "una coppia che si tiene per mano mentre cammina in un parco e indossa dei guanti". Se si inizia a ingrandire l'immagine, si possono trovare piccoli difetti, ma è piuttosto difficile vedere qualcosa di sbagliato a occhio nudo.

Questo accade perché, se cerchiamo semplicemente "guanti" in Google Immagini, vedremo che nella maggior parte delle foto i guanti sono dritti e si vedono chiaramente 5 dita. E l'AI si basa sul database di foto disponibili online.

Se avete bisogno di una mano senza guanti, una normale manicure vi verrà in soccorso. Per esempio, inserite "fede nuziale e smalto" in The Jasper Whsiperer e voilà, 5 dita, senza difetti o altro.

Illustrazione: medium

Il motivo è lo stesso delle muffole. Nel 90% delle foto di Google con manicure, si vedono chiaramente 5 dita, spesso nella stessa posizione. Pertanto, l'intelligenza artificiale sarà in grado di capire come raffigurarle più velocemente.

In sintesi: quando possiamo aspettarci una rivolta delle macchine?

Di fatto, Midjourney e le sue controparti sono in grado di rappresentare una mano con 5 dita. È solo che la maggior parte delle richieste delle persone non erano del tutto precise e la situazione era complicata dalla struttura stessa delle mani, difficile da rappresentare, che ha portato a discussioni così accese. Il risultato con 5 dita in AI non sarà sempre quello giusto. Ma ci sono già abbastanza opzioni. È importante ricordare che alcune delle reti neurali citate oggi hanno meno di un anno. Anche gli artisti esperti che disegnano da anni non saranno sempre in grado di creare rapidamente una mano realistica. Pertanto, non è il caso di pretendere dalle reti neurali risultati straordinari nel presente. L'intelligenza artificiale impara ogni giorno e se si vuole che raggiunga un nuovo livello nella creazione di un'immagine, è necessario fornirle query sempre più corrette che contengano molti affinamenti. In generale, un paio di anni fa, quando si assisteva ai tentativi dell'intelligenza artificiale di creare qualcosa, pochi la prendevano sul serio. Oggi, invece, si discute attivamente se le macchine ci sostituiranno. Ovviamente no, e la necessità di fotografi non è scomparsa con l'avvento di Adobe Photoshop. Per gli artisti professionisti, Midjourney sarà un altro strumento utile che velocizzerà e migliorerà il loro lavoro. Per alcuni sarà uno strumento interessante con cui giocare, mentre altri cercheranno di capire quale sia il problema delle impronte digitali. E poi passerà qualche anno e si potrà pensare se ci sarà una rivolta delle macchine?