Die unerreichbare Spitze der Kunst: Warum zeichnet die künstliche Intelligenz Midjourney 6 Finger auf die Hände und wie kann man das beheben?
Warum zeigt die künstliche Intelligenz (KI) seltsame Hände? Dieses Thema ist, wie alles, was mit neuronalen Netzen zu tun hat, sehr relevant geworden und wirft viele Fragen auf, so dass wir uns ein für alle Mal damit befassen müssen. Nur die Faulen haben nicht versucht, mit Midjourney oder DALL-E zu "spielen". Die Fotos, die sie in wenigen Minuten erstellen, finden schnell ihr Publikum. Unnötig zu erwähnen, dass ganze Gemeinschaften von mehr als 100.000 Menschen entstanden sind, um ihre von der KI erzeugten Werke zu teilen.
Das ging so weit, dass Künstler auf Artstation, dem größten Portal für Künstler, einen Streik gegen die KI inszenierten und zur Kennzeichnung von Bildern aufriefen, die nicht von Menschen geschaffen wurden. Manch einen mag dies an die Ereignisse im Spiel Detroit: Become Human, als sich die Menschheit gegen intelligente Androiden wehrte, die in allem besser waren als der Mensch und ihn in vielen Lebensbereichen ersetzten. Vom Autofahrer bis zum Profisportler. Das ist der Grund, warum die Debatte um neuronale Netze nicht abebbt, und jetzt haben einige Leute begonnen, ernsthaft darüber nachzudenken, ob KI in der Lage sein wird, Menschen in verschiedenen Berufen in unserer Welt zu ersetzen, nicht im Spiel?
Aber kommen wir zurück zum Thema Hände. Warum kann die KI die Finger nicht richtig darstellen, und woran liegt das? Liegt es daran, dass es selbst Menschen schwerfällt, Hände zu zeichnen? Oder liegt das Problem in der unzureichenden Datenbank, auf die sich die künstliche Intelligenz stützt? Was ist, wenn wir zu viel von der KI verlangen? In der Tat trifft alles zu, und das Ergebnis wird sogar von der menschlichen Psychologie beeinflusst. Deshalb hat die gg-Redaktion nachgeforscht und wird Ihnen sagen, warum Midjourney ein Problem mit der Erzeugung menschlicher Gliedmaßen hat.
Zu Beginn: Was ist Midjourney und ähnliche Tools?
Midjourney ist ein unabhängiges Forschungslabor, das ein gleichnamiges Programm für künstliche Intelligenz entwickelt, das Bilder aus Textbeschreibungen erstellt. Die Bilder werden mithilfe eines speziellen Chatbots auf Discord erstellt. Das Tool befindet sich derzeit im offenen Betatest, der am 12. Juli 2022 begann. Beliebte Analoga von Midjourney sind DALL-E und Stable Diffusion. Das Funktionsprinzip ist sehr ähnlich. Der einzige Unterschied ist der Stil und das Niveau der KI-Entwicklung.
Für diejenigen, die mehr wissen wollen: Wie genau wird ein Bild erstellt?
Ein einzelner Texteintrag ist nicht genug. Wenn man Midjourney einfach bittet, ein Schwein in einem Whirlpool darzustellen, wird das Ergebnis eher mäßig sein. Aber wir haben all diese unglaublichen Bilder gesehen, was ist das Geheimnis? Wir benutzen Eingabeaufforderungen, um uns zu helfen. Mit ihnen geben wir an, welche Art von Bild wir von der künstlichen Intelligenz erhalten möchten. Und mit der richtigen Eingabeaufforderung kann man ein realistisches Schwein erhalten.
Das Ergebnis "vor" und "nach" einer detaillierten Eingabeaufforderung (Screenshot: itpedia)
Und was ist mit den Fingern?
Kommen wir nun zu dem Hindernis, das die KI nicht überwinden kann - die korrekte Darstellung von Fingern und Zehen. Und das ist alles andere als eine Hypothese. Dieses Problem ist weit verbreitet und wurde bereits zum Thema von Diskussionen und Spott.
Aber warum passiert das? Die Antwort auf diese Frage gibt es bereits. Übrigens, dank einer anderen KI.
Antwort des Entwicklers einer der KIs
Es gibt eine künstliche Intelligenz namens The Jasper Whisperer. Sie ist auf das Schreiben von Texten spezialisiert und erstellt auch generative Bilder (und nein, "generativ" hat nichts mit "degeneriert" zu tun, obwohl sie sehr ähnlich klingen). The Jasper Whisperer hat auch einen Blog auf Medium, in dem beschrieben wird, warum es ein Problem mit der Reproduktion von Gliedmaßen gibt. Es gibt mehrere Faktoren, die sich darauf auswirken, und jeder muss einzeln analysiert werden.
Die Hand ist ein komplexer Teil des Körpers
Die Anatomie der Hand selbst ist recht komplex. Zumindest die Finger gibt es in verschiedenen Formen und Größen. Sie müssen immer korrekt dargestellt werden, sonst sieht die Hand unnatürlich aus. Selbst wenn sich die Hände in einer "entspannten" Position befinden, gibt es Informationen, die gezeichnet werden müssen: Falten und Fältchen auf den Knöcheln oder Schattierungen auf den Handflächen.
Aufgrund der komplexen Geometrie gibt es keinen Standardsatz von Linien oder Formen, die die KI als Hand erkennen kann. Die KI muss jedes Mal viele verschiedene Formen vergleichen, und schließlich werden daraus 6 oder mehr Finger.
Darüber hinaus gibt es bei der menschlichen Hand etwa 30 geometrische Unterschiede. Von der Länge und Breite der Finger bis hin zu den Mittelhandknochen und Handwurzelgelenken. Im Allgemeinen sind unsere Hände so komplex und einzigartig, dass ihre Geometrie ein noch besseres biometrisches Erkennungsmerkmal sein kann als unser Gesicht.
Hände sind schwer zu zeichnen, selbst für Menschen
Daher ist die Darstellung von Händen eine der schwierigsten Aufgaben beim Zeichnen. Ihre Geometrie macht sie zu schwierig darzustellenden Objekten. Deshalb werden Zeichentrickfiguren oft mit 3 Fingern und einem Daumen gezeichnet. Das ist viel einfacher. Und wir sehen es so oft, dass wir es nicht einmal bemerken. Das Problem mit den Händen ist also nicht neu und hat nichts mit künstlicher Intelligenz zu tun. Es ist ein Problem der Kunst. Der Jasperflüsterer findet es sogar ein bisschen lustig, dass KI die gleichen künstlerischen Schwierigkeiten hat wie Menschen.
Für diejenigen, die mehr wissen wollen: Was denkt ChatGPT darüber?
Eine weitere beliebte KI ist ChatGPT. Dabei handelt es sich um einen Chatbot, der im November 2022 von OpenAI auf den Markt gebracht wurde und für seine detaillierten und präzisen Antworten in vielen Wissensgebieten, auch in der IT-Branche, bekannt geworden ist. Aus diesem Grund scherzen Programmierer bereits, dass dieser Bot sie eines Tages ersetzen wird.
Und wenn man ChatGPT fragt, warum es den Menschen schwer fällt, Hände und Finger zu zeichnen, antwortet er Folgendes: "Das Zeichnen von Händen wird oft als eines der schwierigsten Elemente für einen Künstler angesehen, weil es so detailliert und komplex ist. Die Hände bestehen aus vielen kleinen Knochen, Muskeln und Sehnen. Sie müssen alle genau wiedergegeben werden, damit die Zeichnung realistisch wirkt. Darüber hinaus kann die Position der Hände schwierig darzustellen sein, da sie ständig in Bewegung sind und auf unendlich viele Arten positioniert werden können. Aufgrund dieser Schwierigkeiten empfinden viele Künstler das Zeichnen von Händen als einen der frustrierendsten und schwierigsten Aspekte ihres Handwerks."
Auch ChatGPT stimmt der Aussage von The Jasper Whisperer zu.
Wir verlangen zu viel von künstlicher Intelligenz
Der Jasperflüsterer glaubt, dass wir von der KI Unmögliches verlangen. Menschen zeichnen schon so lange, wie es Menschen gibt, aber es kann eine Woche dauern, bis eine realistische Hand entsteht. Die Technologie der künstlichen Intelligenz befindet sich noch in der Entwicklung. Aus diesem Grund ist Midjourney noch nicht einmal ein Jahr alt. Und obwohl wir bereits atemberaubende Bilder sehen können, gibt es gewisse Grenzen.
Die Situation wird noch komplizierter, wenn man mehrere Hände in einem Bild erstellt, zum Beispiel zwei Menschen, die sich an den Händen halten oder eine Gruppe von Freunden, die sich umarmen. Und jede Hand muss genau gezeichnet werden, sonst wird das gesamte Bild nicht so, wie es sein sollte. Meistens sehen KI-Hände seltsam aus, weil sie auf dem Foto "überladen" sind.
Was denken normale Benutzer darüber?
Ich habe auf Reddit eine ziemlich detaillierte Erklärung gefunden. Einer der Nutzer hat das Problem detailliert beschrieben. Die Sache ist die, dass die KI kein logisches Denken hat, wenn sie Kunst "erschafft". Sie weiß nicht, dass der Mensch ein Skelett mit einer bestimmten Anzahl von Knochen, Organen, Muskeln und allem anderen hat. Sie weiß nicht, was sich an dieser oder jener Stelle befinden und je nach Bewegung des Körpers auf eine bestimmte Weise aussehen sollte. Alles, was die KI tun kann, ist zu reproduzieren, was ihr gesagt wird. Die bedingte Midjourney beantwortet die Frage "WAS ist es" mit ihrem Bild, nicht "WARUM ist es". Manchmal generiert sie Kleidungsstücke, die mit der menschlichen Haut verschmelzen, und andere ähnliche Dinge. In der Tat wird der Bot niemals in der Lage sein, die Dinge, die er "zeichnet", so zu verstehen, wie du sie verstehst. Er baut seine Kunst nicht so auf, wie es ein echter Künstler tut. Menschen verstehen das, was sie zeichnen, auf einer tieferen Ebene und berücksichtigen viele andere Dinge, die sich nicht in der Zeichnung widerspiegeln.
Einige verrückte Theorien
Die Autoren der Website theamericangenius stellen zum Beispiel die Theorie auf, dass die KI Wege findet, unsere Ängste zu beruhigen und uns zu versichern, dass sie nicht die Welt übernehmen wird. Auf diese Weise scheint sie uns sagen zu wollen: "Ich bin keine Bedrohung, ich kann nicht einfach Arme oder Beine zeichnen." Aber Spaß beiseite, jede Theorie hat ihre Daseinsberechtigung.
Die KI orientiert sich hauptsächlich an Fotos, die im Internet verfügbar sind. Und aus dieser Tatsache auf Reddit entsteht eine weitere Theorie. Künstliche Intelligenz kann leicht symmetrische Gesichter erstellen, weil es Millionen von Fotos und Zeichnungen davon gibt. Es gibt nicht so viele Hände, ganz zu schweigen davon, dass sie selbst und ihr Posing komplexer sind. Diese Theorie wird durch Zeichnungen von aufstrebenden Künstlern oder Lektionen für Anfänger untermauert, bei denen man oft Hände sieht, die in Taschen versteckt sind oder einfach aus dem Rahmen fallen.
Eine Theorie über die menschliche Psychologie
Das letzte Beispiel hat damit zu tun, dass wir psychologisch dazu neigen, Fehler in den Händen von Menschen zu suchen und nicht in ihren Gesichtern. Um besser zu verstehen, wovon wir sprechen, müssen wir uns das umgekehrte Bild von Adeles Gesicht ansehen:
Auf den ersten Blick ist daran nichts auszusetzen, aber wenn man das Bild noch einmal umdreht, ist das Ergebnis dasselbe:
Warum fällt uns das nicht auf? Diese Täuschung ist als "Thatcher-Effekt" bekannt, benannt nach der ehemaligen britischen Premierministerin Margaret Thatcher, deren Bild zuerst für diesen Trick verwendet wurde.
Dieser Effekt unterstreicht eine Schwachstelle in der Funktionsweise unseres Gehirns - wir können ein auf dem Kopf stehendes Gesicht nicht verarbeiten. Eine Studie von The Naked Scientists legt nahe, dass Menschen Gesichter anhand ihrer Teile - Augen, Mund und Nase - erkennen. Wenn uns also ein auf dem Kopf stehendes Bild von Thatcher gezeigt wird, wird es nicht richtig verarbeitet.
Und wie businessinsider schrieb, begegnen wir selten auf dem Kopf stehenden Gesichtern, bei denen wir nicht in der Lage sind, den Ausdruck zu interpretieren. Die Gesichtszüge sehen normal aus, also denkt unser Gehirn, dass auch der Rest des Gesichts normal aussieht. Deshalb bemerken wir erst dann etwas Ungewöhnliches, wenn wir das Gesicht entsprechend ausrichten.
Bei den Händen ist die Situation ganz anders. Der Jasperflüsterer stellt fest, dass es etwas in den Händen gibt, auf das wir sehr sensibel reagieren und das wir instinktiv kennen. Wenn die künstliche Intelligenz also einen Fehler bei den Händen macht, merken wir das sofort. Selbst wenn die Schulter nicht korrekt dargestellt wird, bemerkt ein Mensch dies vielleicht nicht. Aber wenn die Proportionen von Daumen, Zeige-, Mittel-, Ring- und kleinem Finger leicht abweichen, fällt das sofort auf.
Wir haben also zwei Seiten der Medaille. Einerseits verfügt die künstliche Intelligenz nicht über eine ausreichend große Datenbank mit Fotos von menschlichen Händen und weiß nicht genau, was "anatomisch korrekte Hände" sind. Sie muss also noch viel Zeit damit verbringen, diese speziellen Daten zu verarbeiten. Zum anderen gibt es den psychologischen Faktor einer Person, die aus irgendeinem Grund Unvollkommenheiten der Hände sofort bemerkt. Dennoch ist es möglich, die Erzeugung von Fingern mit Hilfe von KI zu verbessern.
Wie kann man KI dazu bringen, Hände besser zu zeichnen?
Der Jasper Whisperer kommt wieder zu Hilfe. Diese KI hat in ihrem Blog einen ganzen Leitfaden zur Verbesserung der Handgenerierung.
Geben Sie den Händen etwas zu tun
Hände, die etwas tun, werden von der KI besser verarbeitet. Zum Beispiel, wenn die Hand eine Tasse halten muss. Das liegt an den Trainingsdaten: Sie grenzen den Suchkreis ein, der Finger in bestimmten Positionen zeigt. Natürlich ist das Ergebnis nicht immer erfolgreich. Hier sind zwei generierte Bilder: das erste ist DALL-E, das zweite ist Midjourney. Das Foto mit dem Mädchen, das das Glas hält, ist mehr oder weniger erfolgreich. Aber bei dem Foto mit dem Fisch ist etwas schief gelaufen (und nicht nur bei den Händen).
Beim zweiten Foto ist etwas schief gegangen (Illustrationen: medium, midjourney)
Inpainting verwenden
Mit Inpainting können Sie einen Teil des generierten Bildes löschen, damit die KI ihn mit etwas anderem füllt. Dies ist ein guter Weg, um Hände neu zu zeichnen. Der Dall-E 2 ist der beste in diesem Bereich. Und zum Vergleich hier die Fotos vor und nach dem Inpainting:
Selbst nachbessern
Diese Methode ist nicht für jeden geeignet, aber wenn Sie oder ein Freund Adobe Photoshop oder ein anderes Grafikprogramm beherrschen, können Sie die von AI erzeugten Hände nachbearbeiten, wenn Sie möchten.
Das Foto zuschneiden
Manchmal ist die einfachste und beste Option, das Foto einfach ein wenig zuzuschneiden, so dass einige der Hände nicht im Bild sind. Das ist genau das, was einer der Benutzer auf dem Midjourney Discord Server gemacht hat.
Fotos zum Vergleich bereitstellen
Midjourney hat eine Funktion, die sich Bild-zu-Bild nennt, was bedeutet, dass man dem neuronalen Netzwerk zuerst ein Foto zur Verfügung stellt und dann in Textform aufschreibt, was getan werden muss. Diese Methode macht es für die KI viel einfacher, die sich bereits mit der Erstellung von Händen schwer tut.
5) Mehr Anhaltspunkte. Es ist bereits klar, dass das einfache Schreiben von "Hand" nicht das richtige Ergebnis liefert. Deshalb müssen wir der KI mehr Hinweise geben. Beschreiben Sie die Haltung und die Aktion im Detail, erwähnen Sie kleine Details wie Nägel oder Falten auf den Fingerknöcheln. Und beschreiben Sie die Form Ihrer Hand. Verwenden Sie dazu Begriffe wie "gebogen" oder "offen".
Auch hier sollten Sie daran denken, dass die Frage nach "5 Fingern" nichts an der Situation ändern wird. Schließlich ist mir genau das passiert. Ich habe die Aufforderung geschrieben, die The Jasper empfiehlt: "Hand mit 5 Fingern, Fingernägel, Falten um die Knöchel, offen, --ar 2:3 --q 2 --v 4". Und es ist mir tatsächlich gelungen, ein Ergebnis mit einer Hand mit 5 Fingern zu erhalten. Aber nur in 2 der 4 Bilder. Und jedes von ihnen ähnelt dem Konzeptbild eines Horrorspiels. Aber wir haben schon eine Chance, dass wir nach der Generierung ein mehr oder weniger gutes Ergebnis haben werden.
Wie sonst können wir die KI dazu bringen, eine Hand zu zeichnen?
Um nicht viele Tipps für die KI zu schreiben, sondern eine Hand mit 5 Fingern zu bekommen, die nicht an Gruselspiele oder -filme erinnert, muss man nur ein Wort schreiben - "Fäustlinge". Dieses Wort hat mir gereicht, um dieses Ergebnis zu erzielen. Wenn du also keine "nackte" Hand brauchst, ist diese Option die beste.
Aber was ist, wenn du nicht nur Hände brauchst, sondern sie in den Rahmen einbeziehen willst? Dann schreiben Sie zum Beispiel "ein Paar, das sich im Park an den Händen hält und Handschuhe trägt". Wenn Sie das Bild heranzoomen, können Sie kleine Fehler entdecken, aber mit bloßem Auge ist es ziemlich schwierig, etwas Falsches zu erkennen.
Denn wenn man in Google-Bildern einfach nach "Handschuhe" sucht, sieht man, dass die Handschuhe auf den meisten Fotos gerade liegen und man deutlich fünf Finger sehen kann. Und die KI stützt sich auf die Datenbank der online verfügbaren Fotos.
Wenn Sie eine handschuhfreie Hand brauchen, hilft Ihnen eine regelmäßige Maniküre weiter. Geben Sie zum Beispiel "Ehering und Nagellack" in The Jasper Whsiperer ein und voila, 5 Finger, ohne Defekte oder sonstiges.
Der Grund ist derselbe wie bei den Fäustlingen. Auf 90 % der Google-Fotos mit Maniküre sieht man deutlich 5 Finger, oft in der gleichen Position. Daher wird die KI in der Lage sein, schneller herauszufinden, wie man sie abbildet.
Zusammengefasst: Wann können wir mit einem maschinellen Aufstand rechnen?
In der Tat sind Midjourney und seine Gegenstücke in der Lage, eine Hand mit 5 Fingern darzustellen. Es ist nur so, dass die meisten Anfragen von Menschen nicht ganz akkurat waren, und die Situation wurde durch die Struktur der Hände selbst erschwert, die schwierig darzustellen ist, was zu solch hitzigen Diskussionen führte. Das Ergebnis mit 5 Fingern in der KI wird nicht immer das richtige sein. Aber es gibt schon genug Möglichkeiten. Man darf nicht vergessen, dass einige der heute erwähnten neuronalen Netze weniger als ein Jahr alt sind. Selbst erfahrene Künstler, die seit Jahren zeichnen, werden nicht immer in der Lage sein, schnell eine realistische Hand zu erstellen. Daher lohnt es sich nicht, von neuronalen Netzen im Hier und Jetzt außergewöhnlich coole Ergebnisse zu verlangen. Die künstliche Intelligenz lernt jeden Tag dazu, und wenn man möchte, dass sie bei der Erstellung eines Bildes ein neues Niveau erreicht, muss man ihr immer mehr korrekte Abfragen geben, die viele Verfeinerungen enthalten. Wenn man vor ein paar Jahren sah, wie die KI versuchte, etwas zu erschaffen, wurde das im Allgemeinen nicht ernst genommen. Heute wird jedoch lebhaft darüber diskutiert, ob Maschinen uns ersetzen werden. Nein, natürlich nicht, und der Bedarf an Fotografen ist mit der Einführung von Adobe Photoshop nicht verschwunden. Für professionelle Künstler wird Midjourney ein weiteres nützliches Werkzeug sein, das ihre Arbeit beschleunigen und verbessern wird. Für einige wird es ein interessantes Werkzeug sein, mit dem sie spielen können, während andere versuchen, herauszufinden, was das Problem mit Fingerabdrücken ist. Und in ein paar Jahren wird man darüber nachdenken können, ob es einen Aufstand der Maschinen geben wird?