¿Por qué la inteligencia artificial (IA) muestra manos extrañas? Este tema, como todo lo relacionado con las redes neuronales, ha cobrado mucha relevancia y plantea muchas preguntas, por lo que debemos abordarlo de una vez por todas. Sólo los perezosos no han intentado "jugar" con Midjourney o DALL-E. Las fotos que crean en cuestión de minutos encuentran rápidamente su público. Ni que decir tiene que se están creando comunidades enteras de más de 100.000 personas para compartir sus obras generadas por la IA.
Todo llegó tan lejos que los artistas de Artstation, el mayor portal para artistas, organizaron una huelga contra la IA, pidiendo que se etiquetaran las imágenes que no hubieran sido creadas por humanos. A algunos, esto puede recordarles los acontecimientos del juego Detroit: Become Human, cuando la humanidad se enfrentó a androides inteligentes que eran mejores que los humanos en todo y los sustituyeron en muchos ámbitos de la vida. Desde conductores hasta atletas profesionales. Por eso el debate en torno a las redes neuronales no cesa, y ahora algunas personas han empezado a pensar seriamente si la IA será capaz de sustituir a las personas en diversas profesiones de nuestro mundo, no en el juego?
Pero volvamos al tema de las manos. ¿Por qué la IA no puede mostrar correctamente los dedos, y qué influye en ello? ¿Es porque incluso a los humanos les resulta difícil dibujar las manos? ¿O el problema está en la insuficiente base de datos en la que se apoya la inteligencia artificial? ¿Y si exigimos demasiado a la IA? De hecho, todo lo anterior es cierto, y en el resultado influye incluso la psicología humana. Por eso, el equipo editorial de gg ha investigado y te contará por qué Midjourney tiene un problema a la hora de generar extremidades humanas.
Para empezar, ¿qué es Midjourney y herramientas similares?
Midjourney es un laboratorio de investigación independiente que desarrolla un programa de inteligencia artificial del mismo nombre que crea imágenes a partir de descripciones de texto. Las imágenes se crean utilizando un chatbot especial en Discord. La herramienta está actualmente en pruebas beta abiertas, que comenzaron el 12 de julio de 2022. Análogos populares de Midjourney son DALL-E y Stable Diffusion. El principio de funcionamiento es muy similar. La única diferencia es el estilo y el nivel de desarrollo de la IA.
Para los que quieran saber más: ¿cómo se crea exactamente una imagen?
Una simple entrada de texto no es suficiente. Si simplemente le pides a Midjourney que represente a un cerdo en un jacuzzi, el resultado será mediocre. Pero hemos visto todas esas imágenes increíbles, ¿cuál es el secreto? Las instrucciones nos ayudan. Las utilizamos para especificar qué tipo de imagen queremos obtener de la inteligencia artificial. Y con la indicación adecuada, puedes conseguir un cerdo realista.
El resultado "antes" y "después" de una indicación detallada (Captura de pantalla: itpedia)
¿Y qué pasa con los dedos?
Hablemos ahora de la barrera que la IA no puede superar: representar correctamente los dedos de las manos o de los pies. Y esto dista mucho de ser una hipótesis. Este problema está muy extendido y ya se ha convertido en tema tanto de debate como de burla.
Pero, ¿por qué ocurre esto? La respuesta a esta pregunta ya existe. Por cierto, gracias a otra IA.
Respuesta del desarrollador de una de las IAs
Existe una inteligencia artificial llamada The Jasper Whisperer. Está especializada en escribir textos y también crea imágenes generativas (y no, "generativo" no tiene nada que ver con "degenerado", aunque suenen muy parecido). The Jasper Whisperer también tiene un blog en medium, en el que describe por qué hay un problema con la reproducción de extremidades. Hay varios factores que afectan a esto, y cada uno debe ser analizado por separado.
La mano es una parte compleja del cuerpo
La anatomía de la mano en sí es bastante compleja. Como mínimo, los dedos tienen formas y tamaños diferentes. Siempre hay que representarlos correctamente, de lo contrario la mano tendrá un aspecto poco natural. Incluso cuando las manos están en posición "relajada", hay información que debe dibujarse: arrugas y pliegues en los nudillos o sombreado en las palmas.
Debido a la compleja geometría, no existe un conjunto estándar de líneas o formas que la IA pueda reconocer como una mano. La IA tiene que comparar muchas formas diferentes cada vez, y al final se convierte en 6 o más dedos.
Además, hay unos 30 puntos de diferencias geométricas en la mano humana. Desde la longitud y anchura de los dedos hasta los huesos metacarpianos y las articulaciones carpianas. En general, nuestras manos son tan complejas y únicas que su geometría puede ser un identificador biométrico aún mejor que nuestro rostro.
Las manos son difíciles de dibujar, incluso para los humanos
Por eso, representar las manos es una de las tareas más difíciles del dibujo. Su geometría las convierte en objetos difíciles de ilustrar. Por eso los personajes de dibujos animados suelen dibujarse con 3 dedos y un pulgar. Es mucho más fácil. Y lo vemos tan a menudo que ni siquiera nos damos cuenta. Así pues, el problema de las manos no es nuevo ni está relacionado con la inteligencia artificial. Es un problema del arte. Al Jasper Whisperer incluso le parece un poco gracioso que la IA tenga las mismas dificultades artísticas que los humanos.
Para los que quieran saber más: ¿qué opina ChatGPT al respecto?
Otra IA muy popular hoy en día es ChatGPT. Se trata de un chatbot lanzado por OpenAI en noviembre de 2022 que se ha hecho conocido por sus respuestas detalladas y precisas en muchos campos del conocimiento, incluso en la industria informática. Por eso, los programadores ya bromean con que este bot les sustituirá algún día.
Y si le preguntas a ChatGPT por qué a la gente le cuesta dibujar manos y dedos, te responderá lo siguiente: "Dibujar manos suele considerarse uno de los elementos más difíciles para un artista debido al nivel de detalle y complejidad. Las manos están formadas por muchos huesos pequeños, músculos y tendones. Y todos ellos deben representarse con precisión para que el dibujo sea realista. Además, la posición de las manos puede ser difícil de transmitir porque están en constante movimiento y pueden colocarse de infinitas maneras. Debido a estas dificultades, muchos artistas consideran que el dibujo a mano es uno de los aspectos más frustrantes y desafiantes de su oficio."
ChatGPT también está de acuerdo con la afirmación de The Jasper Whisperer.
Exigimos demasiado a la inteligencia artificial
The Jasper Whisperer cree que estamos pidiendo a la IA que haga lo imposible. Los humanos llevan dibujando desde que existen, pero pueden tardar una semana en crear una mano realista. La tecnología de inteligencia artificial sigue desarrollándose. Por eso Midjourney tiene menos de un año. Y aunque ya podemos ver imágenes asombrosas, existen ciertas limitaciones.
La situación se complica aún más cuando se crean varias manos en una imagen, por ejemplo, dos personas cogidas de la mano o un grupo de amigos abrazados. Y cada mano debe dibujarse con precisión, de lo contrario toda la imagen no será lo que debería ser. La mayoría de las veces, las manos de la IA tienen un aspecto extraño porque están "sobrecargadas" en la foto.
¿Qué piensan los usuarios de a pie al respecto?
He encontrado una explicación bastante detallada en Reddit. Uno de los usuarios describió el problema en detalle. La cuestión es que la IA no tiene pensamiento lógico cuando "crea" arte. No sabe que los humanos tienen un esqueleto con un cierto número de huesos, órganos, músculos y todo lo demás. No sabe qué debe estar en tal o cual sitio y tener un aspecto determinado en función del movimiento del cuerpo. Lo único que puede hacer la IA es reproducir lo que se le dice. El Midjourney condicional responderá a la pregunta "QUÉ es" con su imagen, no "POR QUÉ es". A veces genera cinturones de ropa que se confunden con la piel humana y otras cosas similares. De hecho, el robot nunca podrá entender las cosas que "dibuja" como tú las entiendes. No construye su arte como lo hace un artista de verdad. Los humanos entienden lo que dibujan a un nivel más profundo y tienen en cuenta muchas otras cosas que no se reflejan en el dibujo.
Algunas teorías locas
Por ejemplo, los autores del sitio web theamericangenius plantean la teoría de que la IA encuentra formas de calmar nuestros miedos y asegurarnos que no va a apoderarse del mundo. De este modo, parece intentar decirnos: "No soy una amenaza, no puedo dibujar simples brazos o piernas". Bromas aparte, toda teoría tiene derecho a existir.
La IA se guía principalmente por las fotos que están disponibles en Internet. Y de este hecho en Reddit surge otra teoría. La inteligencia artificial puede crear rostros simétricos fácilmente porque hay millones de fotos y dibujos de ellos. No hay tantas manos, por no hablar de que ellas mismas y sus poses son más complejas. Esta teoría se ve reforzada por los dibujos de aspirantes a artistas o las lecciones para principiantes, donde a menudo se ven manos escondidas en los bolsillos o simplemente fuera del encuadre.
Una teoría sobre la psicología humana
Y el último ejemplo está relacionado con el hecho de que estamos psicológicamente inclinados a buscar errores en las manos de las personas, no en sus caras. Para entender mejor de qué estamos hablando, tenemos que fijarnos en la imagen invertida de la cara de Adele:
A primera vista, no tiene nada de malo, pero si volvemos a girar la imagen, el resultado será el mismo:
¿Por qué no nos damos cuenta? Esta ilusión se conoce como "efecto Thatcher", llamado así por la ex primera ministra británica Margaret Thatcher, cuya imagen se utilizó por primera vez para este truco.
Este efecto pone de relieve un fallo en el funcionamiento de nuestro cerebro: no podemos procesar una cara al revés. Y un estudio de The Naked Scientists sugiere que las personas reconocemos las caras por sus partes: ojos, boca y nariz. Por lo tanto, cuando nos muestran una imagen de Thatcher al revés, no la procesamos correctamente.
Y como escribió businessinsider, rara vez nos encontramos con caras al revés que no seamos capaces de interpretar la expresión que hay en ellas. Los rasgos faciales parecen normales, así que nuestro cerebro piensa que el resto de la cara parece normal. Por eso no notamos nada raro hasta que orientamos la cara adecuadamente.
La situación con las manos es bastante diferente. El Jasper Whisperer señala que hay algo en las manos a lo que somos muy sensibles y conocemos instintivamente. Por lo tanto, si la IA comete un error con las manos, lo notamos inmediatamente. Incluso si el hombro no se representa correctamente, una persona puede no notarlo. Pero si las proporciones de los dedos pulgar, índice, corazón, anular y meñique están ligeramente desviadas, lo notaremos de inmediato.
Así que tenemos dos caras de la moneda. Por un lado, la inteligencia artificial no dispone de una base de datos suficientemente grande de fotos de manos humanas y no entiende del todo qué son unas "manos anatómicamente correctas". Así que todavía tiene que dedicar mucho tiempo a procesar estos datos concretos. Y, por otro lado, está el factor psicológico de una persona que, por alguna razón, nota inmediatamente las imperfecciones de las manos. Sin embargo, todavía es posible mejorar la generación de dedos con la ayuda de la IA.
¿Cómo hacer que la IA dibuje mejor las manos?
El Jasper Whisperer viene de nuevo al rescate. Esta IA tiene toda una guía sobre cómo mejorar la generación de manos en su blog.
Dar a las manos algo que hacer
La IA procesa mejor las manos que hacen algo. Por ejemplo, si la mano tiene que sostener una taza. Esto se debe a los datos de entrenamiento: se estrecha el círculo de búsqueda que muestra dedos en determinadas posiciones. Por supuesto, el resultado no siempre es satisfactorio. Aquí hay dos imágenes generadas: la primera es DALL-E, la segunda es Midjourney. La foto con la chica sujetando el vaso tiene más o menos éxito. Pero la foto con el pez falló en alguna parte (y no sólo con las manos).
En la segunda foto, algo salió mal (Ilustraciones: medium, midjourney)
Utiliza el inpainting
Inpainting te permite borrar una parte de la imagen generada para que la IA la rellene con otra cosa. Es una buena forma de redibujar las manos. El Dall-E 2 es el mejor en esto. Y para comparar, aquí están las fotos antes y después de inpainting:
Mejóralo tú mismo
Este método no es apto para todo el mundo, pero si tú o un amigo conocéis Adobe Photoshop u otro editor gráfico, podéis retocar las manos generadas por la IA si lo deseáis.
Recorta la foto
A veces, la opción más fácil y mejor es simplemente recortar un poco la foto para que algunas de las manos no salgan en el encuadre. Esto es exactamente lo que hizo uno de los usuarios del servidor Midjourney Discord.
Proporcionar fotos para comparar
Midjourney tiene una función llamada imagen-a-imagen, lo que significa que primero se proporciona a la red neuronal una foto, y luego se escribe en texto lo que hay que hacer. Este método se lo pondrá mucho más fácil a la IA, que ya tiene dificultades para crear manos.
5) Más pistas. Ya está claro que escribir simplemente "mano" no nos dará el resultado correcto. Por lo tanto, tenemos que dar más pistas a la IA. Describe con detalle la pose y la acción, menciona pequeños detalles como las uñas o las arrugas de los nudillos. Y describa la forma de la mano. Para ello, utiliza términos como "doblada" o "abierta".
También en este caso conviene recordar que pedir "5 dedos" no cambiará la situación. Al fin y al cabo, esto es exactamente lo que me pasó a mí. Escribí el mensaje que recomienda The Jasper: "mano con 5 dedos, uñas, arrugas alrededor de los nudillos, abierta, --ar 2:3 --q 2 --v 4". Y conseguí obtener un resultado con una mano con 5 dedos. Pero sólo en 2 de las 4 imágenes. Y cada una de ellas se parece al arte conceptual de un juego de terror. Sin embargo, ya tenemos la posibilidad de que después de la generación tengamos un resultado más o menos bueno.
¿De qué otra forma podemos hacer que la IA dibuje una mano?
De hecho, para no escribir un montón de consejos para la IA, sino para conseguir una mano con 5 dedos que no se parezca a juegos o películas espeluznantes, sólo hay que escribir una palabra: "manoplas". Esta palabra me bastó para obtener este resultado. Así que si no necesitas una mano "desnuda", esta opción será la mejor.
Pero, ¿y si no sólo necesitas manos, sino que éstas participen en el encuadre? Entonces escribe, por ejemplo, "una pareja cogida de la mano paseando por un parque y con guantes". Si empiezas a hacer zoom en la imagen, puedes encontrar pequeños defectos, pero es bastante difícil ver algo mal a simple vista.
Esto ocurre porque, si simplemente buscamos "guantes" en Google imágenes, veremos que en la mayoría de las fotos, los guantes están rectos y se ven claramente los 5 dedos. Y la IA se basa en la base de datos de fotos disponibles en Internet.
Si necesitas una mano sin guantes, una manicura normal vendrá al rescate. Por ejemplo, introduce "alianza y esmalte de uñas" en The Jasper Whsiperer y voilá, 5 dedos, sin defectos ni nada.
La razón es la misma que con las manoplas. En el 90% de las fotos de Google con manicuras, se ven claramente 5 dedos, a menudo en las mismas posiciones. Por lo tanto, la IA podrá averiguar cómo representarlo más rápidamente.
En resumen: ¿para cuándo una sublevación de las máquinas?
De hecho, Midjourney y sus homólogos son capaces de representar una mano con 5 dedos. Sólo que la mayoría de las peticiones de la gente no eran del todo precisas, y la situación se complicaba por la propia estructura de las manos, que es difícil de representar, lo que dio lugar a discusiones tan acaloradas. El resultado con 5 dedos en la IA no siempre será el correcto. Pero ya hay suficientes opciones. Es importante recordar que algunas de las redes neuronales mencionadas hoy tienen menos de un año. Incluso los artistas experimentados que llevan años dibujando no siempre serán capaces de crear rápidamente una mano realista. Por lo tanto, no vale la pena exigir a las redes neuronales esculpidos excepcionalmente geniales en el aquí y ahora. La inteligencia artificial aprende cada día, y si quieres que alcance un nuevo nivel a la hora de crear una imagen, tienes que darle cada vez más consultas correctas que contengan muchos refinamientos. En general, hace un par de años, cuando la gente veía que la IA intentaba crear algo, pocos se lo tomaban en serio. Hoy, sin embargo, se discute activamente si las máquinas nos sustituirán. No, por supuesto que no, y la necesidad de los fotógrafos no ha desaparecido con la llegada de Adobe Photoshop. Para los artistas profesionales, Midjourney será otra herramienta útil que agilizará y mejorará su trabajo. Para algunos, será una herramienta interesante con la que jugar, mientras otros intentan averiguar cuál es el problema de las huellas digitales. Y entonces pasarán unos años y se podrá pensar en si habrá un levantamiento de las máquinas...