Недосяжна вершина мистецтва: чому штучний інтелект Midjourney малює на руках 6 пальців, і як це можна виправити?

Автор: Владислав Нужнов | 24 січня 2023, 09:00

Чому штучний інтелект (ШІ) зображує незрозумілі руки? У чому причина? Ця тема, як і все, що повязане з нейромережами стало дуже актулаьним і викликає багато запитань, то ж треба раз і назавжди розібратися із цим всім. Бо тільки лінівий не спробув «погратися» із Midjourney або DALL·E. Фото, які вони створюють за лічені хвилини швидко знайшли свою аудиторію. Про що говорити, якщо створюються цілі спільноти на 100+ тисяч людей, які діляться своїми роботами, створеними за допомогою ШІ.

Це все зайшло так далеко, що художники на Artstation, який є найбільшим порталом для митців, влаштували страйк проти ШІ, закликаючи маркувати зображення, які створенні не людьми. Комусь це все може нагадати події гри Detroit: Become Human, коли людство виступало проти розумних андроїдів, які у всьому були краще людей та замінили їх у багатьох сферах життя. Від водіїв до професійних спортсменів. Тому суперечки навколо нейромереж не вщухають і вже зараз деякі почали серйозно замислюватися, чи зможе ШІ замінити людей на різних професіях вже у нашому світі, а не у грі?

Та повернемося до теми з руками. Чому ШІ не можуть коректно відобразити пальці, що на це впливає? Можливо тому, що навіть людям важко малювати руки? Чи проблема у недостатній базі даних на яку опирається штучний інтелект. А раптом ми вимагаємо надто багато від ШІ? Насправді усе із чого перечисленого і на результат навіть впливає психологія людини. Тому редакція gg розібралася та розповість, чому ж, умовний Midjourney, має проблему з генерацією людських кінцівок.

Один із прикладів того, як Midjourney генерує руки (Ілюстрація: medium)

Для початку, що таке Midjourney та йому подібні інструменти?

Midjourney — це незалежна дослідницька лабораторія, яка розробляє однойменну програму штучного інтелекту, що створює зображення з текстових описів. Створюються зображення за допомогою спеціального чат-бота у Discord. Наразі інструмент знаходиться у відкритому бета-тестуванні, яке розпочалося 12 липня 2022 року. Популярними аналогами Midjourney є DALL·E та Stable Diffusion. Принцип роботи у всіх дуже схожий. Відрізняється лише стилем та рівнем розвитку ШІ.

Зображення створене ШІ. (Ілюстрація: howtogeek)

Для тих, хто хоче знати більше: як саме створити зображення?

Лише одного текстового запису буде недостатньо. Якщо просто попросити Midjourney зобразити, умовно, свиню в джакузі, то результат буде такий собі. Але ж ми бачили усі ті неймовірні зображення, у чому секрет? На допомогу приходить «prompt», або підказки. Ними конкретизуємо те, яке зображення хочемо отримати від штучного інтелекту. І при правильно прописаному prompt можна отримати ось таку вже реалістичну свинку.

Результат «до» та «після» детально прописаного prompt (Скриншот: itpedia)

Так а що там з пальцями?

А тепер про бар’єр, який ніяк не може переступити ШІ, — коректно зобразити пальці рук або ніг. І це далеко не гіпотеза. Ця проблема носить масовий характер і вже стала темою як для дискусій, так і для висміювання.

Приклад того, як люди реагують на руки згенеровані ШІ (Ілюстрація: knowyourmeme)

Але чому так відбувається? Відповідь на це питання вже існує. До речі, завдяки іншому ШІ.

Відповідь від розробника одного з ШІ

Існує штучний інтелект The Jasper Whisperer. Він спеціалізується на написанні тексту, а також створює генеративні зображення (І ні, «генеративний» не має ніякого відношення до слова «дегенеративний», хоча й звучать вони надто подібно). The Jasper Whisperer також має свій блог на medium, в якому було описано, чому існує проблема з відтворенням кінцівок. На це впливає декілька факторів і кожен треба розібрати окремо.

Приклад роботи The Jasper Whisperer (Ілюстрація: medium)

Рука — складна частина тіла

Сама по собі анатомія руки досить складна. Як мінімум, пальці бувають різних форм і розмірів. Їх завжди потрібно правильно зобразити, інакше рука буде мати неприродній вигляд. Навіть коли руки знаходяться в «розслабленому» положенні, є інформація, яку потрібно намалювати: зморшки та складки на кісточках пальців або ж затінення на долонях.

Завдяки складній геометрії не існує стандартного набору ліній або форм, які ШІ може розпізнати як руку. ШІ кожного разу має зіставляти безліч різних форм, і в кінцевому результаті це перетворюється у 6 або більше пальців.

А ще у людській руці є близько 30 точок геометричних розбіжностей. Від довжини і ширини пальців до п'ясткових кісток і променево-зап'ясткових суглобів. Взагалі наші руки настільки складні та унікальні, що їхня геометрія може бути навіть кращим біометричним ідентифікатором, ніж обличчя.

Ось скільки деталей потрібно для того, щоб намалювати реалістичну руку (Фото: artincontext)

Руки важко малювати навіть людям

Тож зображення рук — одне з найскладніших завдань у малюванні. Їхня геометрія робить їх складними об'єктами для ілюстрування. Саме тому у мультфільмах персонажів часто малюють з 3 пальцями та одним великим. Адже так в рази простіше. І ми настільки часто це зустрічаємо, що навіть не помічаємо. Отже, проблема з руками не нова і не пов'язана зі штучним інтелектом. Це проблема мистецтва. The Jasper Whisperer навіть вважає трохи кумедним те, що ШІ переживає ті ж самі мистецькі труднощі, що і люди.

Ілюстрація: screenrant

Для тих, хто хоче знати більше: що про це думає ChatGPT?

Ще один популярний ШІ у наш час — ChatGPT. Це чат-бот, запущений OpenAI у листопаді 2022 року, який став відомим завдяки своїм детальним і чітким відповідям у багатьох галузях знань, навіть у сфері IT. Тому програмісти вже жартують над тим, що цей бот колись та й замінить їх.

Реакція програмістів на ChatGPT (Ілюстрація: Clément Mihailescu)

І якщо запитати у ChatGPT, чому людям важко малювати руки та пальці, то він відповість наступне: «Малювання рук часто вважається одним із найскладніших елементів для художника через рівень деталізації та складності. Руки складаються з безлічі дрібних кісток, м'язів і сухожиль. І всі вони повинні бути точно зображені, щоб малюнок був реалістичним. Крім того, положення рук може бути складним для передачі, оскільки вони постійно перебувають у русі і можуть розташовуватися у нескінченну кількість способів. Через ці складнощі багато художників вважають, що малювання рук — один з найбільш неприємних і складних аспектів їхнього ремесла».

Скриншот: medium

Тож із твердженням The Jasper Whisperer також погоджується ChatGPT.

Ми вимагаємо занадто багато від штучного інтелекту

The Jasper Whisperer вважає, що ми просимо ШІ зробити неможливе. Людина малює стільки, скільки існує, але на створення реалістичної руки може витратити тиждень свого часу. Технологія штучного інтелекту все ще розвивається. Тому ж Midjourney менше року. І хоча ми вже бачимо приголомшливі зображення, існують певні обмеження.

Ситуація стає ще складнішою, коли створюють кілька рук на одному зображенні, наприклад, двох людей, які тримаються за руки, або групу друзів в обіймах. А кожна рука повинна бути намальована точно, інакше все зображення не буде таким, яким має. Найбільш часто руки від ШІ такі дивні через їхнє «перевантаження» на фото.

Приклад «перенавантаження» рук в кадрі (Ілюстрація: medium)

Що думають про це звичайні користувачі?

Досить розгорнуте пояснення я зустрів саме на Reddit. Один із користувачів детально описав цю проблему. Річ у тому, що ШІ не має логічного мислення, коли «створює» мистецтво. Він не знає, що у людини є скелет з певною кількістю кісток, органів, м'язів і всього іншого. Він не знає, що повинно бути в тому чи іншому місці та мати певний вигляд залежно від руху тіла. Все, що може зробити ШІ, — це відтворити те, що йому сказали. Умовний Midjourney своїм зображення дасть відповідь на питання «ЩО це таке», а не «ЧОМУ воно таке». Інколи він генерує ремені одягу, що зливаються зі шкірою людини та інші подібні речі. По суті, бот ніколи не зможе зрозуміти речі, які він «малює», так, як розумієте їх ви. Він не будує своє мистецтво так, як це робить справжній художник. Люди розуміють те, що вони малюють, на більш глибокому рівні та враховують багато інших речей, які не відображаються на малюнку.

Midjourney не до кінця зрозумів, якою має бути рука у космонавта (Ілюстрація: medium)

Трохи божевільних теорій

А ось, наприклад, автори сайту theamericangenius висунули теорію, що ШІ знаходить способи заспокоїти наші страхи та запевнити, що він не збирається захоплювати світ. Тим самим ніби намагається сказати: «я не загроза, я не можу намалювати прості руки або ноги». Жарти жартами, але кожна теорія має право на існування.

Ілюстрація: theamericangenius

ШІ в основному орієнтується на фотографії, які є в інтернеті. І з цього факту на Reddit випливає ще одна теорія. Штучний інтелект може легко створювати симетричні обличчя, тому що є мільйони фотографій і малюнків з ними. Рук не так багато, не кажучи вже про те, що вони самі та їхнє позування є складнішими. Ця теорія прикріплюється малюнками художників-початківців або уроками для новачків, на яких часто можна помітити руки, які сховані у кишенях або просто не потрапляють у кадр.

Приклад, який демонструють для художників початківців. Руки сховані у кишені (Фото: artistsnetwork)

Теорія про психологію людини

І останній приклад пов’язаний з тим, що ми психологічно схильні шукати помилки в людських руках, а не в обличчі. Щоб краще зрозуміти, про що мова, треба глянути перевернуте зображення обличчя Адель:

Ілюстрація: businessinsider

На перший погляд, тут нічого такого, але якщо зображення ще раз перевернути, то результат вже буде таким:

Ілюстрація: businessinsider

Чому ми такого не помічаємо? Ця ілюзія відома як «ефект Тетчер», названий так на честь колишньої прем'єр-міністерки Великої Британії Маргарет Тетчер, чиє зображення вперше було використано для цього трюку.

Ефект Тетчер (Ілюстрація: businessinsider)

Цей ефект підкреслює недолік у роботі нашого мозку — ми не можемо обробити перевернуте обличчя. А дослідження від The Naked Scientists говорить про те, що людина розпізнає обличчя по частинах — очі, рот і ніс. Тому коли нам показують перевернуте зображення Тетчер, воно не обробляється належним чином.

І як писали businessinsider, ми так рідко стикаємося з перевернутими обличчями, що не в змозі інтерпретувати вираз на них. Риси обличчя мають нормальний вигляд, тому наш мозок вважає, що решта обличчя — також. Ось чому ми не помічаємо чогось незвичайного, доки не зорієнтуємо обличчя відповідним чином.

А от з руками ситуація зовсім інакша. The Jasper Whisperer відзначає, що у руках є щось таке, до чого ми дуже чутливі, і що знаємо інстинктивно. Тому, якщо ШІ помиляється з руками, ми одразу це помічаємо. Навіть якщо не зовсім коректно зобразити плече, то людина цього може й не помітити. А от якщо пропорції великого, вказівного, середнього, безіменного та мізинця трохи порушені, то це одразу впаде в очі.

Одразу помічаємо неправильно згенеровані руки (Ілюстрація: medium)

Тож маємо дві сторони медалі. З однієї — штучний інтелект, який не має достатньо великої бази фото людських рук і не до кінця усвідомлює, що взагалі таке «анатомічно правильні руки. Тож йому ще потрібно витратити купу часу на обробку саме цих даних. А з іншої — психологічний фактор людини, який чомусь одразу помічає недоліки рук. Але покращити генерацію пальців за допомогою ШІ все ж можна.

Як змусити ШІ малювати руки краще?

І на допомогу знову приходить The Jasper Whisperer. У блозі цього ШІ є цілий гайд, як покращити генерацію рук.

Дайте рукам щось робити

Руки, які щось роблять, ШІ обробляє краще. Наприклад, якщо рука має тримати чашку. Це пов'язано з навчальними даними: ви звужуєте пошукове коло, яке показує пальці в певних положеннях. Звичайно, результат не завжди виходить вдалим. Ось два згенерованих зображення: перше — DALL-E, друге — Midjourney. На фото, де дівчина тримає келих, все більш-менш вдало. А от фото з рибою десь дало збій (і не тільки з руками).

На другому фото щось пішло не так (Ілюстрації: medium, midjourney)

Використовуйте зафарбовування (inpainting)

Зафарбовування дозволяє стерти частину згенерованого зображення, щоб ШІ заповнив її чимось іншим. Це хороший спосіб перемалювати руки. З таким найкраще справляється Dall-E 2. І для порівняння — фото до зафарбовування і після:

Ілюстрація: petapixel

Вдосконалюйте власноруч

Спосіб підійде не всім, але якщо ви чи ваш знайомий володіє Adobe Photoshop або іншим графічним редактором, то за бажанням можна переробити руки, які згенерував ШІ.

Обріжте фото

Інколи найпростішим та найкращим варіантом буде просто обрізати трохи фотографію, щоб частина рук не потрапляла у кадр. Саме так і зробив один із користувачів на Discord сервері Midjourney.

Надайте фотографії для порівняння

У Midjourney є така функція як «image-to-image» — це коли ви спочатку даєте нейронній мережі фотографію, а вже потім текстом прописуєте, що потрібно зробити. І такий спосіб значно облегшить роботу для ШІ, якому і так вкрай важко створювати руки.

З рукою все ще біда, але не настільки критично. (Ілюстрація: All About AI)

5) Більше підказок. Уже зрозуміло, що, просто написавши «рука», належного результату ми не отримаємо. Тому потрібно дати ШІ більше підказок. Детально опишіть позу і дію, згадайте про дрібні деталі, такі як: нігті або зморшки на кісточках пальців. І опишіть форму руки. Для цього використовуйте такі терміни, як «зігнута» або «відкрита».

Тут ще раз варто нагадати, що запит «5 fingers» аж ніяк не змінить ситуацію. Адже саме так сталося у мене. Я прописав prompt, який радить The Jasper: «arm with 5 fingers, fingernails, wrinkles around the knuckles, open, --ar 2:3 --q 2 --v 4». І в мене дійсно вийшло отримати результат з рукою, у якої 5 пальців. Але тільки на 2 з 4 зображень. А ще кожне із них нагадує концепт-арти хоррор гри. Однак вже маємо шанс того, що після генерації будемо мати більш-менш хороший результат.

Як ще змусити ШІ намалювати руку?

Насправді, щоб не прописувати безліч підказок для ШІ, але отримати руку з 5 пальцями, яка не буде нагадувати моторошні ігри або фільми, потрібно написати лише одне слово — «рукавиці». Цього слова мені було достатньо для того, щоб отримати ось такий результат. Тому якщо вам не потрібна «гола» рука, то цей варіант буде найкращим.

Але якщо потрібні не просто руки, а щоб вони були залучені у кадрі? Тоді пропишіть, наприклад, «a couple holding handings walking in a park and wearing gloves». Якщо почати збільшувати зображення, то можна знайти дрібні недоліки, але неозброєним оком побачити щось не те досить складно.

Так відбувається шляхом того, що, банально прописавши в google images «gloves», ми побачимо, як на більшості фото рукавиці лежатимуть прямо і на них чітко можна помітити 5 пальців. А ШІ якраз опирається на базу фотографій, які знаходяться в мережі.

Якщо ж вам потрібна рука без рукавиць, то на допомогу прийде звичайний манікюр. Ось, наприклад, запит у The Jasper Whsiperer «wedding ring, and nail polish» і вуаля, 5 пальців, без жодних дефектів чи ще чогось.

Ілюстрація: medium

Причина така ж, як і з рукавицями. На фото в гуглі з манікюром у 90% можна чітко побачити 5 пальців, ще й часто в однакових положеннях. Тому ШІ швидше зорієнтується у тому, як це потрібно зобразити.

В сухому залишку: коли чекати на повстання машин?

То ж по факту, Midjourney та йому подібні вміють зображати руку із 5 пальцями. Просто більшість запитів від людей були не зовсім точними, а ускладнювался ситуація самою будовую рук, яку важко зобразити, що й призвело до таких бурхливих обговорень. Результат із 5 пальцями у ШІ не завжди буде таким, яким треба. Але варіантів вже вистачає. Важливо пам’ятати, що частині нейромереж про які згадувалися сьогодні, менше року. Навіть досвідчені художники, які роками малюють, не завжди швидко створять реалістичну руку. Тому «тут і зараз» вимагати винятково крутих резлуьтатів від нейромереж не варто. Штучний інтелект з кожнем днем вчиться і якщо хочеться, щоб він при створенні зображення вийшов на новий рівень, то йому потрібно давати все більше і більше правильних запитів, які містять багато уточнень. Взагалі ще пару років тому, коли люди бачили спроби ШІ щось створити, то мало хто це сприймав всерйоз. Сьогодні ж активно ведеться дискусія «Чи замінять нас машини?». Усіх точно ні, з появою Adobe Photoshop потреба ж у фотографах не зникла. Для професійних художників Midjourney стане ще одним корисним інструментом, який пришвидшить та покращить роботу. Для когось це буде цікавй інструмент з яким можна погратися, ну а хтось намагається розібратися що ж там за проблема з відображенням пальців. А там пройде декілька років і вже можна буде подумати над тим, чи відбудеться повстання машин?

Для тих, хто хоче знати більше