Модель ChatGPT GPT-4o генерує зображення з читабельними написами

OpenAI презентувала важливе оновлення для GPT-4o, яке дозволяє генерувати зображення з неймовірно точним текстом. Ця нова можливість дозволяє користувачам створювати детальні, високоякісні зображення за допомогою мовних підказок та коригувати їх в процесі, щоб точно відтворити задумане.
Що відомо
Схоже, тепер можна забути про нерозбірливі написи або химерні символи, які часто з'являлися в старих моделях штучного інтелекту.
На відміну від традиційних методів генерації зображень, де потрібно вдосконалювати один запит, GPT-4o використовує динамічний підхід. Спочатку надаєте основну підказку, наприклад, "кіт", а потім можете вести діалог з моделлю, щоб додати бажані деталі, як-от капелюх детектива чи монокль.








В OpenAI показали, як користувачі можуть поступово створювати сцени, комбінуючи елементи з різних зображень. Модель демонструє високу точність у відтворенні тексту на вивісках або предметах, що стало значним прогресом у порівнянні з попередніми моделями, які не могли правильно відтворювати написані слова.
GPT-4o також дозволяє працювати з фотографіями, накладаючи на них зміни. Модель справляється з 10-20 об'єктами в сцені, де інші моделі часто зупиняються на 5-8.




Однак не все ідеально: існують деякі недоліки, такі як обрізання знизу, непорозуміння з нелатинським текстом та проблеми при роботі з понад 20 об'єктами. Та, попри це, нова функція забезпечує точність і гнучкість, які відкривають нові можливості для дизайнерів і творчих людей.
Джерело: OpenAI, Gizmochina