Il modello ChatGPT GPT-4o genera immagini con etichette leggibili.

OpenAI ha introdotto un importante aggiornamento in GPT-4o che consente di generare immagini con testi incredibilmente precisi. Questa nuova funzionalità consente agli utenti di creare immagini dettagliate e di alta qualità con messaggi vocali e di modificarle durante il processo per riprodurre accuratamente il significato desiderato.
Ecco cosa sappiamo
Sembra che ora possiamo dimenticare le scritte illeggibili o i simboli bizzarri che spesso comparivano nei vecchi modelli di IA.
A differenza dei metodi tradizionali di generazione delle immagini, in cui è necessario migliorare una singola query, GPT-4o utilizza un approccio dinamico. Prima si fornisce un indizio di base, come "gatto", e poi si può dialogare con il modello per aggiungere i dettagli desiderati, come un cappello da detective o un monocolo.








OpenAI ha mostrato come gli utenti possano creare gradualmente delle scene combinando elementi provenienti da immagini diverse. Il modello dimostra un'elevata precisione nella riproduzione di testi su cartelli o oggetti, un progresso significativo rispetto ai modelli precedenti che non riuscivano a riprodurre correttamente le parole scritte.
Il GPT-4o permette anche di lavorare con le foto applicandovi delle modifiche. Il modello è in grado di gestire 10-20 oggetti in una scena, laddove altri modelli spesso si fermano a 5-8.




Tuttavia, non tutto è perfetto: ci sono alcuni inconvenienti, come il ritaglio dal basso, le incomprensioni con testi non latini e i problemi con più di 20 oggetti. Tuttavia, la nuova funzione offre precisione e flessibilità che aprono nuove possibilità a designer e creativi.
Fonte: OpenAI, Gizmochina