Il modello ChatGPT GPT-4o genera immagini con etichette leggibili.

Di: Nastya Bobkova | 28.03.2025, 06:29
Dal testo all'arte: GPT-4o introduce un approccio innovativo alle immagini GPT-4o consente di creare immagini complesse con testo su oggetti. Fonte: OpenAI

OpenAI ha introdotto un importante aggiornamento in GPT-4o che consente di generare immagini con testi incredibilmente precisi. Questa nuova funzionalità consente agli utenti di creare immagini dettagliate e di alta qualità con messaggi vocali e di modificarle durante il processo per riprodurre accuratamente il significato desiderato.

Ecco cosa sappiamo

Sembra che ora possiamo dimenticare le scritte illeggibili o i simboli bizzarri che spesso comparivano nei vecchi modelli di IA.

A differenza dei metodi tradizionali di generazione delle immagini, in cui è necessario migliorare una singola query, GPT-4o utilizza un approccio dinamico. Prima si fornisce un indizio di base, come "gatto", e poi si può dialogare con il modello per aggiungere i dettagli desiderati, come un cappello da detective o un monocolo.

OpenAI ha mostrato come gli utenti possano creare gradualmente delle scene combinando elementi provenienti da immagini diverse. Il modello dimostra un'elevata precisione nella riproduzione di testi su cartelli o oggetti, un progresso significativo rispetto ai modelli precedenti che non riuscivano a riprodurre correttamente le parole scritte.

Il GPT-4o permette anche di lavorare con le foto applicandovi delle modifiche. Il modello è in grado di gestire 10-20 oggetti in una scena, laddove altri modelli spesso si fermano a 5-8.

Tuttavia, non tutto è perfetto: ci sono alcuni inconvenienti, come il ritaglio dal basso, le incomprensioni con testi non latini e i problemi con più di 20 oggetti. Tuttavia, la nuova funzione offre precisione e flessibilità che aprono nuove possibilità a designer e creativi.

Fonte: OpenAI, Gizmochina