Il modello ChatGPT GPT-4o genera immagini con etichette leggibili.

Di: Nastya Bobkova | 28.03.2025, 06:29

Dal testo all'arte: GPT-4o introduce un approccio innovativo alle immagini

GPT-4o consente di creare immagini complesse con testo su oggetti. Fonte: OpenAI

OpenAI ha introdotto un importante aggiornamento in GPT-4o che consente di generare immagini con testi incredibilmente precisi. Questa nuova funzionalità consente agli utenti di creare immagini dettagliate e di alta qualità con messaggi vocali e di modificarle durante il processo per riprodurre accuratamente il significato desiderato.

Ecco cosa sappiamo

Sembra che ora possiamo dimenticare le scritte illeggibili o i simboli bizzarri che spesso comparivano nei vecchi modelli di IA.

A differenza dei metodi tradizionali di generazione delle immagini, in cui è necessario migliorare una singola query, GPT-4o utilizza un approccio dinamico. Prima si fornisce un indizio di base, come "gatto", e poi si può dialogare con il modello per aggiungere i dettagli desiderati, come un cappello da detective o un monocolo.

Un gatto con un cappello da detective

Un gatto con il monocolo

Scena di gatto con vari oggetti

Suggerimento di partenza per la generazione

Un gatto con un cappello da detective

Un gatto con il monocolo

Scena di gatto con diversi oggetti

Suggerimento di partenza per la generazione

OpenAI ha mostrato come gli utenti possano creare gradualmente delle scene combinando elementi provenienti da immagini diverse. Il modello dimostra un'elevata precisione nella riproduzione di testi su cartelli o oggetti, un progresso significativo rispetto ai modelli precedenti che non riuscivano a riprodurre correttamente le parole scritte.

Il GPT-4o permette anche di lavorare con le foto applicandovi delle modifiche. Il modello è in grado di gestire 10-20 oggetti in una scena, laddove altri modelli spesso si fermano a 5-8.

Creare un'immagine con un filosofo

Boba sullo sfondo

Creare un'immagine con un filosofo

Boba sullo sfondo

Tuttavia, non tutto è perfetto: ci sono alcuni inconvenienti, come il ritaglio dal basso, le incomprensioni con testi non latini e i problemi con più di 20 oggetti. Tuttavia, la nuova funzione offre precisione e flessibilità che aprono nuove possibilità a designer e creativi.

Fonte: OpenAI, Gizmochina

Intelligenza artificiale