GPT Image 1.5: 4x Più Veloce in ChatGPT
GPT Image 1.5 genera immagini 4x più veloce con editing preciso e maggiore aderenza ai prompt. Prezzi API ridotti del 20% rispetto a GPT Image 1.
Leggi Articolo →
OpenAI ha rilasciato ChatGPT Images 2.0 il 21 aprile 2026, il primo modello per immagini dell’azienda costruito sulla sua architettura di ragionamento O-series. Il modello pianifica le composizioni, cerca contesto sul web e renderizza il testo con una precisione del 99% in tutti gli alfabeti prima di generare un singolo pixel. Entro 12 ore dal lancio, ha conquistato la prima posizione nella classifica di Image Arena con un punteggio Elo di 1.512, superando Nano Banana 2 di Google di 242 punti. Quel margine è il più ampio mai registrato nel benchmark. Sia DALL-E 2 che DALL-E 3 saranno ritirati il 12 maggio 2026.
ChatGPT Images 2.0 analizza i prompt, pianifica le relazioni spaziali e verifica la qualità dell’output prima di generare qualsiasi elemento visivo. OpenAI lo descrive come un «partner di pensiero visivo» che utilizza lo stesso livello di ragionamento alla base dei suoi modelli linguistici più avanzati.
Questo ragionamento deriva dall’architettura O-series. Prima di produrre pixel, il modello scompone i prompt complessi in piani compositivi, identifica le relazioni spaziali tra gli elementi e può cercare materiale di riferimento in tempo reale sul web. Il risultato è una gestione migliore delle scene con più elementi, un posizionamento preciso del testo e un’identità visiva coerente tra gli output in batch.
Esistono due livelli di accesso. La modalità Instant è disponibile per tutti gli utenti ChatGPT (inclusi gli account gratuiti) con miglioramenti qualitativi di base come layout più curati e testo più nitido. La modalità Thinking sblocca l’intera pipeline di ragionamento: ricerca web, generazione multi-immagine in batch (fino a 8 immagini coerenti per prompt) e verifica dell’output. La modalità Thinking richiede un abbonamento Plus ($20/mese), Pro ($200/mese), Business o Enterprise.
Pianifica la composizione, analizza il contesto del prompt e verifica l'output prima di creare qualsiasi immagine
Precisione quasi perfetta in giapponese, coreano, cinese, hindi, bengalese e alfabeto latino
Un singolo prompt genera fino a 8 immagini con identità coerente di personaggi e oggetti
Recupera contesto in tempo reale per eventi attuali, prodotti e persone (solo modalità Thinking)
Genera mockup UI, prototipi e risorse visive nell'ambiente di sviluppo di OpenAI
Informazioni di provenienza integrate in tutte le immagini generate per il tracciamento dell'autenticità
La funzionalità multi-immagine è quella che con più probabilità farà risparmiare tempo nella pratica. Un singolo prompt può produrre un set di risorse per i social media, una sequenza di storyboard o una serie di scatti prodotto in cui personaggi e oggetti mantengono coerenza visiva. In precedenza, ogni immagine doveva essere richiesta singolarmente e assemblata manualmente.
ChatGPT Images 2.0 è disponibile su tutti i livelli di abbonamento ChatGPT, con funzionalità che aumentano in base al piano. L’accesso API segue un modello di prezzo basato sui token, con costi per immagine compresi tra $0,04 e $0,35 a seconda della complessità del prompt e della risoluzione in uscita (fino a 2K).
L'API dovrebbe essere disponibile per gli sviluppatori a inizio maggio 2026
| Livello di Accesso | Costo Mensile | Funzionalità |
|---|---|---|
| Gratuito | $0 | Modalità Instant: qualità migliorata, rendering testo più preciso |
| Plus | $20/mese | Modalità Thinking: ricerca web, multi-immagine, verifica |
| Pro | $200/mese | Funzionalità complete, accesso prioritario |
| API (gpt-image-2) | A consumo | $8/M input, $30/M output, ~$0,04-$0,35/immagine |
OpenAI non ha rivelato l’architettura del modello, descrivendolo solo come un «modello generalista» senza specificare se utilizza approcci basati su diffusione, autoregressione o ibridi. Il cutoff della conoscenza è dicembre 2025.
Images 2.0 non è in grado di rappresentare accuratamente eventi, persone o prodotti apparsi dopo dicembre 2025 senza integrare i dati di addestramento tramite ricerca web in tempo reale (solo modalità Thinking).
OpenAI sta ritirando sia DALL-E 2 che DALL-E 3 il 12 maggio 2026, consolidando Images 2.0 come unico modello di generazione immagini in ChatGPT. GPT-Image-1.5, l’aggiornamento intermedio rilasciato a dicembre 2025, resta disponibile tramite API per le integrazioni legacy ma non è più il modello predefinito.
La dismissione segna una netta rottura architetturale. Invece di mantenere modelli per immagini separati accanto ai propri modelli linguistici, OpenAI sta unificando entrambi sotto lo stesso framework di ragionamento. La generazione di immagini diventa una funzionalità nativa di GPT anziché un sistema parallelo.
La generazione multi-immagine in batch con coerenza dei personaggi elimina un punto di attrito nei flussi di lavoro di design. Un team di marketing può generare una serie di risorse per i social media o una sequenza di storyboard con un’unica istruzione, senza dover assemblare manualmente output separati.
L’integrazione con Codex merita attenzione. La generazione di immagini ora risiede nello stesso ambiente che gli sviluppatori usano per codice, presentazioni e automazione del browser. Questo mette OpenAI in competizione con Midjourney e Google sulla qualità delle immagini e, separatamente, con Canva e Figma sull’integrazione nei flussi di lavoro.
I risultati del benchmark ridefiniscono l’equilibrio competitivo. Midjourney, Stability AI e Google si trovano ora di fronte a un modello con punteggi qualitativi di punta distribuito sulla base utenti di oltre 200 milioni di ChatGPT. Per gran parte del 2026, OpenAI e Google si erano alternati al vertice della classifica con margini ridotti. Un distacco di 242 punti è un vantaggio di tutt’altra natura.
L’architettura di sicurezza del modello (filtro dei contenuti, metadati C2PA e quello che OpenAI ha descritto come «monitoraggio continuo») stabilisce anche le aspettative per gli standard di provenienza. Con l’intensificarsi a livello globale del controllo normativo sui media sintetici, integrare metadati di autenticità nella fase di generazione potrebbe diventare lo standard minimo, non un elemento di differenziazione.
ChatGPT Images 2.0 è l'ultimo modello di generazione immagini di OpenAI, rilasciato il 21 aprile 2026. È il primo modello per immagini costruito sull'architettura di ragionamento O-series di OpenAI, che pianifica le composizioni e cerca contesto sul web prima di generare le immagini. Renderizza il testo con una precisione del 99% in tutte le lingue e ha conquistato la prima posizione nella classifica Image Arena entro 12 ore dal lancio con un record di 242 punti di vantaggio.
I miglioramenti qualitativi di base sono disponibili per tutti gli utenti ChatGPT, inclusi gli account gratuiti, tramite la modalità Instant. Le funzionalità avanzate come ragionamento, ricerca web, generazione multi-immagine (fino a 8 immagini per prompt) e verifica dell'output richiedono un abbonamento ChatGPT Plus ($20/mese) o Pro ($200/mese). Anche i piani Business ed Enterprise includono tutte le funzionalità.
Sia DALL-E 2 che DALL-E 3 saranno ritirati il 12 maggio 2026. GPT-Image-1.5 (rilasciato a dicembre 2025) resta disponibile tramite API per le integrazioni legacy. ChatGPT Images 2.0 sostituisce DALL-E come sistema principale di generazione immagini di OpenAI.
ChatGPT Images 2.0 ha raggiunto la vetta della classifica Image Arena con un vantaggio di 242 punti, il margine più ampio mai registrato. A differenza di Midjourney, che opera tramite Discord e un'interfaccia web senza API pubblica, Images 2.0 è integrato in ChatGPT e Codex. Midjourney offre funzionalità comunitarie più solide e preset stilistici, mentre Images 2.0 ha vantaggi nel rendering del testo, nella composizione guidata dal ragionamento e nell'integrazione con l'ecosistema.
L'identificativo del modello API è gpt-image-2 con prezzi basati sui token: $8 per milione di token per l'input immagine, $2 per l'input in cache e $30 per milione di token per l'output immagine. I costi per immagine variano tipicamente da $0,04 a $0,35 a seconda della complessità del prompt e della risoluzione (fino a 2K). L'API dovrebbe essere disponibile per gli sviluppatori a inizio maggio 2026.
OpenAI dichiara una precisione del 99% nel rendering del testo in qualsiasi lingua e alfabeto, inclusi giapponese, coreano, cinese, hindi e bengalese. Si tratta di un importante miglioramento rispetto a DALL-E 3 e ad altri generatori di immagini IA, che frequentemente distorcevano le forme dei caratteri e producevano testo illeggibile. Se questa cifra regge nei test indipendenti, Images 2.0 diventa utilizzabile per il design grafico professionale e le risorse di marketing.