GPT Image 1.5 : 4x plus rapide
OpenAI lance GPT Image 1.5 : génération 4x plus rapide, édition précise et meilleur suivi des prompts. Dispo pour tous sur ChatGPT et API (-20 %).
Lire l'article →
OpenAI a lancé ChatGPT Images 2.0 le 21 avril 2026, le premier modèle d’image de l’entreprise construit sur son architecture de raisonnement de la série O. Le modèle planifie les compositions, effectue des recherches web pour obtenir du contexte et rend le texte avec une précision de 99 % dans tous les systèmes d’écriture avant de générer le moindre pixel. En 12 heures, il a pris la première place du classement Image Arena avec un score Elo de 1 512, devançant Nano Banana 2 de Google de 242 points. Cet écart est le plus important jamais enregistré sur ce benchmark. DALL-E 2 et DALL-E 3 seront tous deux retirés le 12 mai 2026.
ChatGPT Images 2.0 analyse les prompts, planifie les relations spatiales et vérifie la qualité des résultats avant de générer un quelconque visuel. OpenAI le décrit comme un « partenaire de réflexion visuelle » qui utilise la même couche de raisonnement que ses modèles de langage les plus avancés.
Ce raisonnement provient de l’architecture de la série O. Avant de produire des pixels, le modèle décompose les prompts complexes en plans de composition, identifie les relations spatiales entre les éléments et peut effectuer des recherches web pour trouver des références en temps réel. Le résultat est une meilleure gestion des scènes multi-éléments, un placement précis du texte et une identité visuelle cohérente dans les sorties groupées.
Deux niveaux d’accès existent. Le mode instantané est disponible pour tous les utilisateurs de ChatGPT (y compris les comptes gratuits) avec des améliorations de qualité de base comme de meilleures mises en page et un texte plus net. Le mode raisonnement débloque le pipeline complet : recherche web, génération multi-images (jusqu’à 8 images cohérentes par prompt) et vérification des résultats. Le mode raisonnement nécessite un abonnement Plus ($20/mois), Pro ($200/mois), Business ou Enterprise.
Planifie la composition, recherche le contexte du prompt et vérifie le résultat avant de créer une image
Précision quasi parfaite en japonais, coréen, chinois, hindi, bengali et scripts latins
Un seul prompt génère jusqu'à 8 images avec une identité cohérente des personnages et objets
Récupère du contexte en temps réel sur l'actualité, les produits et les personnes (mode raisonnement uniquement)
Génère des maquettes d'interface, des prototypes et des ressources visuelles dans l'environnement de développement d'OpenAI
Informations de provenance intégrées dans toutes les images générées pour le suivi de l'authenticité du contenu
La fonctionnalité multi-images est celle qui fera gagner le plus de temps en pratique. Un seul prompt peut produire un ensemble de visuels pour les réseaux sociaux, une séquence de storyboard ou une série de photos produit où les personnages et objets restent visuellement cohérents. Auparavant, chaque image devait être générée individuellement puis assemblée manuellement.
ChatGPT Images 2.0 est disponible sur tous les niveaux d’abonnement ChatGPT, avec des fonctionnalités qui évoluent selon le forfait. L’accès API suit une tarification par tokens avec des coûts par image entre $0,04 et $0,35 selon la complexité du prompt et la résolution de sortie (jusqu’à 2K).
Ouverture de l'API aux développeurs prévue début mai 2026
| Niveau d'accès | Coût mensuel | Fonctionnalités |
|---|---|---|
| Gratuit | $0 | Mode instantané : qualité améliorée, meilleur rendu textuel |
| Plus | $20/mois | Mode raisonnement : recherche web, multi-images, vérification |
| Pro | $200/mois | Toutes les fonctionnalités, accès prioritaire |
| API (gpt-image-2) | Par tokens | $8/M entrée, $30/M sortie, ~$0,04-$0,35/image |
OpenAI n’a pas divulgué l’architecture du modèle, le décrivant uniquement comme un « modèle généraliste » sans préciser s’il utilise la diffusion, l’autorégressif ou une approche hybride. La date limite des connaissances est décembre 2025.
Images 2.0 ne peut pas rendre fidèlement les événements, personnes ou produits apparus après décembre 2025 sans compléter ses données d’entraînement par une recherche web en direct (mode raisonnement uniquement).
OpenAI retire DALL-E 2 et DALL-E 3 le 12 mai 2026, consolidant Images 2.0 comme seul modèle de génération d’images IA dans ChatGPT. GPT-Image-1.5, la mise à niveau intermédiaire publiée en décembre 2025, reste disponible via l’API pour les intégrations existantes mais n’est plus le modèle par défaut.
Cette dépréciation marque une rupture architecturale nette. Au lieu de maintenir des modèles d’image séparés en parallèle de ses modèles de langage, OpenAI unifie les deux sous le même cadre de raisonnement. La génération d’images devient une capacité intégrée de GPT plutôt qu’un système parallèle.
La génération multi-images avec cohérence des personnages supprime un point de friction dans les workflows créatifs. Une équipe marketing peut générer une famille de visuels pour les réseaux sociaux ou une planche de storyboard à partir d’une seule instruction sans assembler manuellement des sorties séparées.
L’intégration Codex mérite d’être suivie. La génération d’images se trouve désormais dans le même environnement que les développeurs utilisent pour le code, les présentations et l’automatisation du navigateur. Cela place OpenAI en concurrence avec Midjourney et Google sur la qualité d’image et, séparément, avec Canva et Figma sur l’intégration dans les workflows.
Les résultats du benchmark changent l’équation concurrentielle. Midjourney, Stability AI et Google font désormais face à un modèle affichant les meilleurs scores de qualité, distribué auprès de plus de 200 millions d’utilisateurs de ChatGPT. Pendant la majeure partie de 2026, OpenAI et Google s’étaient échangé la première place du classement avec des marges serrées. Un écart de 242 points est une avance d’un tout autre ordre.
L’architecture de sécurité du modèle (filtrage de contenu, métadonnées C2PA et ce qu’OpenAI décrit comme une « surveillance continue ») fixe également les attentes en matière de normes de provenance. Alors que la surveillance réglementaire des médias synthétiques s’intensifie à l’échelle mondiale, l’intégration de métadonnées d’authenticité dès l’étape de génération pourrait devenir le standard, et non un facteur de différenciation.
ChatGPT Images 2.0 est le dernier modèle de génération d'images IA d'OpenAI, lancé le 21 avril 2026. C'est le premier modèle d'image construit sur l'architecture de raisonnement de la série O d'OpenAI, qui planifie les compositions et effectue des recherches web pour obtenir du contexte avant de générer les images. Il rend le texte avec une précision de 99 % dans toutes les langues et a pris la première place du classement Image Arena en 12 heures avec une avance record de 242 points.
Les améliorations de qualité de base sont accessibles à tous les utilisateurs de ChatGPT, y compris les comptes gratuits, via le mode instantané. Les fonctionnalités avancées comme le raisonnement, la recherche web, la génération multi-images (jusqu'à 8 images par prompt) et la vérification des résultats nécessitent un abonnement ChatGPT Plus ($20/mois) ou Pro ($200/mois). Les forfaits Business et Enterprise incluent également toutes les fonctionnalités.
DALL-E 2 et DALL-E 3 seront tous deux retirés le 12 mai 2026. GPT-Image-1.5 (lancé en décembre 2025) reste disponible via l'API pour les intégrations existantes. ChatGPT Images 2.0 remplace DALL-E en tant que système principal de génération d'images IA d'OpenAI.
ChatGPT Images 2.0 a pris la tête du classement Image Arena avec une avance de 242 points, la plus grande marge jamais enregistrée. Contrairement à Midjourney, qui fonctionne via Discord et une interface web sans API publique, Images 2.0 est intégré à ChatGPT et Codex. Midjourney offre des fonctionnalités communautaires et des préréglages de style plus développés, tandis qu'Images 2.0 a l'avantage en rendu textuel, composition guidée par le raisonnement et intégration dans l'écosystème.
L'identifiant du modèle API est gpt-image-2 avec une tarification par tokens : $8 par million de tokens pour l'entrée image, $2 pour l'entrée en cache et $30 par million de tokens pour la sortie image. Les coûts par image varient généralement de $0,04 à $0,35 selon la complexité du prompt et la résolution (jusqu'à 2K). L'ouverture de l'API aux développeurs est prévue début mai 2026.
OpenAI annonce une précision de rendu textuel de 99 % dans toutes les langues et tous les scripts, y compris le japonais, le coréen, le chinois, l'hindi et le bengali. C'est une amélioration majeure par rapport à DALL-E 3 et aux autres générateurs d'images IA, qui déformaient fréquemment les caractères et produisaient du texte illisible. Si ce chiffre se confirme lors de tests indépendants, Images 2.0 devient viable pour le design graphique professionnel et les supports marketing.