GPT Image 1.5: 4x schneller in ChatGPT
GPT Image 1.5 bringt 4x schnellere Generierung, präzise Bearbeitung und bessere Prompt-Treue. Für alle ChatGPT-Nutzer und via API 20 % günstiger.
Artikel lesen →
OpenAI hat ChatGPT Images 2.0 am 21. April 2026 veröffentlicht – das erste Bildmodell des Unternehmens, das auf der O-Series-Reasoning-Architektur aufbaut. Das Modell plant Kompositionen, durchsucht das Web nach Kontext und rendert Text mit 99 % Genauigkeit über alle Schriftsysteme hinweg, bevor ein einziges Pixel generiert wird. Innerhalb von 12 Stunden nach dem Start belegte es mit einem Elo-Score von 1.512 den ersten Platz der Image-Arena-Rangliste und schlug Googles Nano Banana 2 um 242 Punkte. Diese Differenz ist der größte jemals in diesem Benchmark gemessene Abstand. DALL-E 2 und DALL-E 3 werden am 12. Mai 2026 eingestellt.
ChatGPT Images 2.0 analysiert Prompts, plant räumliche Beziehungen und überprüft die Ausgabequalität, bevor ein Bild generiert wird. OpenAI beschreibt es als einen „visuellen Denkpartner”, der dieselbe Reasoning-Schicht nutzt, die auch die fortschrittlichsten Sprachmodelle antreibt.
Dieses Reasoning stammt aus der O-Series-Architektur. Bevor Pixel erzeugt werden, zerlegt das Modell komplexe Prompts in Kompositionspläne, identifiziert räumliche Beziehungen zwischen Elementen und kann das Web nach Echtzeit-Referenzmaterial durchsuchen. Das Ergebnis ist eine bessere Handhabung von Szenen mit mehreren Elementen, präzise Textplatzierung und konsistente visuelle Identität über gebündelte Ausgaben hinweg.
Es gibt zwei Zugangsebenen. Der Sofort-Modus steht allen ChatGPT-Nutzern (einschließlich kostenloser Konten) mit grundlegenden Qualitätsverbesserungen wie besseren Layouts und schärferem Text zur Verfügung. Der Denk-Modus schaltet die vollständige Reasoning-Pipeline frei: Websuche, Multi-Bild-Bündelung (bis zu 8 zusammenhängende Bilder pro Prompt) und Ausgabeverifizierung. Der Denk-Modus erfordert ein Plus- ($20/Monat), Pro- ($200/Monat), Business- oder Enterprise-Abonnement.
Plant Komposition, recherchiert Prompt-Kontext und verifiziert die Ausgabe, bevor ein Bild erstellt wird
Nahezu fehlerfreie Genauigkeit über Japanisch, Koreanisch, Chinesisch, Hindi, Bengalisch und lateinische Schriftsysteme
Ein Prompt generiert bis zu 8 Bilder mit konsistenter Charakter- und Objektidentität
Ruft Echtzeit-Kontext für aktuelle Ereignisse, Produkte und Personen ab (nur Denk-Modus)
UI-Mockups, Prototypen und visuelle Assets direkt in OpenAIs Coding-Umgebung generieren
Herkunftsinformationen in allen generierten Bildern eingebettet zur Nachverfolgung der Inhaltsechtheit
Die Multi-Bild-Funktion dürfte in der Praxis am meisten Zeit sparen. Ein einziger Prompt kann ein Set aus Social-Media-Assets, eine Storyboard-Sequenz oder eine Produktfoto-Serie erzeugen, in der Charaktere und Objekte visuell konsistent bleiben. Bisher musste jedes Bild einzeln promptet und manuell zusammengestellt werden.
ChatGPT Images 2.0 ist über alle ChatGPT-Abonnementstufen verfügbar, wobei die Funktionen je nach Tarif skalieren. Der API-Zugang folgt einer Token-basierten Preisgestaltung mit Kosten zwischen $0,04 und $0,35 pro Bild, abhängig von Prompt-Komplexität und Ausgabeauflösung (bis zu 2K).
API voraussichtlich ab Anfang Mai 2026 für Entwickler verfügbar
| Zugangsebene | Monatliche Kosten | Funktionen |
|---|---|---|
| Kostenlos | $0 | Sofort-Modus: verbesserte Qualität, bessere Textdarstellung |
| Plus | $20/Mo. | Denk-Modus: Websuche, Multi-Bild, Verifizierung |
| Pro | $200/Mo. | Alle Funktionen, bevorzugter Zugang |
| API (gpt-image-2) | Token-basiert | $8/M Input, $30/M Output, ~$0,04–$0,35/Bild |
OpenAI hat die Architektur des Modells nicht offengelegt und es lediglich als „Generalistenmodell” beschrieben, ohne zu spezifizieren, ob es auf Diffusion, autoregressiven oder hybriden Ansätzen basiert. Der Wissensstand reicht bis Dezember 2025.
Images 2.0 kann Ereignisse, Personen oder Produkte, die nach Dezember 2025 aufgetaucht sind, nicht präzise darstellen, ohne seine Trainingsdaten durch Live-Websuche zu ergänzen (nur Denk-Modus).
OpenAI stellt am 12. Mai 2026 sowohl DALL-E 2 als auch DALL-E 3 ein und konsolidiert auf Images 2.0 als einziges Bildgenerierungsmodell in ChatGPT. GPT-Image-1.5, das Zwischen-Upgrade vom Dezember 2025, bleibt über die API für bestehende Integrationen verfügbar, ist aber nicht mehr die Standardoption.
Die Einstellung markiert einen klaren architektonischen Bruch. Anstatt separate Bildmodelle neben den Sprachmodellen zu pflegen, vereint OpenAI beides unter demselben Reasoning-Framework. Bildgenerierung wird zu einer integrierten Fähigkeit von GPT statt eines parallelen Systems.
Multi-Bild-Bündelung mit Charakterkonsistenz beseitigt einen Reibungspunkt in Design-Workflows. Ein Marketing-Team kann mit einer einzigen Anweisung eine Reihe von Social-Media-Assets oder ein Storyboard-Set generieren, ohne einzelne Ausgaben manuell zusammenfügen zu müssen.
Die Codex-Integration verdient Beachtung. KI-Bildgenerierung befindet sich jetzt in derselben Umgebung, die Entwickler für Code, Präsentationen und Browser-Automatisierung nutzen. Damit tritt OpenAI in Konkurrenz zu Midjourney und Google bei der Bildqualität und gleichzeitig zu Canva und Figma bei der Workflow-Integration.
Die Benchmark-Ergebnisse verschieben die Wettbewerbsdynamik. Midjourney, Stability AI und Google stehen nun einem Modell gegenüber, das führende Qualitätswerte aufweist und über ChatGPTs mehr als 200 Millionen Nutzer verbreitet wird. Den Großteil des Jahres 2026 hatten OpenAI und Google sich mit knappen Abständen an der Spitze der Rangliste abgewechselt. Ein Vorsprung von 242 Punkten ist eine andere Größenordnung.
Die Sicherheitsarchitektur des Modells (Inhaltsfilterung, C2PA-Metadaten und von OpenAI als „laufende Überwachung” beschriebene Maßnahmen) setzt zudem Maßstäbe für Herkunftsstandards. Da die regulatorische Prüfung synthetischer Medien weltweit zunimmt, könnte das Einbetten von Authentizitätsmetadaten bei der Generierung zum Standard werden – nicht zum Alleinstellungsmerkmal.
ChatGPT Images 2.0 ist OpenAIs neuestes Bildgenerierungsmodell, veröffentlicht am 21. April 2026. Es ist das erste Bildmodell, das auf OpenAIs O-Series-Reasoning-Architektur aufbaut – diese plant Kompositionen und durchsucht das Web nach Kontext, bevor Bilder generiert werden. Die Textdarstellung erreicht 99 % Genauigkeit über alle Sprachen hinweg. Innerhalb von 12 Stunden belegte es Platz 1 der Image-Arena-Rangliste mit einem Rekordvorsprung von 242 Punkten.
Grundlegende Qualitätsverbesserungen stehen allen ChatGPT-Nutzern einschließlich kostenloser Konten im Sofort-Modus zur Verfügung. Erweiterte Funktionen wie Reasoning, Websuche, Multi-Bild-Generierung (bis zu 8 Bilder pro Prompt) und Ausgabeverifizierung erfordern ein ChatGPT-Plus-Abonnement ($20/Monat) oder ein Pro-Abonnement ($200/Monat). Business- und Enterprise-Tarife enthalten ebenfalls alle Funktionen.
DALL-E 2 und DALL-E 3 werden am 12. Mai 2026 eingestellt. GPT-Image-1.5 (veröffentlicht im Dezember 2025) bleibt über die API für bestehende Integrationen verfügbar. ChatGPT Images 2.0 ersetzt DALL-E als OpenAIs primäres Bildgenerierungssystem.
ChatGPT Images 2.0 belegte Platz 1 der Image-Arena-Rangliste mit einem Vorsprung von 242 Punkten – der größte jemals gemessene Abstand. Im Gegensatz zu Midjourney, das über Discord und eine Weboberfläche ohne öffentliche API betrieben wird, ist Images 2.0 in ChatGPT und Codex integriert. Midjourney bietet stärkere Community-Funktionen und Stil-Presets, während Images 2.0 Vorteile bei Textdarstellung, Reasoning-basierter Komposition und Ökosystem-Integration hat.
Die API-Modellbezeichnung ist gpt-image-2 mit Token-basierter Preisgestaltung: $8 pro Million Token für Bildeingabe, $2 für gecachte Eingabe und $30 pro Million Token für Bildausgabe. Die Kosten pro Bild liegen typischerweise zwischen $0,04 und $0,35, abhängig von Prompt-Komplexität und Auflösung (bis zu 2K). Die API soll Anfang Mai 2026 für Entwickler zugänglich werden.
OpenAI gibt eine Genauigkeit von 99 % bei der Textdarstellung über alle Sprachen und Schriftsysteme an, darunter Japanisch, Koreanisch, Chinesisch, Hindi und Bengalisch. Das ist eine deutliche Verbesserung gegenüber DALL-E 3 und anderen KI-Bildgeneratoren, die häufig Buchstabenformen verzerrten und unleserlichen Text erzeugten. Sollte sich dieser Wert in unabhängigen Tests bestätigen, wird Images 2.0 für professionelles Grafikdesign und Marketing-Assets einsetzbar.