OpenAI GPT-5.5: Stärkstes KI-Modell

Von Darius Z. • 24. April 2026 • 7 Min. Lesezeit

Wichtige Erkenntnisse

GPT-5.5 erreicht 82,7 % auf Terminal-Bench 2.0 und liegt damit 13,3 Punkte vor Claude Opus 4.7 bei agentischen Coding-Aufgaben
Das KI-Modell erzielt 78,7 % auf OSWorld-Verified für autonome Computer-Nutzung und 84,9 % auf GDPval über 44 Wissensarbeits-Berufe
API-Preise liegen bei $5 pro Million Input-Tokens und $30 pro Million Output-Tokens – gleicher Input-Preis wie Claude Opus 4.7
Claude Opus 4.7 führt weiterhin bei SWE-Bench Pro (64,3 % vs. 58,6 %) für Multi-File Software Engineering

OpenAI hat GPT-5.5 am 23. April 2026 veröffentlicht und nennt es „eine neue Klasse von Intelligenz für echte Arbeit.” Das Modell ist die erste vollständig neu trainierte Basisarchitektur seit GPT-4.5 (interner Codename „Spud”) und zielt auf vier Bereiche ab: agentisches Coding, Computer Use, Wissensarbeit und wissenschaftliche Forschung. Auf Terminal-Bench 2.0 erreichte GPT-5.5 82,7 % – der höchste Wert aller öffentlich verfügbaren Modelle. Auf OSWorld-Verified kam es auf 78,7 % für autonome Computer-Steuerung. Die API-Preise liegen bei $5 pro Million Input-Tokens und $30 pro Million Output-Tokens. Das Modell wird schrittweise für ChatGPT Plus-, Pro-, Business- und Enterprise-Nutzer freigeschaltet, der API-Zugang folgt in Phasen.

GPT-5.5 in ChatGPT testen

GPT-5.5 ist jetzt für ChatGPT Plus-, Pro-, Business- und Enterprise-Nutzer verfügbar.

ChatGPT GPT-5.5 testen →

Was kann GPT-5.5?

GPT-5.5 ist für Aufgaben gebaut, die eine anhaltende, mehrstufige Ausführung ohne ständige menschliche Aufsicht erfordern. OpenAI-Präsident Greg Brockman beschrieb es als ein Modell, das „ein unklares Problem betrachten und herausfinden kann, was als Nächstes passieren muss.” Die größten Fortschritte zeigen sich in vier Kategorien.

Agentisches Coding

Schreibt Produktions-Code, debuggt Fehler, refaktoriert Legacy-Projekte und navigiert Multi-File-Codebasen. 82,7 % auf Terminal-Bench 2.0.

Computer Use

Bedient reale Desktop-Umgebungen autonom: klickt, tippt, navigiert durch Apps. 78,7 % auf OSWorld-Verified.

Wissensarbeit

Analysiert Dokumente, erstellt Tabellen, recherchiert quellenübergreifend. 84,9 % Win-or-Tie-Rate auf GDPval über 44 Berufsgruppen.

Wissenschaftliche Forschung

Führt auf FrontierMath Tier 4 (schwerste Mathe-Aufgaben) und setzt Rekorde auf GeneBench und BixBench für wissenschaftliches Reasoning.

Was GPT-5.5 von GPT-5.4 unterscheidet, ist der Umgang mit Mehrdeutigkeit. Das Modell braucht weniger menschliche Anleitung, setzt Tools effektiver ein, prüft seine eigenen Ergebnisse und arbeitet weiter, bis eine Aufgabe abgeschlossen ist. OpenAI berichtet, dass GPT-5.5 auf Expert-SWE (dem internen Coding-Benchmark für Aufgaben mit einer mittleren menschlichen Bearbeitungszeit von 20 Stunden) GPT-5.4 übertrifft und dabei weniger Tokens verbraucht.

GPT-5.5 Benchmark-Ergebnisse im Vergleich

GPT-5.5 führt bei agentischen, multimodalen und Mathe-Benchmarks. Claude Opus 4.7 hält die Führung bei Coding- und Wissensaufgaben. Gemini 3.1 Pro liegt beim Reasoning nah dran. Alle Werte sind von den jeweiligen Anbietern selbst gemeldet.

Benchmark-Werte sind von den jeweiligen Anbietern selbst gemeldet und können unterschiedliche Testbedingungen verwenden

Benchmark	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro	Misst
Terminal-Bench 2.0	82,7 %	69,4 %	68,5 %	Agentische Shell-Workflows
SWE-Bench Pro	58,6 %	64,3 %	54,2 %	Multi-File GitHub Issues
OSWorld-Verified	78,7 %	78,0 %	~60 %	Autonome Computer-Nutzung
GDPval (Win/Tie)	84,9 %	80,3 %	67,3 %	Wissensarbeit, 44 Berufe
GPQA Diamond	93,6 %	94,2 %	94,3 %	Wissenschafts-Q&A auf Graduiertenniveau
FrontierMath Tier 4	Führend	—	—	Schwerste Mathe-Aufgaben
Tau2-bench Telecom	98,0 %	~90 %	~85 %	Kundenservice-Workflows

Der größte Ausschlag zeigt sich bei Terminal-Bench 2.0, wo GPT-5.5 Claude Opus 4.7 um 13,3 Prozentpunkte übertrifft. Dieser Benchmark testet unbeaufsichtigte, shell-gesteuerte Aufgaben, die Planung, Fehlerbehebung und Selbstverifikation erfordern. Das stärkste Gegenargument: Claude Opus 4.7 führt bei SWE-Bench Pro mit 5,7 Punkten Vorsprung – dort geht es um die Lösung realer GitHub-Pull-Requests.

GPT-5.5 vs Claude Opus 4.7: Wer gewinnt?

Kein Modell dominiert auf ganzer Linie. Sie zielen auf unterschiedliche Workloads ab, und die richtige Wahl hängt von den eigenen Anforderungen ab.

Claude Opus 4.7 (veröffentlicht am 16. April, eine Woche vor GPT-5.5) gewinnt beim Coding. 64,3 % auf SWE-Bench Pro bedeutet, dass es mehr reale Multi-File GitHub Issues End-to-End löst. Es führt auch auf CursorBench (70 % vs. ~65 %), was es zur stärkeren Wahl für IDE-integrierte Entwicklung macht. Beim Reasoning auf Graduiertenniveau ohne Tools (HLE no-tools) liegt Opus 4.7 mit 46,9 % zu 41,4 % vorn.

GPT-5.5 gewinnt bei agentischen Aufgaben. Der Terminal-Bench 2.0-Vorsprung (+13,3 Punkte) spiegelt die stärkere Leistung bei lang laufenden Kommandozeilen-Workflows wider, die Planung, Iteration und Tool-Koordination erfordern. Bei Computer Use (OSWorld-Verified) liegt es knapp vor Opus 4.7 (78,7 % vs. 78,0 %). Auf Tau2-bench Telecom für Kundenservice-Automatisierung erreicht GPT-5.5 98,0 %.

Die Token-Preise sind nahezu identisch: Beide verlangen $5 pro Million Input-Tokens, während GPT-5.5 bei $30 und Opus 4.7 bei $25 pro Million Output-Tokens liegt.

Was kostet GPT-5.5?

Die API-Preise von GPT-5.5 liegen auf dem Niveau von Frontier-Modellen. Input-Tokens kosten gleich viel wie bei Claude Opus 4.7 und Gemini 3.1 Pro. Output-Tokens liegen höher.

$5/M Input-Tokens

$30/M Output-Tokens

1M Kontextfenster

OpenAI rollt GPT-5.5 für ChatGPT Plus ($20/Monat), Pro ($200/Monat), Business und Enterprise aus. Der API-Zugang wird schrittweise erweitert. Eine GPT-5.5 Pro-Variante existiert, die parallele Test-Time-Compute für schwierigere Aufgaben nutzt. Gemini 3.1 Pro bleibt die günstigere Alternative mit $1,25 Input / $10 Output pro Million Tokens bei einem 2M-Token-Kontextfenster.

Welche Sicherheitsmaßnahmen hat GPT-5.5?

Cybersicherheits-Einstufung: High

OpenAIs Preparedness Framework stuft GPT-5.5 in der Kategorie Cybersicherheit als „High” ein – eine Erhöhung gegenüber GPT-5.4. Zusätzliche Schutzmaßnahmen beschränken skalierte agentische Schwachstellenforschung und Exploit-Verkettung für Nutzer außerhalb des Trusted Access for Cyber-Programms.

OpenAI hat GPT-5.5 vor der Veröffentlichung gegen das vollständige Preparedness Framework getestet, wobei fast 200 Early-Access-Partner Feedback gaben. Das Modell trägt drei Sicherheitseinstufungen: High für biologische und chemische Fähigkeiten (wie GPT-5.4), High für Cybersicherheit (erhöht gegenüber GPT-5.4) und unter High für KI-Selbstverbesserung.

Die Systemkarte merkt an, dass GPT-5.5 nicht in der Lage ist, „funktionierende Zero-Day-Exploits aller Schweregrade in vielen gehärteten realen kritischen Systemen ohne menschliches Eingreifen” zu entwickeln – das ist die Critical-Schwelle. OpenAI hat das Trusted Access for Cyber (TAC)-Programm erweitert, um verifizierten Sicherheitsexperten breiteren Zugang zu Dual-Use-Cyber-Fähigkeiten zu geben und diese für allgemeine Nutzer einzuschränken.

Was GPT-5.5 für Kreativprofis bedeutet

GPT-5.5 ist kein Kreativ-Tool. Aber viele Kreativ-Tools laufen über OpenAIs API, und diese Produkte haben jetzt Zugang zu einem Modell, das mehrstufige Workflows besser bewältigt und pro Token weniger kostet als GPT-5.4.

Die Computer-Use-Fähigkeit ist hier am relevantesten. Mit 78,7 % auf OSWorld-Verified kann GPT-5.5 reale Desktop-Anwendungen eigenständig bedienen. Man denke an KI-Agenten, die den Video-Editor steuern, Export-Einstellungen anpassen oder zwischen Kreativ-Apps wechseln, ohne dass man die Maus anfasst.

Für Entwickler, die kreative KI-Produkte bauen, senken die Token-Preise von $5/$30 pro Million und das 1M-Kontextfenster die Kosten für längere automatisierte Workflows. OpenAI gibt an, dass GPT-5.5 bei gleichwertigen Aufgaben weniger Tokens verbraucht als GPT-5.4, was die Einsparungen verstärkt.

Claude Opus 4.7 startete eine Woche früher mit stärkeren Coding-Benchmarks. GPT-5.5 kontert mit stärkerer agentischer Leistung. Entwickler von KI-Kreativ-Tools haben jetzt zwei Frontier-Modelle, die jeweils für einen anderen Teil der Pipeline optimiert sind.

GPT-5.5 in ChatGPT testen

Jetzt verfügbar für Plus-, Pro-, Business- und Enterprise-Nutzer. API-Zugang wird schrittweise erweitert.

ChatGPT GPT-5.5 testen →

Häufig gestellte Fragen

Was ist GPT-5.5?

GPT-5.5 ist OpenAIs neuestes Flaggschiff-KI-Modell, veröffentlicht am 23. April 2026. Es ist das erste vollständig neu trainierte Basismodell seit GPT-4.5 und zielt auf agentisches Coding, Computer Use, Wissensarbeit und wissenschaftliche Forschung ab. Das Modell erreicht 82,7 % auf Terminal-Bench 2.0 und 78,7 % auf OSWorld-Verified für autonome Computer-Steuerung.

Was kostet GPT-5.5?

Die API-Preise von GPT-5.5 liegen bei $5 pro Million Input-Tokens und $30 pro Million Output-Tokens. Das Kontextfenster umfasst 1 Million Tokens. ChatGPT-Nutzer können GPT-5.5 über Plus ($20/Monat), Pro ($200/Monat), Business und Enterprise nutzen. Gemini 3.1 Pro ist die günstigere Alternative mit $1,25/$10 pro Million Tokens.

Ist GPT-5.5 besser als Claude Opus 4.7?

Das hängt vom Einsatzgebiet ab. GPT-5.5 führt bei agentischen Aufgaben wie Terminal-Bench 2.0 (82,7 % vs. 69,4 %), Computer Use (78,7 % vs. 78,0 %) und Wissensarbeit (84,9 % vs. 80,3 %). Claude Opus 4.7 führt bei Coding-Benchmarks wie SWE-Bench Pro (64,3 % vs. 58,6 %) und CursorBench (70 % vs. ~65 %). Beide verlangen $5 pro Million Input-Tokens.

Wann wurde GPT-5.5 veröffentlicht?

OpenAI hat GPT-5.5 am 23. April 2026 veröffentlicht. Es startete am selben Tag für ChatGPT Plus-, Pro-, Business- und Enterprise-Nutzer. Der API-Zugang wird schrittweise ausgerollt. Claude Opus 4.7 startete eine Woche früher am 16. April 2026.

Unterstützt GPT-5.5 Bildgenerierung?

GPT-5.5 selbst ist primär ein Intelligenz-Modell mit Fokus auf Coding, Forschung und Computer Use. OpenAI hat separat ChatGPT Images 2.0 am 21. April 2026 gestartet, das das gpt-image-2-Modell für hochwertige Bildgenerierung und -bearbeitung in ChatGPT nutzt. Beide Funktionen sind für ChatGPT Plus- und Pro-Abonnenten verfügbar.

Quellen

War dieser Artikel hilfreich?

Zuletzt aktualisiert: 24. April 2026

Affiliate-Offenlegung: Diese Bewertung enthält Affiliate-Links. Wenn Sie über unsere Links kaufen, erhalten wir möglicherweise eine Provision ohne zusätzliche Kosten für Sie. Wir empfehlen nur Tools, die wir persönlich getestet haben und von denen wir glauben, dass sie unseren Lesern einen echten Mehrwert bieten.

Wichtige Erkenntnisse

GPT-5.5 in ChatGPT testen

Was kann GPT-5.5?

Agentisches Coding

Computer Use

Wissensarbeit

Wissenschaftliche Forschung

GPT-5.5 Benchmark-Ergebnisse im Vergleich

GPT-5.5 vs Claude Opus 4.7: Wer gewinnt?

Was kostet GPT-5.5?

Welche Sicherheitsmaßnahmen hat GPT-5.5?

Was GPT-5.5 für Kreativprofis bedeutet

GPT-5.5 in ChatGPT testen

Häufig gestellte Fragen

Quellen

Verwandte Artikel

GPT Image 1.5: 4x schneller in ChatGPT

OpenAI stellt Sora ein – Gründe

Beste KI-Video-Generatoren 2026 im Vergleich