GPT Image 1.5が4倍高速化
OpenAIが4倍速い生成、精密な編集、改善された指示追従を備えたGPT Image 1.5を発表。すべてのChatGPTユーザーとAPI経由で利用可能、価格は20%安く。
記事を読む →
OpenAI(オープンエーアイ)は2026年4月23日にGPT-5.5をリリースし、「実務のための新たな知能クラス」と位置づけた。GPT-4.5(社内コードネーム「Spud」)以来初となるフルリトレーニング済みベースアーキテクチャであり、エージェント型コーディング、コンピュータ操作、知識労働、科学研究の4分野をターゲットとしている。Terminal-Bench 2.0ではGPT-5.5が82.7%を記録し、公開モデルとして最高スコアを達成。OSWorld-Verifiedでは自律的なコンピュータ操作で78.7%に到達した。API価格は入力100万トークンあたり$5、出力100万トークンあたり$30。ChatGPT(チャットGPT) Plus、Pro、Business、Enterpriseユーザーへの提供が開始されており、APIアクセスは段階的に拡大中だ。
GPT-5.5は、人間の常時監視なしにマルチステップのタスクを持続的に実行する用途に設計されている。OpenAI社長のGreg Brockmanは、「不明瞭な問題を見て、次に何をすべきかを自分で判断できるモデル」と表現した。主な改善点は以下の4カテゴリに集中している。
本番コードの記述、バグ修正、レガシープロジェクトのリファクタリング、マルチファイルコードベースのナビゲーションを実行。Terminal-Bench 2.0で82.7%を記録。
実際のデスクトップ環境を自律的に操作。クリック、入力、アプリ間のナビゲーションに対応。OSWorld-Verifiedで78.7%。
ドキュメントの分析、スプレッドシートの作成、複数ソースからのリサーチを実行。GDPvalで44職種にわたり84.9%の勝率/引き分け率。
FrontierMath Tier 4(最高難度の数学問題)でトップを獲得。GeneBenchとBixBenchで科学推論の新記録を樹立。
GPT-5.5とGPT-5.4の最大の違いは、曖昧さへの対応力にある。GPT-5.5は人間への確認回数が減り、ツールの活用効率が上がり、自身の出力を検証し、タスクが完了するまで処理を続行する。OpenAIによると、Expert-SWE(人間の中央値で20時間かかるタスクを扱う社内コーディングベンチマーク)において、GPT-5.5はGPT-5.4を上回りながら消費トークン数を削減したという。
GPT-5.5はエージェント型タスク、マルチモーダル、数学ベンチマークでリードしている。Claude Opus 4.7はコーディングと知識タスクで優位を保つ。Gemini 3.1 Proは推論で接戦となっている。以下のスコアはすべて各プロバイダーの自己申告値である。
ベンチマークスコアは各プロバイダーの自己申告値であり、評価条件が異なる場合がある
| ベンチマーク | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro | 評価対象 |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | 68.5% | エージェント型シェルワークフロー |
| SWE-Bench Pro | 58.6% | 64.3% | 54.2% | マルチファイルGitHub Issue解決 |
| OSWorld-Verified | 78.7% | 78.0% | ~60% | 自律的コンピュータ操作 |
| GDPval(勝率/引き分け) | 84.9% | 80.3% | 67.3% | 知識労働(44職種) |
| GPQA Diamond | 93.6% | 94.2% | 94.3% | 大学院レベル科学Q&A |
| FrontierMath Tier 4 | トップ | — | — | 最高難度の数学問題 |
| Tau2-bench Telecom | 98.0% | ~90% | ~85% | カスタマーサービス自動化 |
最大の差が出たのはTerminal-Bench 2.0で、GPT-5.5がClaude Opus 4.7を13.3ポイント上回った。このベンチマークは、計画、エラー回復、自己検証を要する無人シェル駆動タスクを測定する。一方、Claude Opus 4.7はSWE-Bench Proで5.7ポイントのリードを保持しており、こちらは実際のGitHubプルリクエスト解決能力を測定するものだ。
どちらのモデルも全分野で圧倒しているわけではない。ターゲットとするワークロードが異なり、最適な選択は用途次第だ。
Claude Opus 4.7(GPT-5.5の1週間前、4月16日リリース)はコーディングで勝る。SWE-Bench Proの64.3%は、実世界のマルチファイルGitHub Issueをエンドツーエンドでより多く解決できることを意味する。CursorBenchでも70%対約65%でリードしており、IDE統合開発においてはClaude Opus 4.7が有利だ。ツール不使用の大学院レベル推論(HLE no-tools)でも、Opus 4.7が46.9%対41.4%で上回る。
GPT-5.5はエージェント型タスクで勝る。Terminal-Bench 2.0での+13.3ポイントのリードは、計画、反復、ツール連携を必要とする長時間コマンドラインワークフローでの優位性を反映している。コンピュータ操作(OSWorld-Verified)では、Opus 4.7を僅差で上回る(78.7% vs 78.0%)。カスタマーサービス自動化のTau2-bench Telecomでは98.0%を記録した。
価格設定はほぼ同等で、入力100万トークンあたり$5は共通。出力はGPT-5.5が$30、Opus 4.7が$25となっている。
GPT-5.5のAPI価格はフロンティアモデルの水準に沿っている。入力トークンのコストはClaude Opus 4.7やGemini 3.1 Proと同額だ。出力トークンにはプレミアムが上乗せされている。
OpenAIはChatGPT Plus($20/月)、Pro($200/月)、Business、Enterpriseの各プランにGPT-5.5を順次提供している。APIアクセスは段階的に拡大中だ。より難度の高い問題に並列テスト時計算を適用するGPT-5.5 Proバリアントも存在する。Gemini 3.1 Proは入力$1.25/出力$10(100万トークンあたり)、コンテキストウィンドウ200万トークンでコスト重視の選択肢として残る。
OpenAIのPreparedness FrameworkはGPT-5.5のサイバーセキュリティ能力を「High」と評価しており、GPT-5.4から引き上げとなった。Trusted Access for Cyberプログラム外のユーザーに対しては、大規模なエージェント型脆弱性調査やエクスプロイトチェーンを制限する追加セーフガードが導入されている。
OpenAIはリリース前にPreparedness Frameworkの全項目でGPT-5.5をテストし、約200のアーリーアクセスパートナーからフィードバックを収集した。安全性評価は3項目:生物・化学能力がHigh(GPT-5.4と同等)、サイバーセキュリティがHigh(GPT-5.4から引き上げ)、AI自己改善能力がHigh未満となっている。
システムカードでは、GPT-5.5は「人間の介入なしに、多くの堅牢な実世界の重要システムにおいてあらゆる深刻度のゼロデイエクスプロイトを開発する」能力(Criticalの閾値)には達していないと記載されている。OpenAIはTrusted Access for Cyber(TAC)プログラムを拡充し、認定セキュリティ専門家にはデュアルユースのサイバー能力へのアクセスを拡大する一方、一般ユーザーには制限を設けている。
GPT-5.5自体はクリエイティブツールではない。しかし、多くのクリエイティブツールがOpenAIのAPIを基盤としており、それらの製品はマルチステップワークフローの処理能力が向上し、GPT-5.4よりトークン単価が低いモデルにアクセスできるようになった。
最も注目すべきはコンピュータ操作機能だ。OSWorld-Verifiedで78.7%を記録したGPT-5.5は、実際のデスクトップアプリケーションを自律的にナビゲートできる。動画編集ソフトを操作し、書き出し設定を調整し、クリエイティブアプリ間を切り替えるAIエージェントが実現しうる。
クリエイティブAI製品を開発するデベロッパーにとって、$5/$30(100万トークンあたり)の価格設定と100万トークンのコンテキストウィンドウは、長時間の自動化ワークフローのコスト削減につながる。OpenAIによると、GPT-5.5は同等タスクでGPT-5.4よりトークン消費が少なく、コスト削減効果はさらに大きくなるという。
Claude Opus 4.7は1週間先行してリリースされ、コーディングベンチマークでは優位に立つ。GPT-5.5はエージェント性能で対抗する。AIクリエイティブツールを開発するデベロッパーは、パイプラインの異なる部分に最適化された2つのフロンティアモデルを選択できるようになった。
GPT-5.5はOpenAIの最新フラッグシップAIモデルで、2026年4月23日にリリースされた。GPT-4.5以来初のフルリトレーニング済みベースモデルであり、エージェント型コーディング、コンピュータ操作、知識労働、科学研究をターゲットとしている。Terminal-Bench 2.0で82.7%、OSWorld-Verifiedで自律的コンピュータ操作78.7%を記録した。
GPT-5.5のAPI価格は入力100万トークンあたり$5、出力100万トークンあたり$30。コンテキストウィンドウは100万トークン。ChatGPTユーザーはPlus($20/月)、Pro($200/月)、Business、Enterpriseの各プランからGPT-5.5にアクセスできる。Gemini 3.1 Proは$1.25/$10(100万トークンあたり)でより安価な選択肢となる。
ワークロードによる。GPT-5.5はTerminal-Bench 2.0(82.7% vs 69.4%)、コンピュータ操作(78.7% vs 78.0%)、知識労働(84.9% vs 80.3%)などのエージェント型タスクでリード。Claude Opus 4.7はSWE-Bench Pro(64.3% vs 58.6%)やCursorBench(70% vs 約65%)などのコーディングベンチマークでリードしている。入力100万トークンあたりの価格は両モデルとも$5。
OpenAIは2026年4月23日にGPT-5.5をリリースした。同日よりChatGPT Plus、Pro、Business、Enterpriseユーザーへの提供が開始された。APIアクセスは段階的に拡大中。Claude Opus 4.7は1週間前の2026年4月16日にリリースされている。
GPT-5.5はコーディング、リサーチ、コンピュータ操作に特化した知能モデルである。画像生成については、OpenAIが2026年4月21日にChatGPT Images 2.0を別途リリースしており、gpt-image-2モデルによる高品質な画像生成・編集がChatGPT内で利用可能だ。いずれの機能もChatGPT PlusおよびProユーザーが利用できる。