OpenAI GPT-5.5：業務とコーディングの最強モデル

著者: Darius Z. • 2026年4月24日 • 7 分で読めます

重要ポイント

GPT-5.5はTerminal-Bench 2.0で82.7%を記録し、エージェント型コーディングタスクでClaude Opus 4.7を13.3ポイント上回った
OSWorld-Verifiedで自律的コンピュータ操作78.7%、GDPvalで44職種の知識労働タスクにおいて84.9%の勝率/引き分け率を達成
API価格は入力100万トークンあたり$5、出力100万トークンあたり$30で、入力コストはClaude Opus 4.7と同水準
Claude Opus 4.7はSWE-Bench Pro（64.3% vs 58.6%）でマルチファイルソフトウェアエンジニアリングのリードを維持

OpenAI（オープンエーアイ）は2026年4月23日にGPT-5.5をリリースし、「実務のための新たな知能クラス」と位置づけた。GPT-4.5（社内コードネーム「Spud」）以来初となるフルリトレーニング済みベースアーキテクチャであり、エージェント型コーディング、コンピュータ操作、知識労働、科学研究の4分野をターゲットとしている。Terminal-Bench 2.0ではGPT-5.5が82.7%を記録し、公開モデルとして最高スコアを達成。OSWorld-Verifiedでは自律的なコンピュータ操作で78.7%に到達した。API価格は入力100万トークンあたり$5、出力100万トークンあたり$30。ChatGPT（チャットGPT） Plus、Pro、Business、Enterpriseユーザーへの提供が開始されており、APIアクセスは段階的に拡大中だ。

ChatGPTでGPT-5.5を試す

GPT-5.5はChatGPT Plus、Pro、Business、Enterpriseユーザー向けに提供中。

ChatGPT GPT-5.5を試す →

GPT-5.5で何ができるのか？

GPT-5.5は、人間の常時監視なしにマルチステップのタスクを持続的に実行する用途に設計されている。OpenAI社長のGreg Brockmanは、「不明瞭な問題を見て、次に何をすべきかを自分で判断できるモデル」と表現した。主な改善点は以下の4カテゴリに集中している。

エージェント型コーディング

本番コードの記述、バグ修正、レガシープロジェクトのリファクタリング、マルチファイルコードベースのナビゲーションを実行。Terminal-Bench 2.0で82.7%を記録。

コンピュータ操作

実際のデスクトップ環境を自律的に操作。クリック、入力、アプリ間のナビゲーションに対応。OSWorld-Verifiedで78.7%。

知識労働

ドキュメントの分析、スプレッドシートの作成、複数ソースからのリサーチを実行。GDPvalで44職種にわたり84.9%の勝率/引き分け率。

科学研究

FrontierMath Tier 4（最高難度の数学問題）でトップを獲得。GeneBenchとBixBenchで科学推論の新記録を樹立。

GPT-5.5とGPT-5.4の最大の違いは、曖昧さへの対応力にある。GPT-5.5は人間への確認回数が減り、ツールの活用効率が上がり、自身の出力を検証し、タスクが完了するまで処理を続行する。OpenAIによると、Expert-SWE（人間の中央値で20時間かかるタスクを扱う社内コーディングベンチマーク）において、GPT-5.5はGPT-5.4を上回りながら消費トークン数を削減したという。

GPT-5.5のベンチマーク性能は？

GPT-5.5はエージェント型タスク、マルチモーダル、数学ベンチマークでリードしている。Claude Opus 4.7はコーディングと知識タスクで優位を保つ。Gemini 3.1 Proは推論で接戦となっている。以下のスコアはすべて各プロバイダーの自己申告値である。

ベンチマークスコアは各プロバイダーの自己申告値であり、評価条件が異なる場合がある

ベンチマーク	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro	評価対象
Terminal-Bench 2.0	82.7%	69.4%	68.5%	エージェント型シェルワークフロー
SWE-Bench Pro	58.6%	64.3%	54.2%	マルチファイルGitHub Issue解決
OSWorld-Verified	78.7%	78.0%	~60%	自律的コンピュータ操作
GDPval（勝率/引き分け）	84.9%	80.3%	67.3%	知識労働（44職種）
GPQA Diamond	93.6%	94.2%	94.3%	大学院レベル科学Q&A
FrontierMath Tier 4	トップ	—	—	最高難度の数学問題
Tau2-bench Telecom	98.0%	~90%	~85%	カスタマーサービス自動化

最大の差が出たのはTerminal-Bench 2.0で、GPT-5.5がClaude Opus 4.7を13.3ポイント上回った。このベンチマークは、計画、エラー回復、自己検証を要する無人シェル駆動タスクを測定する。一方、Claude Opus 4.7はSWE-Bench Proで5.7ポイントのリードを保持しており、こちらは実際のGitHubプルリクエスト解決能力を測定するものだ。

GPT-5.5 vs Claude Opus 4.7：どちらが優れているか？

どちらのモデルも全分野で圧倒しているわけではない。ターゲットとするワークロードが異なり、最適な選択は用途次第だ。

Claude Opus 4.7（GPT-5.5の1週間前、4月16日リリース）はコーディングで勝る。SWE-Bench Proの64.3%は、実世界のマルチファイルGitHub Issueをエンドツーエンドでより多く解決できることを意味する。CursorBenchでも70%対約65%でリードしており、IDE統合開発においてはClaude Opus 4.7が有利だ。ツール不使用の大学院レベル推論（HLE no-tools）でも、Opus 4.7が46.9%対41.4%で上回る。

GPT-5.5はエージェント型タスクで勝る。Terminal-Bench 2.0での+13.3ポイントのリードは、計画、反復、ツール連携を必要とする長時間コマンドラインワークフローでの優位性を反映している。コンピュータ操作（OSWorld-Verified）では、Opus 4.7を僅差で上回る（78.7% vs 78.0%）。カスタマーサービス自動化のTau2-bench Telecomでは98.0%を記録した。

価格設定はほぼ同等で、入力100万トークンあたり$5は共通。出力はGPT-5.5が$30、Opus 4.7が$25となっている。

GPT-5.5の価格は？

GPT-5.5のAPI価格はフロンティアモデルの水準に沿っている。入力トークンのコストはClaude Opus 4.7やGemini 3.1 Proと同額だ。出力トークンにはプレミアムが上乗せされている。

$5/M 入力トークン

$30/M 出力トークン

1M コンテキストウィンドウ

OpenAIはChatGPT Plus（$20/月）、Pro（$200/月）、Business、Enterpriseの各プランにGPT-5.5を順次提供している。APIアクセスは段階的に拡大中だ。より難度の高い問題に並列テスト時計算を適用するGPT-5.5 Proバリアントも存在する。Gemini 3.1 Proは入力$1.25/出力$10（100万トークンあたり）、コンテキストウィンドウ200万トークンでコスト重視の選択肢として残る。

GPT-5.5の安全対策は？

サイバーセキュリティ能力評価：High

OpenAIのPreparedness FrameworkはGPT-5.5のサイバーセキュリティ能力を「High」と評価しており、GPT-5.4から引き上げとなった。Trusted Access for Cyberプログラム外のユーザーに対しては、大規模なエージェント型脆弱性調査やエクスプロイトチェーンを制限する追加セーフガードが導入されている。

OpenAIはリリース前にPreparedness Frameworkの全項目でGPT-5.5をテストし、約200のアーリーアクセスパートナーからフィードバックを収集した。安全性評価は3項目：生物・化学能力がHigh（GPT-5.4と同等）、サイバーセキュリティがHigh（GPT-5.4から引き上げ）、AI自己改善能力がHigh未満となっている。

システムカードでは、GPT-5.5は「人間の介入なしに、多くの堅牢な実世界の重要システムにおいてあらゆる深刻度のゼロデイエクスプロイトを開発する」能力（Criticalの閾値）には達していないと記載されている。OpenAIはTrusted Access for Cyber（TAC）プログラムを拡充し、認定セキュリティ専門家にはデュアルユースのサイバー能力へのアクセスを拡大する一方、一般ユーザーには制限を設けている。

クリエイティブ業界への影響

GPT-5.5自体はクリエイティブツールではない。しかし、多くのクリエイティブツールがOpenAIのAPIを基盤としており、それらの製品はマルチステップワークフローの処理能力が向上し、GPT-5.4よりトークン単価が低いモデルにアクセスできるようになった。

最も注目すべきはコンピュータ操作機能だ。OSWorld-Verifiedで78.7%を記録したGPT-5.5は、実際のデスクトップアプリケーションを自律的にナビゲートできる。動画編集ソフトを操作し、書き出し設定を調整し、クリエイティブアプリ間を切り替えるAIエージェントが実現しうる。

クリエイティブAI製品を開発するデベロッパーにとって、$5/$30（100万トークンあたり）の価格設定と100万トークンのコンテキストウィンドウは、長時間の自動化ワークフローのコスト削減につながる。OpenAIによると、GPT-5.5は同等タスクでGPT-5.4よりトークン消費が少なく、コスト削減効果はさらに大きくなるという。

Claude Opus 4.7は1週間先行してリリースされ、コーディングベンチマークでは優位に立つ。GPT-5.5はエージェント性能で対抗する。AIクリエイティブツールを開発するデベロッパーは、パイプラインの異なる部分に最適化された2つのフロンティアモデルを選択できるようになった。

ChatGPTでGPT-5.5を試す

Plus、Pro、Business、Enterpriseユーザー向けに提供中。APIアクセスは段階的に拡大。

ChatGPT GPT-5.5を試す →

よくある質問

GPT-5.5とは何か？

GPT-5.5はOpenAIの最新フラッグシップAIモデルで、2026年4月23日にリリースされた。GPT-4.5以来初のフルリトレーニング済みベースモデルであり、エージェント型コーディング、コンピュータ操作、知識労働、科学研究をターゲットとしている。Terminal-Bench 2.0で82.7%、OSWorld-Verifiedで自律的コンピュータ操作78.7%を記録した。

GPT-5.5の価格は？

GPT-5.5のAPI価格は入力100万トークンあたり$5、出力100万トークンあたり$30。コンテキストウィンドウは100万トークン。ChatGPTユーザーはPlus（$20/月）、Pro（$200/月）、Business、Enterpriseの各プランからGPT-5.5にアクセスできる。Gemini 3.1 Proは$1.25/$10（100万トークンあたり）でより安価な選択肢となる。

GPT-5.5はClaude Opus 4.7より優れているか？

ワークロードによる。GPT-5.5はTerminal-Bench 2.0（82.7% vs 69.4%）、コンピュータ操作（78.7% vs 78.0%）、知識労働（84.9% vs 80.3%）などのエージェント型タスクでリード。Claude Opus 4.7はSWE-Bench Pro（64.3% vs 58.6%）やCursorBench（70% vs 約65%）などのコーディングベンチマークでリードしている。入力100万トークンあたりの価格は両モデルとも$5。

GPT-5.5のリリース日は？

OpenAIは2026年4月23日にGPT-5.5をリリースした。同日よりChatGPT Plus、Pro、Business、Enterpriseユーザーへの提供が開始された。APIアクセスは段階的に拡大中。Claude Opus 4.7は1週間前の2026年4月16日にリリースされている。

GPT-5.5は画像生成に対応しているか？

GPT-5.5はコーディング、リサーチ、コンピュータ操作に特化した知能モデルである。画像生成については、OpenAIが2026年4月21日にChatGPT Images 2.0を別途リリースしており、gpt-image-2モデルによる高品質な画像生成・編集がChatGPT内で利用可能だ。いずれの機能もChatGPT PlusおよびProユーザーが利用できる。

出典

この記事は役に立ちましたか？

最終更新日: 2026年4月24日

アフィリエイト開示：このレビューにはアフィリエイトリンクが含まれています。当社のリンクを通じて購入された場合、追加費用なしで当社がコミッションを受け取る場合があります。当社は個人的にテストし、読者に真の価値を提供すると信じるツールのみを推奨しています。

重要ポイント

ChatGPTでGPT-5.5を試す

GPT-5.5で何ができるのか？

エージェント型コーディング

コンピュータ操作

知識労働

科学研究

GPT-5.5のベンチマーク性能は？

GPT-5.5 vs Claude Opus 4.7：どちらが優れているか？

GPT-5.5の価格は？

GPT-5.5の安全対策は？

クリエイティブ業界への影響

ChatGPTでGPT-5.5を試す

よくある質問

出典

関連記事

GPT Image 1.5が4倍高速化

OpenAI Sora終了と代替ツール

動画生成AIおすすめ比較【2026年最新】