GPT Image 1.5が4倍高速化
OpenAIが4倍速い生成、精密な編集、改善された指示追従を備えたGPT Image 1.5を発表。すべてのChatGPTユーザーとAPI経由で利用可能、価格は20%安く。
記事を読む →
OpenAI(オープンAI)は2026年4月21日、ChatGPT(チャットGPT) Images 2.0をリリースしました。O-series推論アーキテクチャを基盤とした同社初の画像モデルです。このモデルは構図を計画し、ウェブからコンテキストを検索し、ピクセルを生成する前にあらゆる文字体系でテキストを99%の精度で描画します。リリースから12時間以内にImage Arenaリーダーボードで1,512のEloスコアを記録し、GoogleのNano Banana 2を242ポイント差で抑えて首位を獲得しました。この差はベンチマーク史上最大です。DALL-E 2とDALL-E 3は2026年5月12日に終了予定です。
ChatGPT Images 2.0はプロンプトを調査し、空間的な関係性を計画し、ビジュアルを生成する前に出力品質を検証します。OpenAIはこのモデルを、同社の最先端言語モデルと同じ推論レイヤーを活用する「ビジュアル思考パートナー」と説明しています。
この推論機能はO-seriesアーキテクチャに由来します。ピクセルを生成する前に、モデルは複雑なプロンプトを構成計画に分解し、要素間の空間的関係を特定し、リアルタイムの参考資料をウェブで検索できます。その結果、複数要素のシーンの処理精度、正確なテキスト配置、バッチ出力間での一貫したビジュアルアイデンティティが向上しています。
アクセスティアは2段階です。InstantモードはすべてのChatGPTユーザー(無料アカウントを含む)に提供され、レイアウトの改善やテキストの鮮明化といった基本的な品質向上が含まれます。Thinkingモードは完全な推論パイプラインを解放し、ウェブ検索、複数画像の一括生成(1プロンプトで最大8枚の一貫した画像)、出力検証が利用可能になります。ThinkingモードにはPlus($20/月)、Pro($200/月)、Business、またはEnterpriseサブスクリプションが必要です。
画像生成前に構図を計画し、プロンプトのコンテキストを調査、出力品質を検証
日本語、韓国語、中国語、ヒンディー語、ベンガル語、ラテン文字でほぼ完璧な精度
1つのプロンプトでキャラクターやオブジェクトの一貫性を保った最大8枚の画像を生成
最新の出来事、製品、人物のリアルタイム情報を取得(Thinkingモードのみ)
OpenAIのコーディング環境内でUIモックアップ、プロトタイプ、ビジュアルアセットを生成
コンテンツの真正性追跡のため、生成されたすべての画像に来歴情報を埋め込み
複数画像の一括生成機能は、実用面で最も時間を節約できる機能です。1つのプロンプトでSNS向けアセット一式、ストーリーボードのシーケンス、キャラクターやオブジェクトの一貫性を保った商品写真シリーズを作成できます。以前は画像を1枚ずつプロンプトで生成し、手作業で組み合わせる必要がありました。
ChatGPT Images 2.0はすべてのChatGPTサブスクリプションティアで利用でき、プランに応じて機能が拡張されます。APIアクセスはトークンベースの課金で、プロンプトの複雑さと出力解像度(最大2K)に応じて画像1枚あたり$0.04〜$0.35のコストとなります。
APIは2026年5月初旬に開発者向け公開予定
| アクセスレベル | 月額料金 | 機能 |
|---|---|---|
| 無料 | $0 | Instantモード:品質向上、テキスト描画の改善 |
| Plus | $20/月 | Thinkingモード:ウェブ検索、複数画像生成、出力検証 |
| Pro | $200/月 | 全機能、優先アクセス |
| API (gpt-image-2) | トークン課金 | 入力$8/M、出力$30/M、画像1枚約$0.04〜$0.35 |
OpenAIはモデルのアーキテクチャを公開しておらず、拡散モデル、自己回帰モデル、ハイブリッドアプローチのいずれを使用しているかを明示せず、「汎用モデル」とのみ説明しています。知識カットオフは2025年12月です。
Images 2.0は、ライブウェブ検索(Thinkingモードのみ)で学習データを補完しない限り、2025年12月以降に登場した出来事、人物、製品を正確に描画できません。
OpenAIは2026年5月12日にDALL-E 2とDALL-E 3の両方を終了し、ChatGPTの唯一の画像生成モデルとしてImages 2.0に一本化します。2025年12月にリリースされた中間アップグレードであるGPT-Image-1.5は、レガシー統合向けにAPIを通じて引き続き利用可能ですが、デフォルトではなくなりました。
この廃止はアーキテクチャ上の明確な転換点です。言語モデルとは別に独立した画像モデルを維持する代わりに、OpenAIは両方を同じ推論フレームワークの下に統合します。画像生成は、並行するシステムではなく、GPTの組み込み機能となります。
キャラクターの一貫性を保った複数画像の一括生成は、デザインワークフローの摩擦を解消します。マーケティングチームはSNS向けアセット一式やストーリーボードを、個別の出力を手動でつなぎ合わせることなく、1つの指示から生成できます。
Codex統合は注目に値します。画像生成が、開発者がコード、スライド、ブラウザ自動化に使用するのと同じ環境内に組み込まれました。これによりOpenAIは画像品質ではMidjourney(ミッドジャーニー)やGoogleと、ワークフロー統合ではCanvaやFigmaと競合することになります。
ベンチマーク結果は競争の構図を変えます。Midjourney、Stability AI、Googleは、ChatGPTの2億人以上のユーザーベースに配布されるトップ品質スコアのモデルに直面することになります。2026年の大半を通じてOpenAIとGoogleは僅差でリーダーボードの首位を争ってきましたが、242ポイント差は次元の異なるリードです。
このモデルの安全性アーキテクチャ(コンテンツフィルタリング、C2PAメタデータ、OpenAIが「継続的な監視」と表現した仕組み)は、来歴証明の基準にも影響を与えます。合成メディアに対する規制の監視が世界的に強まる中、生成段階で真正性メタデータを埋め込むことは、差別化要因ではなく、標準となる可能性があります。
ChatGPT Images 2.0は、2026年4月21日にリリースされたOpenAIの最新画像生成モデルです。OpenAIのO-series推論アーキテクチャを基盤とした初の画像モデルで、画像生成前に構図を計画し、ウェブからコンテキストを検索します。あらゆる言語で99%のテキスト描画精度を実現し、リリースから12時間以内にImage Arenaリーダーボードで242ポイント差の記録的リードで首位を獲得しました。
基本的な品質向上は、Instantモードを通じて無料アカウントを含むすべてのChatGPTユーザーに提供されます。推論、ウェブ検索、複数画像生成(1プロンプトで最大8枚)、出力検証などの高度な機能には、ChatGPT Plus($20/月)またはPro($200/月)のサブスクリプションが必要です。BusinessおよびEnterpriseプランでも全機能が利用可能です。
DALL-E 2とDALL-E 3は2026年5月12日に終了します。GPT-Image-1.5(2025年12月リリース)はレガシー統合向けにAPIを通じて引き続き利用可能です。ChatGPT Images 2.0が今後のOpenAIの主要画像生成システムとしてDALL-Eに代わります。
ChatGPT Images 2.0はImage Arenaリーダーボードで242ポイント差のリードを記録し、ベンチマーク史上最大のマージンとなりました。公開APIを持たずDiscordとウェブインターフェースで運営されるMidjourneyと異なり、Images 2.0はChatGPTとCodexに統合されています。Midjourneyはコミュニティ機能とスタイルプリセットに強みがあり、Images 2.0はテキスト描画、推論駆動の構図計画、エコシステム統合に優位性があります。
APIモデル識別子はgpt-image-2で、トークンベースの課金です。画像入力は100万トークンあたり$8、キャッシュ入力は$2、画像出力は100万トークンあたり$30です。画像1枚あたりのコストはプロンプトの複雑さと解像度(最大2K)に応じて$0.04〜$0.35です。APIは2026年5月初旬に開発者向けに公開予定です。
OpenAIは、日本語、韓国語、中国語、ヒンディー語、ベンガル語を含むあらゆる言語・文字体系で99%のテキスト描画精度を主張しています。これはDALL-E 3や他のAI画像生成ツールが文字を頻繁に歪めたり意味不明な文字を生成していたことと比べ、大幅な向上です。この数値が独立したテストで実証されれば、Images 2.0はプロダクショングラフィックデザインやマーケティングアセットの制作に実用可能となります。