GPT Image 1.5: توليد صور أسرع 4×
OpenAI تصدر GPT Image 1.5 بسرعة توليد 4 أضعاف وتحرير دقيق يحافظ على تشابه الوجه. متاح لجميع مستخدمي ChatGPT وعبر API بأسعار أقل 20%.
اقرأ المقال →
أطلقت OpenAI نموذج ChatGPT Images 2.0 في 21 أبريل 2026، وهو أول نموذج صور من الشركة مبني على بنية التفكير المنطقي من سلسلة O. يخطط النموذج للتكوينات ويبحث في الويب عن السياق ويعرض النصوص بدقة 99% عبر جميع أنظمة الكتابة قبل توليد أي بكسل. خلال 12 ساعة من الإطلاق، احتل المركز الأول على لوحة تصنيف Image Arena بتقييم Elo يبلغ 1,512 نقطة، متفوقاً على Nano Banana 2 من Google بفارق 242 نقطة. هذا الفارق هو الأكبر المسجّل في تاريخ المعيار. سيتم إيقاف DALL-E 2 وDALL-E 3 في 12 مايو 2026.
يبحث ChatGPT Images 2.0 في الأوامر النصية ويخطط للعلاقات المكانية ويتحقق من جودة المخرجات قبل توليد أي صورة. تصفه OpenAI بأنه “شريك تفكير بصري” يستخدم طبقة التفكير المنطقي ذاتها التي تشغّل أكثر نماذجها اللغوية تقدماً.
يأتي هذا التفكير المنطقي من بنية سلسلة O. قبل إنتاج البكسلات، يقسّم النموذج الأوامر المعقدة إلى خطط تكوين، ويحدد العلاقات المكانية بين العناصر، ويمكنه البحث في الويب عن مواد مرجعية آنية. والنتيجة هي تعامل أفضل مع المشاهد متعددة العناصر، ووضع دقيق للنصوص، وهوية بصرية متسقة عبر المخرجات المجمّعة.
يوجد مستويان للوصول. الوضع الفوري متاح لجميع مستخدمي ChatGPT (بما في ذلك الحسابات المجانية) مع تحسينات أساسية في الجودة كالتخطيطات الأفضل والنصوص الأوضح. وضع التفكير يفتح خط أنابيب التفكير المنطقي الكامل: البحث في الويب، وتوليد صور متعددة (حتى 8 صور متسقة لكل طلب)، والتحقق من المخرجات. يتطلب وضع التفكير اشتراك Plus ($20 شهرياً) أو Pro ($200 شهرياً) أو Business أو Enterprise.
يخطط للتكوين ويبحث في سياق الأمر ويتحقق من المخرجات قبل إنشاء أي صورة
دقة شبه مثالية عبر الكتابة اليابانية والكورية والصينية والهندية والبنغالية واللاتينية
أمر واحد يولّد حتى 8 صور بهوية متسقة للشخصيات والعناصر
يجلب سياقاً آنياً للأحداث الجارية والمنتجات والأشخاص (وضع التفكير فقط)
توليد نماذج واجهات وتصاميم أولية وأصول بصرية داخل بيئة البرمجة من OpenAI
معلومات المصدر مضمّنة في جميع الصور المولّدة لتتبع أصالة المحتوى
قدرة توليد الصور المتعددة هي الأكثر توفيراً للوقت عملياً. يمكن لأمر واحد إنتاج مجموعة من أصول وسائل التواصل الاجتماعي أو تسلسل قصة مصورة أو سلسلة صور منتجات تحافظ فيها الشخصيات والعناصر على تناسق بصري. سابقاً، كان يتعين توجيه كل صورة على حدة وتجميعها يدوياً.
يتوفر ChatGPT Images 2.0 عبر جميع مستويات اشتراك ChatGPT، مع قدرات تتدرج حسب الخطة. يعتمد الوصول عبر API على تسعير قائم على التوكنات بتكلفة تتراوح بين $0.04 و$0.35 لكل صورة حسب تعقيد الأمر ودقة المخرجات (حتى 2K).
يُتوقع فتح API للمطورين في أوائل مايو 2026
| مستوى الوصول | التكلفة الشهرية | الإمكانيات |
|---|---|---|
| مجاني | $0 | الوضع الفوري: جودة محسّنة وعرض نصوص أفضل |
| Plus | $20 شهرياً | وضع التفكير: بحث ويب وصور متعددة وتحقق |
| Pro | $200 شهرياً | جميع الإمكانيات مع أولوية الوصول |
| API (gpt-image-2) | حسب التوكنات | $8/مليون إدخال، $30/مليون إخراج، ~$0.04-$0.35/صورة |
لم تكشف OpenAI عن بنية النموذج، واكتفت بوصفه بأنه “نموذج عام” دون تحديد ما إذا كان يستخدم أسلوب الانتشار أو التوليد التراجعي أو نهجاً هجيناً. حد المعرفة الزمني هو ديسمبر 2025.
لا يستطيع Images 2.0 عرض الأحداث أو الأشخاص أو المنتجات التي ظهرت بعد ديسمبر 2025 بدقة دون تعزيز بيانات التدريب عبر البحث المباشر في الويب (وضع التفكير فقط).
تُوقف OpenAI كلاً من DALL-E 2 وDALL-E 3 في 12 مايو 2026، مع توحيد الجهود حول Images 2.0 كنموذج توليد الصور الوحيد في ChatGPT. يبقى GPT-Image-1.5، الترقية الوسيطة التي صدرت في ديسمبر 2025، متاحاً عبر API للتكاملات القائمة لكنه لم يعد الخيار الافتراضي.
يمثّل هذا الإيقاف قطيعة معمارية واضحة. بدلاً من صيانة نماذج صور منفصلة إلى جانب نماذجها اللغوية، توحّد OpenAI كليهما تحت إطار التفكير المنطقي ذاته. يصبح توليد الصور قدرة مدمجة في GPT بدلاً من نظام موازٍ.
يزيل توليد الصور المتعددة مع تناسق الشخصيات نقطة احتكاك من سير عمل التصميم. يمكن لفريق تسويق توليد مجموعة من أصول وسائل التواصل الاجتماعي أو لوحة قصة مصورة من تعليمة واحدة دون الحاجة لتجميع مخرجات منفصلة يدوياً.
يستحق تكامل Codex المتابعة. أصبح توليد الصور الآن داخل البيئة ذاتها التي يستخدمها المطورون للبرمجة والعروض التقديمية وأتمتة المتصفح. هذا يضع OpenAI في منافسة مع Midjourney وGoogle على جودة الصور، وبشكل منفصل مع Canva وFigma على تكامل سير العمل.
تغيّر نتائج المعايير المرجعية حسابات المنافسة. يواجه كل من Midjourney وStability AI وGoogle الآن نموذجاً يحقق درجات جودة رائدة موزّعاً على قاعدة مستخدمي ChatGPT التي تتجاوز 200 مليون. خلال معظم 2026، كانت OpenAI وGoogle تتبادلان صدارة قائمة التصنيف بهوامش ضيقة. فارق 242 نقطة هو نوع مختلف من التقدم.
تضع بنية الأمان في النموذج (تصفية المحتوى وبيانات C2PA الوصفية وما وصفته OpenAI بـ”المراقبة المستمرة”) توقعات لمعايير إثبات المصدر. مع تصاعد التدقيق التنظيمي على الوسائط المصنّعة عالمياً، قد يصبح تضمين بيانات الأصالة الوصفية في مرحلة التوليد هو الحد الأدنى وليس ميزة تنافسية.
ChatGPT Images 2.0 هو أحدث نموذج توليد صور من OpenAI، صدر في 21 أبريل 2026. وهو أول نموذج صور مبني على بنية التفكير المنطقي من سلسلة O، التي تخطط للتكوينات وتبحث في الويب عن السياق قبل توليد الصور. يعرض النصوص بدقة 99% عبر جميع اللغات واحتل المركز الأول على لوحة تصنيف Image Arena خلال 12 ساعة من الإطلاق بفارق قياسي يبلغ 242 نقطة.
تحسينات الجودة الأساسية متاحة لجميع مستخدمي ChatGPT بما في ذلك الحسابات المجانية عبر الوضع الفوري. الميزات المتقدمة كالتفكير المنطقي والبحث في الويب وتوليد صور متعددة (حتى 8 صور لكل طلب) والتحقق من المخرجات تتطلب اشتراك ChatGPT Plus ($20 شهرياً) أو Pro ($200 شهرياً). خطط Business وEnterprise تشمل أيضاً جميع الإمكانيات.
سيتم إيقاف DALL-E 2 وDALL-E 3 في 12 مايو 2026. يبقى GPT-Image-1.5 (الذي صدر في ديسمبر 2025) متاحاً عبر API للتكاملات القائمة. يحل ChatGPT Images 2.0 محل DALL-E كنظام توليد الصور الأساسي من OpenAI مستقبلاً.
تصدّر ChatGPT Images 2.0 لوحة تصنيف Image Arena بفارق 242 نقطة، وهو أكبر هامش مسجّل على الإطلاق. على عكس Midjourney الذي يعمل عبر Discord وواجهة ويب بدون API عام، فإن Images 2.0 مدمج في ChatGPT وCodex. تتفوق Midjourney في ميزات المجتمع وأنماط التصميم المحددة مسبقاً، بينما يتفوق Images 2.0 في عرض النصوص والتكوين القائم على التفكير المنطقي وتكامل النظام البيئي.
معرّف نموذج API هو gpt-image-2 مع تسعير قائم على التوكنات: $8 لكل مليون توكن لإدخال الصور، و$2 للإدخال المخزّن مؤقتاً، و$30 لكل مليون توكن لإخراج الصور. تتراوح تكلفة الصورة الواحدة عادةً بين $0.04 و$0.35 حسب تعقيد الأمر ودقة المخرجات (حتى 2K). يُتوقع فتح API للمطورين في أوائل مايو 2026.
تدّعي OpenAI دقة عرض نصوص تبلغ 99% عبر أي لغة ونظام كتابة، بما في ذلك اليابانية والكورية والصينية والهندية والبنغالية. يمثّل هذا تحسناً كبيراً مقارنة بـ DALL-E 3 ومولّدات الصور الأخرى التي كانت تشوّه الحروف وتنتج نصوصاً غير مقروءة. إذا صمدت هذه الأرقام في الاختبارات المستقلة، يصبح Images 2.0 صالحاً لإنتاج تصاميم احترافية وأصول تسويقية.