GPT Image 1.5: 4x Más Rápido en IA
OpenAI lanza GPT Image 1.5 con generación 4x más rápida y edición precisa. Ya disponible para todos en ChatGPT y vía API con precios 20% menores.
Leer Artículo →
OpenAI lanzó ChatGPT Images 2.0 el 21 de abril de 2026, el primer modelo de imagen de la compañía construido sobre su arquitectura de razonamiento O-series. El modelo planifica composiciones, busca contexto en la web y renderiza texto con un 99% de precisión en todos los alfabetos antes de generar un solo píxel. En las primeras 12 horas tras su lanzamiento, alcanzó el puesto Nº1 en el ranking de Image Arena con una puntuación Elo de 1.512, superando a Nano Banana 2 de Google por 242 puntos. Ese margen es el mayor jamás registrado en dicho benchmark. DALL-E 2 y DALL-E 3 se retirarán el 12 de mayo de 2026.
ChatGPT Images 2.0 investiga los prompts, planifica relaciones espaciales y verifica la calidad del resultado antes de generar cualquier imagen. OpenAI lo describe como un “compañero visual de pensamiento” que utiliza la misma capa de razonamiento que impulsa sus modelos de lenguaje más avanzados.
Este razonamiento proviene de la arquitectura O-series. Antes de producir píxeles, el modelo descompone prompts complejos en planes de composición, identifica relaciones espaciales entre elementos y puede buscar en la web material de referencia en tiempo real. El resultado es un mejor manejo de escenas con múltiples elementos, colocación precisa de texto e identidad visual consistente en lotes de imágenes.
Existen dos niveles de acceso. El modo Instantáneo llega a todos los usuarios de ChatGPT (incluidas las cuentas gratuitas) con mejoras de calidad básicas como mejores diseños y texto más nítido. El modo Pensamiento desbloquea el pipeline completo de razonamiento: búsqueda web, generación de múltiples imágenes (hasta 8 imágenes coherentes por prompt) y verificación de resultados. El modo Pensamiento requiere una suscripción Plus ($20/mes), Pro ($200/mes), Business o Enterprise.
Planifica la composición, investiga el contexto del prompt y verifica el resultado antes de crear cualquier imagen
Precisión casi perfecta en japonés, coreano, chino, hindi, bengalí y escritura latina
Un solo prompt genera hasta 8 imágenes con identidad consistente de personajes y objetos
Obtiene contexto en tiempo real sobre eventos actuales, productos y personas (solo modo Pensamiento)
Genera mockups de interfaz, prototipos y recursos visuales dentro del entorno de programación de OpenAI
Información de procedencia integrada en todas las imágenes generadas para el rastreo de autenticidad del contenido
La capacidad de generación múltiple es la que más tiempo ahorra en la práctica. Un solo prompt puede producir un conjunto de recursos para redes sociales, una secuencia de storyboard o una serie de fotos de producto donde los personajes y objetos mantienen coherencia visual. Antes, cada imagen debía generarse individualmente y ensamblarse a mano.
ChatGPT Images 2.0 está disponible en todos los niveles de suscripción de ChatGPT, con capacidades que escalan según el plan. El acceso por API sigue un modelo de precios basado en tokens, con costes por imagen entre $0,04 y $0,35 según la complejidad del prompt y la resolución de salida (hasta 2K).
Se espera que la API se abra a desarrolladores a principios de mayo de 2026
| Nivel de Acceso | Precio Mensual | Capacidades |
|---|---|---|
| Gratuito | $0 | Modo Instantáneo: mejor calidad, texto más nítido |
| Plus | $20/mes | Modo Pensamiento: búsqueda web, generación múltiple, verificación |
| Pro | $200/mes | Todas las capacidades, acceso prioritario |
| API (gpt-image-2) | Por tokens | $8/M entrada, $30/M salida, ~$0,04-$0,35/imagen |
OpenAI no reveló la arquitectura del modelo, describiéndolo solo como un “modelo generalista” sin especificar si utiliza difusión, métodos autorregresivos o enfoques híbridos. La fecha de corte de conocimiento es diciembre de 2025.
Images 2.0 no puede renderizar con precisión eventos, personas o productos que aparecieron después de diciembre de 2025 sin complementar sus datos de entrenamiento mediante búsqueda web en vivo (solo modo Pensamiento).
OpenAI retirará tanto DALL-E 2 como DALL-E 3 el 12 de mayo de 2026, consolidando Images 2.0 como el único modelo de generación de imágenes en ChatGPT. GPT-Image-1.5, la actualización intermedia lanzada en diciembre de 2025, sigue disponible a través de la API para integraciones heredadas, pero ya no es el modelo predeterminado.
La descontinuación marca una ruptura arquitectónica limpia. En lugar de mantener modelos de imagen separados junto a sus modelos de lenguaje, OpenAI unifica ambos bajo el mismo framework de razonamiento. La generación de imágenes pasa a ser una capacidad integrada de GPT en vez de un sistema paralelo.
La generación múltiple por lotes con consistencia de personajes elimina un punto de fricción en los flujos de trabajo de diseño. Un equipo de marketing puede generar una familia de recursos para redes sociales o un storyboard completo a partir de una sola instrucción, sin tener que ensamblar manualmente resultados separados.
La integración con Codex merece atención. La generación de imágenes ahora reside en el mismo entorno que los desarrolladores usan para código, presentaciones y automatización de navegadores. Esto pone a OpenAI en competencia con Midjourney y Google en calidad de imagen y, por separado, con Canva y Figma en integración de flujos de trabajo.
Los resultados del benchmark alteran la ecuación competitiva. Midjourney, Stability AI y Google ahora enfrentan un modelo con puntuaciones líderes distribuido entre los más de 200 millones de usuarios de ChatGPT. Durante la mayor parte de 2026, OpenAI y Google habían alternado la primera posición del ranking con márgenes estrechos. Una ventaja de 242 puntos es otro nivel.
La arquitectura de seguridad del modelo (filtrado de contenido, metadatos C2PA y lo que OpenAI describió como “monitoreo continuo”) también establece expectativas para estándares de procedencia. A medida que el escrutinio regulatorio de los medios sintéticos se intensifica a nivel global, incorporar metadatos de autenticidad en la etapa de generación podría convertirse en el estándar mínimo, no en un diferenciador.
ChatGPT Images 2.0 es el último modelo de generación de imágenes de OpenAI, lanzado el 21 de abril de 2026. Es el primer modelo de imagen construido sobre la arquitectura de razonamiento O-series de OpenAI, que planifica composiciones y busca contexto en la web antes de generar imágenes. Renderiza texto con un 99% de precisión en todos los idiomas y alcanzó el puesto Nº1 en el ranking Image Arena en las primeras 12 horas con una ventaja récord de 242 puntos.
Las mejoras básicas de calidad están disponibles para todos los usuarios de ChatGPT, incluidas las cuentas gratuitas, a través del modo Instantáneo. Las funciones avanzadas como el razonamiento, la búsqueda web, la generación múltiple (hasta 8 imágenes por prompt) y la verificación de resultados requieren una suscripción Plus ($20/mes) o Pro ($200/mes). Los planes Business y Enterprise también incluyen todas las capacidades.
DALL-E 2 y DALL-E 3 se retirarán el 12 de mayo de 2026. GPT-Image-1.5 (lanzado en diciembre de 2025) sigue disponible a través de la API para integraciones heredadas. ChatGPT Images 2.0 reemplaza a DALL-E como el sistema principal de generación de imágenes de OpenAI en adelante.
ChatGPT Images 2.0 lideró el ranking Image Arena con una ventaja de 242 puntos, el mayor margen jamás registrado. A diferencia de Midjourney, que opera a través de Discord y una interfaz web sin API pública, Images 2.0 está integrado en ChatGPT y Codex. Midjourney ofrece funciones de comunidad y presets de estilo más sólidos, mientras que Images 2.0 tiene ventajas en renderizado de texto, composición con IA razonada e integración con el ecosistema.
El identificador del modelo en la API es gpt-image-2 con precios basados en tokens: $8 por millón de tokens de entrada de imagen, $2 para entrada en caché y $30 por millón de tokens de salida de imagen. Los costes por imagen suelen oscilar entre $0,04 y $0,35 según la complejidad del prompt y la resolución (hasta 2K). Se espera que la API se abra a desarrolladores a principios de mayo de 2026.
OpenAI afirma una precisión del 99% en renderizado de texto en cualquier idioma y alfabeto, incluidos japonés, coreano, chino, hindi y bengalí. Esto supone una mejora importante respecto a DALL-E 3 y otros generadores de imágenes con IA, que frecuentemente distorsionaban las formas de las letras y producían texto ilegible. Si esta cifra se confirma en pruebas independientes, Images 2.0 se convierte en una opción viable para diseño gráfico y recursos de marketing profesionales.