GPT-5.5 출시: 코딩과 에이전트 AI의 새 기준

작성자: Darius Z. • 2026년 4월 24일 • 7 분 읽기

핵심 요약

GPT-5.5가 Terminal-Bench 2.0에서 82.7%를 기록하며 에이전트 코딩 작업에서 클로드(Claude) Opus 4.7을 13.3포인트 차로 앞섰다
OSWorld-Verified 자율 컴퓨터 사용에서 78.7%, 44개 지식 노동 직종 대상 GDPval에서 84.9% 달성
API 가격은 입력 토큰 100만 개당 $5, 출력 토큰 100만 개당 $30으로 클로드 Opus 4.7과 입력 비용이 동일
클로드 Opus 4.7은 여전히 SWE-Bench Pro(64.3% vs 58.6%)에서 다중 파일 소프트웨어 엔지니어링 부문 선두

오픈AI(OpenAI)는 2026년 4월 23일 GPT-5.5를 공개하며 “실무를 위한 새로운 지능 계층”이라고 소개했다. GPT-4.5(내부 코드명 “Spud”) 이후 처음으로 기반 아키텍처를 완전히 재훈련한 모델이며, 에이전트 코딩, 컴퓨터 사용, 지식 노동, 과학 연구 등 네 가지 영역을 목표로 한다. Terminal-Bench 2.0에서 82.7%로 공개 모델 중 최고점을 기록했고, OSWorld-Verified에서는 자율 컴퓨터 제어 78.7%를 달성했다. API 가격은 입력 토큰 100만 개당 $5, 출력 토큰 100만 개당 $30이다. 챗GPT(ChatGPT) Plus, Pro, Business, Enterprise 사용자에게 순차 배포되며, API 접근은 단계적으로 확대된다.

ChatGPT에서 GPT-5.5 체험하기

GPT-5.5는 ChatGPT Plus, Pro, Business, Enterprise 사용자에게 지금 제공됩니다.

ChatGPT GPT-5.5 사용해보기 →

GPT-5.5로 무엇을 할 수 있나?

GPT-5.5는 사람의 지속적인 감독 없이 여러 단계에 걸친 작업을 수행하도록 설계됐다. 오픈AI 사장 그렉 브록만(Greg Brockman)은 “불분명한 문제를 보고 다음에 무엇을 해야 하는지 스스로 파악하는 모델”이라고 설명했다. 가장 큰 성능 향상은 네 가지 범주에서 나타난다.

에이전트 코딩

프로덕션 코드 작성, 디버깅, 레거시 프로젝트 리팩토링, 다중 파일 코드베이스 탐색. Terminal-Bench 2.0에서 82.7% 기록.

컴퓨터 사용

실제 데스크톱 환경을 자율적으로 조작: 클릭, 타이핑, 앱 전환. OSWorld-Verified 78.7%.

지식 노동

문서 분석, 스프레드시트 생성, 다중 소스 리서치 수행. 44개 직종 대상 GDPval에서 84.9% 승률 또는 무승부.

과학 연구

FrontierMath Tier 4(최고 난이도 수학 문제) 선두, GeneBench 및 BixBench에서 과학적 추론 신기록 수립.

GPT-5.5가 GPT-5.4와 다른 점은 모호한 상황 처리 방식이다. 사람의 지시를 덜 요청하고, 도구를 더 효과적으로 활용하며, 자체 출력을 검증하고, 작업이 끝날 때까지 계속 진행한다. 오픈AI에 따르면 Expert-SWE(사람이 중앙값 기준 20시간 소요되는 코딩 벤치마크)에서 GPT-5.5는 GPT-5.4보다 적은 토큰으로 더 높은 성능을 발휘한다.

GPT-5.5 벤치마크 성능은?

GPT-5.5는 에이전트, 멀티모달, 수학 벤치마크에서 선두다. 클로드 Opus 4.7은 코딩과 지식 작업에서 앞서며, Gemini 3.1 Pro는 추론에서 근접한 경쟁력을 보인다. 아래 점수는 모두 각 제공사가 자체 보고한 수치다.

벤치마크 점수는 각 제공사가 자체 보고한 수치이며 평가 조건이 다를 수 있음

벤치마크	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro	측정 항목
Terminal-Bench 2.0	82.7%	69.4%	68.5%	에이전트 셸 워크플로
SWE-Bench Pro	58.6%	64.3%	54.2%	다중 파일 GitHub 이슈
OSWorld-Verified	78.7%	78.0%	~60%	자율 컴퓨터 사용
GDPval (승리/무승부)	84.9%	80.3%	67.3%	지식 노동, 44개 직종
GPQA Diamond	93.6%	94.2%	94.3%	대학원 수준 과학 Q&A
FrontierMath Tier 4	선두	—	—	최고 난이도 수학 문제
Tau2-bench Telecom	98.0%	~90%	~85%	고객 서비스 워크플로

가장 큰 차이는 Terminal-Bench 2.0으로, GPT-5.5가 클로드 Opus 4.7을 13.3%포인트 앞선다. 이 벤치마크는 계획 수립, 오류 복구, 자체 검증이 필요한 무인 셸 기반 작업을 테스트한다. 반면 클로드 Opus 4.7은 실제 GitHub 풀 리퀘스트 해결을 측정하는 SWE-Bench Pro에서 5.7포인트 차로 앞선다.

GPT-5.5 vs 클로드 Opus 4.7: 승자는?

어느 모델도 전 분야에서 압도적이지 않다. 각각 다른 워크로드를 대상으로 하며, 적합한 선택은 사용 목적에 따라 달라진다.

클로드 Opus 4.7(GPT-5.5보다 일주일 앞선 4월 16일 출시)은 코딩에서 앞선다. SWE-Bench Pro 64.3%로 실제 다중 파일 GitHub 이슈를 더 많이 해결한다. CursorBench(70% vs ~65%)에서도 우위를 보여 IDE 통합 개발에 더 강하다. 도구 없는 대학원 수준 추론(HLE no-tools)에서도 Opus 4.7이 46.9% 대 41.4%로 앞선다.

GPT-5.5는 에이전트 작업에서 앞선다. Terminal-Bench 2.0에서의 13.3포인트 리드는 계획, 반복, 도구 조합이 필요한 장시간 명령줄 워크플로에서의 강점을 반영한다. 컴퓨터 사용(OSWorld-Verified)에서는 Opus 4.7을 1포인트 미만 차이로 앞선다(78.7% vs 78.0%). Tau2-bench Telecom 고객 서비스 자동화에서는 GPT-5.5가 98.0%를 기록했다.

가격은 거의 동일하다. 입력 토큰 100만 개당 $5로 같고, 출력 토큰은 GPT-5.5가 $30, Opus 4.7이 $25이다.

GPT-5.5 가격은?

GPT-5.5 API 가격은 프런티어 모델 수준이다. 입력 토큰 비용은 클로드 Opus 4.7, Gemini 3.1 Pro와 동일하고, 출력 토큰에는 프리미엄이 붙는다.

$5/M 입력 토큰

$30/M 출력 토큰

1M 컨텍스트 윈도우

오픈AI는 GPT-5.5를 ChatGPT Plus($20/월), Pro($200/월), Business, Enterprise 요금제에 순차 배포 중이다. API 접근도 점진적으로 확대된다. 난이도 높은 문제에 병렬 테스트 타임 컴퓨트를 사용하는 GPT-5.5 Pro 변형도 존재한다. Gemini 3.1 Pro는 입력 $1.25 / 출력 $10(100만 토큰당)에 2M 토큰 컨텍스트 윈도우를 제공하는 저가 대안이다.

GPT-5.5의 안전 조치는?

사이버보안 역량 등급: High

오픈AI의 준비 프레임워크(Preparedness Framework)는 GPT-5.5의 사이버보안 등급을 GPT-5.4 대비 상향된 “High”로 평가했다. 추가 안전장치가 Trusted Access for Cyber 프로그램 외부 사용자의 대규모 에이전트 취약점 연구 및 익스플로잇 체이닝을 제한한다.

오픈AI는 출시 전 GPT-5.5를 전체 준비 프레임워크 기준으로 테스트했으며, 약 200개의 얼리 액세스 파트너가 피드백을 제공했다. 모델의 안전 등급은 세 가지다: 생물·화학 역량 High(GPT-5.4와 동일), 사이버보안 High(GPT-5.4 대비 상향), AI 자기 개선은 High 미만이다.

시스템 카드에 따르면 GPT-5.5는 “인간 개입 없이 다수의 강화된 실제 핵심 시스템에서 모든 심각도 수준의 기능적 제로데이 익스플로잇을 개발”하는 Critical 임계값에 도달하지 않는다. 오픈AI는 검증된 보안 전문가에게 이중 용도 사이버 역량에 대한 폭넓은 접근을 허용하면서 일반 사용자에게는 제한하는 Trusted Access for Cyber(TAC) 프로그램을 확대했다.

크리에이티브 전문가에게 미치는 영향

GPT-5.5는 크리에이티브 도구가 아니다. 그러나 많은 크리에이티브 도구가 오픈AI API 위에서 작동하며, 이제 다단계 워크플로를 더 잘 처리하고 GPT-5.4보다 토큰당 비용이 낮은 모델을 사용할 수 있다.

가장 주목할 부분은 컴퓨터 사용 기능이다. OSWorld-Verified 78.7%에서 보듯 GPT-5.5는 실제 데스크톱 애플리케이션을 자율적으로 탐색할 수 있다. 동영상 편집기를 조작하고, 내보내기 설정을 조정하고, 크리에이티브 앱 사이를 전환하는 AI 에이전트를 생각해보라.

크리에이티브 AI 제품을 만드는 개발자에게 100만 토큰당 $5/$30 가격과 1M 컨텍스트 윈도우는 장시간 자동화 워크플로 비용을 낮춘다. 오픈AI에 따르면 GPT-5.5는 동등한 작업에서 GPT-5.4보다 적은 토큰을 소비해 비용 절감이 누적된다.

클로드 Opus 4.7은 일주일 먼저 더 강한 코딩 벤치마크를 들고 출시됐다. GPT-5.5는 더 강한 에이전트 성능으로 맞선다. 크리에이티브 AI 도구를 만드는 개발자에게 이제 파이프라인의 서로 다른 부분에 최적화된 두 개의 프런티어 모델이 존재한다.

ChatGPT에서 GPT-5.5 체험하기

Plus, Pro, Business, Enterprise 사용자에게 지금 제공됩니다. API 접근은 단계적으로 확대 중입니다.

ChatGPT GPT-5.5 사용해보기 →

자주 묻는 질문

GPT-5.5란 무엇인가?

GPT-5.5는 오픈AI가 2026년 4월 23일에 출시한 최신 플래그십 AI 모델이다. GPT-4.5 이후 처음으로 기반 모델을 완전히 재훈련했으며 에이전트 코딩, 컴퓨터 사용, 지식 노동, 과학 연구를 대상으로 한다. Terminal-Bench 2.0에서 82.7%, OSWorld-Verified 자율 컴퓨터 제어에서 78.7%를 기록했다.

GPT-5.5 가격은 얼마인가?

GPT-5.5 API 가격은 입력 토큰 100만 개당 $5, 출력 토큰 100만 개당 $30이다. 컨텍스트 윈도우는 100만 토큰이다. ChatGPT 사용자는 Plus($20/월), Pro($200/월), Business, Enterprise 요금제를 통해 GPT-5.5를 이용할 수 있다. 저가 대안으로는 Gemini 3.1 Pro가 100만 토큰당 $1.25/$10을 제공한다.

GPT-5.5가 클로드 Opus 4.7보다 나은가?

워크로드에 따라 다르다. GPT-5.5는 Terminal-Bench 2.0(82.7% vs 69.4%), 컴퓨터 사용(78.7% vs 78.0%), 지식 노동(84.9% vs 80.3%) 등 에이전트 작업에서 앞선다. 클로드 Opus 4.7은 SWE-Bench Pro(64.3% vs 58.6%), CursorBench(70% vs ~65%) 등 코딩 벤치마크에서 앞선다. 입력 토큰 100만 개당 $5로 가격은 동일하다.

GPT-5.5는 언제 출시됐나?

오픈AI는 2026년 4월 23일에 GPT-5.5를 출시했다. 같은 날 ChatGPT Plus, Pro, Business, Enterprise 사용자에게 제공되기 시작했으며, API 접근은 단계적으로 확대 중이다. 클로드 Opus 4.7은 일주일 앞선 2026년 4월 16일에 출시됐다.

GPT-5.5는 이미지 생성을 지원하나?

GPT-5.5 자체는 코딩, 연구, 컴퓨터 사용에 초점을 맞춘 지능 모델이다. 오픈AI는 별도로 2026년 4월 21일에 ChatGPT Images 2.0을 출시했으며, 이 기능은 gpt-image-2 모델을 사용해 ChatGPT 내에서 고품질 이미지 생성 및 편집을 지원한다. 두 기능 모두 ChatGPT Plus 및 Pro 구독자에게 제공된다.

출처

이 글이 도움이 되셨나요?

마지막 업데이트: 2026년 4월 24일

제휴 공개: 이 리뷰에는 제휴 링크가 포함되어 있습니다. 당사 링크를 통해 구매하시면 추가 비용 없이 커미션을 받을 수 있습니다. 당사는 직접 테스트하고 독자들에게 진정한 가치를 제공한다고 믿는 도구만 추천합니다.

핵심 요약

ChatGPT에서 GPT-5.5 체험하기

GPT-5.5로 무엇을 할 수 있나?

에이전트 코딩

컴퓨터 사용

지식 노동

과학 연구

GPT-5.5 벤치마크 성능은?

GPT-5.5 vs 클로드 Opus 4.7: 승자는?

GPT-5.5 가격은?

GPT-5.5의 안전 조치는?

크리에이티브 전문가에게 미치는 영향

ChatGPT에서 GPT-5.5 체험하기

자주 묻는 질문

출처

관련 기사

GPT Image 1.5: 4배 빠른 이미지 생성

OpenAI Sora 종료, 앱이 사라진 이유

AI 영상 생성 도구 추천 비교 2026