OpenAI가 최신 이미지 생성 모델 ChatGPT Images 2.0을 오늘 공개했다. 라이브스트림에서 샘 알트먼은 gpt-image-1에서 gpt-image-2로의 도약이 GPT-3에서 GPT-5로 넘어가는 것에 맞먹는다고 말했다. 과연 그 말이 맞는지 직접 테스트해봤다.
내가 사용한 프롬프트:
Do a where's Waldo style image but it's where is the raccoon holding a ham radio
먼저 기준점으로, 구형 gpt-image-1을 ChatGPT에서 직접 사용해 얻은 결과다:

너구리를 찾지 못했다. '월리를 찾아라(영국에서는 Where's Wally)' 방식으로 이미지 생성 모델을 테스트하는 건 꽤 고역이라는 걸 금세 깨달았다!
새로 업그레이드된 고해상도 입력 기능을 갖춘 Claude Opus 4.7에게 풀어보라고 시켜봤다. 하지만 이미지 왼쪽 상단의 안내 카드 때문인지, 너구리가 분명히 있다고 확신하면서도 끝내 찾아내지는 못했다:
네, 이미지 안에 너구리가 적어도 한 마리는 있습니다. 다만 아주 잘 숨어 있네요. 구역을 나눠 확대하며 꼼꼼히 살펴봤지만, 솔직히 햄 라디오를 들고 있는 너구리를 확실히 찾아내지는 못했습니다. [...]
다음으로 Google의 Nano Banana 2를 Gemini를 통해 시험해봤다:

이번엔 꽤 명확했다. 너구리는 이미지 중앙의 "아마추어 라디오 클럽" 부스에 있었다!
Claude의 설명:
솔직히 이번엔 숨어 있다고 보기도 어렵다. 부스의 주인공이나 다름없으니까. 지난번 찾기 불가능했던 장면 다음이라 일러스트레이터가 봐준 느낌이다. 부스 간판에 새겨진 "W6HAM" 콜사인 말장난도 재치 있는 마무리다.
Nano Banana Pro도 AI Studio에서 테스트해봤는데, 지금까지 나온 결과 중 단연 최악이었다. 도대체 뭐가 잘못된 건지 모르겠다!

기준점을 잡았으니, 이제 새 모델을 테스트해볼 차례다.
openai_image.py 스크립트의 업데이트 버전을 사용했다. OpenAI Python 클라이언트 라이브러리를 가볍게 감싼 래퍼다. 클라이언트 라이브러리가 아직 gpt-image-2를 지원하도록 업데이트되지 않았지만, 다행히 모델 ID를 검증하지 않아 그냥 사용할 수 있다.
실행 방법은 다음과 같다:
OPENAI_API_KEY="$(llm keys get openai)" \
uv run https://tools.simonwillison.net/python/openai_image.py \
-m gpt-image-2 \
"Do a where's Waldo style image but it's where is the raccoon holding a ham radio"결과물이다. 이 이미지에는 너구리가 없는 것 같다. 내가 찾지 못했고, Claude도 마찬가지였다.

OpenAI 이미지 생성 쿡북에 gpt-image-2 관련 내용이 업데이트됐으며, outputQuality 설정과 사용 가능한 크기 옵션도 포함되어 있다.
outputQuality을 high로 설정하고 이미지 크기를 3840x2160로 지정해봤다. 최대 해상도로 알고 있다. 결과물은 17MB짜리 PNG였는데, 5MB WEBP로 변환했다:
OPENAI_API_KEY="$(llm keys get openai)" \
uv run 'https://raw.githubusercontent.com/simonw/tools/refs/heads/main/python/openai_image.py' \
-m gpt-image-2 "Do a where's Waldo style image but it's where is the raccoon holding a ham radio" \
--quality high --size 3840x2160
꽤 훌륭하다! 햄 라디오를 든 너구리가 이미지 안에 있다(왼쪽 하단, 어렵지 않게 찾을 수 있다).
이미지 생성에 출력 토큰 13,342개가 사용됐으며, 100만 토큰당 $30 기준으로 총 비용은 약 40센트다.
적어도 지금 이 시점에서는, 새로운 ChatGPT 이미지 생성 모델이 Gemini를 제치고 선두를 차지한 것 같다.
'월리를 찾아라' 방식의 이미지는 모델을 테스트하기에 짜증스럽고 다소 엉뚱한 방법이지만, 텍스트와 세부 묘사가 결합된 복잡한 일러스트를 얼마나 잘 그려내는지 확인하는 데는 효과적이다.
rizaco가 Hacker News에서 내가 너구리를 찾지 못한 이미지 중 하나에 ChatGPT로 빨간 원을 그려달라고 요청했다. 그 결과물과 원본 이미지를 합친 애니메이션이다:

자신이 만든 퍼즐을 스스로 푸는 일은 이 모델들에게 절대 믿고 맡기면 안 될 것 같다!
지금 보고 계신 건 제 블로그의 장문 아티클만입니다. 모든 게시물을 받아보려면 /atom/everything/을 구독하거나, 다른 구독 옵션을 확인해보세요.