GPT-5.5가 출시됐다. OpenAI Codex에서 이용할 수 있으며, 유료 ChatGPT 구독자에게도 순차적으로 배포 중이다. 미리 사용해볼 기회가 있었는데, 빠르고 실용적인 데다 성능도 상당히 뛰어난 모델이라는 인상을 받았다. 요즘 새 모델을 접할 때마다 드는 생각이지만, 무엇이 좋은지 말로 설명하기가 쉽지 않다. 다만 원하는 것을 요청하면 정확히 만들어준다는 것만은 분명하다!
오늘 출시에서 한 가지 빠진 것이 있는데, 바로 API다:
API 배포에는 별도의 안전장치가 필요하며, 대규모 서비스를 위한 안전 및 보안 요건을 파트너 및 고객사와 긴밀히 협의 중입니다. GPT‑5.5와 GPT‑5.5 Pro는 조만간 API를 통해서도 제공될 예정입니다.
pelican benchmark를 실행할 때는 ChatGPT나 다른 에이전트 하네스(agent harness)에 숨겨진 시스템 프롬프트가 결과에 영향을 주지 않도록, 항상 API를 직접 사용하는 편이다.
최근 몇 달간 AI 업계의 주요 쟁점 중 하나는 OpenClaw와 Pi 같은 에이전트 하네스가 대형 AI 제공업체의 API와 어떻게 연동하느냐는 문제였다.
OpenAI와 Anthropic 모두 월 구독 서비스를 운영하고 있으며, raw API 대비 상당히 저렴한 가격으로 모델을 이용할 수 있다.
OpenClaw는 이 구조에 직접 연동했다가 Anthropic으로부터 차단 조치를 당했다. 이 사건이 일파만파로 번졌다. OpenClaw 개발자 Peter Steinberger를 최근 영입한 OpenAI는 이를 호재로 활용해, OpenClaw가 자사의 오픈소스 Codex CLI 도구와 동일한 방식으로 OpenAI 구독 서비스에 계속 연동할 수 있다고 발표했다.
그렇다면 누구든 OpenAI의 Codex 전용 API에 연동하는 코드를 작성해 기존 구독 서비스를 활용할 수 있다는 뜻일까?
얼마 전 Jeremy Howard가 이런 질문을 올렸다:
Pi와 Opencode가 (제가 이해한 바가 맞다면) 사용하는
/backend-api/codex/responses엔드포인트를 OpenAI가 공식적으로 지원하는지 아시는 분 계신가요?
알고 보니 3월 30일에 OpenAI의 Romain Huet가 이미 트윗을 올렸던 것이었다:
저희는 사용자들이 어디서든 Codex와 ChatGPT 구독을 활용할 수 있길 바랍니다! 앱과 터미널은 물론, JetBrains, Xcode, OpenCode, Pi, 그리고 이제 Claude Code에서도 말이죠.
그래서 Codex CLI와 Codex 앱 서버도 오픈소스로 공개한 거예요! 🙂
Peter Steinberger도 Jeremy에게 답글을 남겼다:
OpenAI 구독은 공식적으로 지원됩니다.
그래서 Claude Code에 openai/codex 저장소를 역공학으로 분석하고 인증 토큰 저장 방식을 파악해서, LLM용 새 플러그인인 llm-openai-via-codex를 만들어달라고 했다. 이 플러그인은 기존 Codex 구독을 그대로 활용해 프롬프트를 실행할 수 있다!
(돌이켜보면 GPT-5.4나 GPT-5.5 프리뷰로 작업했다면 더 재미있었을 텐데 싶다. 농담 삼아 Codex와 GPT-5.5로 처음부터 다시 만들어볼까 진지하게 고민도 했지만, 여기에 더 이상 시간을 쓰지 않기로 했다!)
사용 방법은 다음과 같다:
uv tool install llm
llm install llm-openai-via-codex
llm -m openai-codex/gpt-5.5 'Your prompt goes here'
기존 LLM 기능도 모두 사용할 수 있다. 이미지 첨부는 -a filepath.jpg/URL, 대화 이어가기는 llm chat -m openai-codex/gpt-5.5, 기록된 대화 보기는 llm logs, 툴 지원 기능 체험은 llm --tool ...을 사용하면 된다.
펠리컨을 생성해보자!
llm install llm-openai-via-codex
llm -m openai-codex/gpt-5.5 'Generate an SVG of a pelican riding a bicycle'결과물은 다음과 같다:

GPT-5.4에서 더 나은 결과를 본 적이 있어서, -o reasoning_effort xhigh를 추가해 다시 시도해봤다:
생성하는 데 거의 4분이 걸렸지만, 결과물은 훨씬 낫다.

SVG 코드를 비교해보면(기본, xhigh), xhigh 옵션은 접근 방식 자체가 달랐다. 그라디언트에서도 드러나듯 CSS를 훨씬 더 적극적으로 활용한다. xhigh는 추론 토큰(reasoning token)을 9,322개 사용한 반면, 기본 설정은 39개에 그쳤다.
지금 보고 계신 건 블로그의 장문 아티클만입니다. 전체 포스트를 받아보려면 /atom/everything/을 구독하거나, 다른 구독 옵션을 확인해보세요.