발전 곡선 위에서 눈여겨볼 만한 한 단계
AI를 하나의 단일한 존재가 아닌, 서로 연결된 세 가지 개념의 집합으로 바라보라고 계속 강조해왔다. 먼저 모델을 살펴봐야 한다. Opus 4.7, Gemini 3.1, 그리고 이번에 등장한 GPT-5.5 같은 것들이다. 그다음으로는 앱에 주목해야 한다. 모델과 실제로 대화하고, 모델이 실질적인 작업을 수행하도록 해주는 제품들이다. 가장 흔한 형태는 각 모델의 웹사이트다: chatgpt.com, claude.ai, gemini.google.com. 하지만 Claude Code, Claude Cowork, OpenAI Codex 같은 데스크톱 애플리케이션이 점점 더 유용한 AI 앱으로 자리잡아가고 있다. 마지막으로 하네스(harness)가 있다. AI가 사용할 수 있는 도구들과 그 도구들이 AI 모델과 연결되는 방식을 말한다. 이 도구들을 통해 AI는 컴퓨터를 제어하고, 코드를 작성하고, 조사를 수행하고, 이미지를 만들 수 있다.
OpenAI는 세 영역 모두에서 발전을 이뤘다. 모델 측면에서 GPT-5.5는 강력한 모델 패밀리로, 웹사이트에서만 접근 가능한 GPT-5.5 Pro가 그중 가장 뛰어나다. 앱 면에서도 최근 큰 발전이 있었는데, OpenAI의 Codex가 탁월한 Claude Code의 뒤를 따라 접근성 높고 유용한 데스크톱 애플리케이션으로 진화하고 있다. 마지막으로 하네스와 그것이 활용할 수 있는 도구들도 빠르게 개선되고 있으며, 그중 가장 주목할 만한 것은 OpenAI의 새로운 이미지 모델이다
이 새 모델은 고품질 텍스트를 렌더링하고 상상할 수 있는 거의 모든 이미지를 만들어낼 수 있다. 오래된 독자들이라면 내가 진행해온 오터 테스트(Otter Test)를 알 것이다. AI에게 비행기 안에서 와이파이를 쓰는 수달 이미지를 만들어보라는 테스트다. 다시 설명하는 대신, 새 이미지 모델(GPT-imagegen-2라고도 불리는)에게 직접 설명시켜보자: "이선 몰릭의 오터 테스트 결과를 발표하는 과학자 수달의 사진 — 이 테스트는 AI 이미지 생성기가 비행기 안에서 와이파이를 사용하는 수달 이미지를 얼마나 잘 만들어내는지를 측정한다"

논문 형식으로 보고 싶다면? "오터 테스트에 관한 학술 논문 첫 페이지를 책상 위에 놓인 형태로, 보기 좋게 정형화하여 보여줘" (텍스트를 확대해서 보면 더 재미있다)

아예 예술 작품으로 만들어볼까? "화려한 미술관을 보여줘. 벽에 걸린 모든 그림은 노트북을 사용하는 비행기 위의 수달이야. 클림트, 로스코, 마티스, 모네, 피카소, 티치아노, 렘브란트, 오키프의 화풍으로 그려줘. 각 작품 아래에는 읽을 수 있는 레이블도 있어야 해." (확대해서 보면 더욱 재미있다)

이 모든 것이 놀랍고 불과 몇 달 전만 해도 불가능했던 일들이지만, 단순한 기술 과시에 그치지 않고 실용성도 충분하다. 텍스트와 이미지를 세밀하게 구현하는 이미지 생성기는 파워포인트 슬라이드나 제품 목업, 웹사이트 시안 등 원하는 거의 모든 것을 만드는 데 쓸 수 있다. 하지만 이것은 도구 중 하나에 불과하다. 진짜 마법은 하네스, 앱, 모델을 실제 문제에 결합할 때 일어난다. 내가 10년 동안 미뤄온 일이 바로 그 좋은 예다.
나는 학자이고, 2010년대 초반에는 AI와 무관하게 크라우드펀딩 연구에 집중했었다. 당시 설문조사, 분석, 연구 과정에서 수집한 익명화된 데이터 파일이 수백 개 있는데, STATA, CSV, XLS, Word 파일이 뒤섞인 상태로 끝내 논문으로 엮지 못한 채 쌓여 있었다. 이 데이터를 가지고 GPT-5.5가 어디까지 해낼 수 있는지 테스트해보고 싶었다. 그래서 GPT-5.5 기반의 Codex에 이렇게 요청했다: "[데이터를] 정리해서 흥미로운 새 가설을 도출하고, 정교한 방법으로 검증한 다음 학술 논문을 써줘." 문헌 검토와 형식 작업도 포함해달라고 했다. 결과는 매우 인상적이었는데, 특히 GPT-5.5 Pro에게 논문을 평가하도록 한 뒤 그 결과를 다시 Codex에 투입하고 나서 더욱 그랬다. 결과물은 여기서 확인할 수 있다. 완벽하지는 않지만, 이제는 명백한 오류 때문이 아니다. 문헌 검토도 실제 자료에 기반하고 통계도 정확하다. 아쉬운 이유는 전문가로서 봤을 때 가설 자체가 그다지 흥미롭지 않고, AI가 인과관계 문제를 매우 정교한 통계 방법으로 다루려 했음에도 표준적인 인과성 우려가 남아 있기 때문이다. 요약하자면, 이 논문이 박사 2년차의 결과물로 나왔다면 충분히 만족스러웠을 수준이다. 그런데 나는 단 네 번의 프롬프트만 입력했을 뿐, 텍스트를 직접 손댄 적은 한 번도 없다.

하네스, 앱, 모델을 결합하는 또 다른 방법도 있다. Codex에게 완전히 새로운 테이블탑 롤플레잉 게임을 만들어달라고 요청했다. 자체적으로 고안한 판타지 세계를 배경으로 한 일종의 '자체 버전 던전 앤 드래곤'으로, 게임에 필요한 모든 표와 규칙을 갖춘 것이어야 했다. 플레이어가 게임을 경험하는 상황을 시뮬레이션하고 그 결과를 바탕으로 규칙을 수정하는 것도 요청했다. AI는 이 요청을 충실히 이행했는데, 보기 좋게 편집된 101페이지짜리 PDF를 구성하고 이미지 생성기로 삽화까지 제작했다.

기술적으로 인상적일 뿐 아니라 실제 내용도 칭찬할 만한 점이 많다. 세계관은 흥미롭고 독창적이며, 규칙은 기존 게임 패턴을 참조하면서도 독자적인 요소를 추가해 나름의 논리가 있다. 하지만 자세히 들여다보면 AI 능력의 들쭉날쭉한 최전선이 완전히 사라지지 않았음을 알 수 있다. 장편 픽션 창작은 AI 모델 세대마다 반복적으로 부딪혀온 난관이다. AI 글쓰기를 자주 접해온 독자라면 여기서도 익숙한 문제들을 발견할 것이다. 기이한 것에 대한 집착, 충분히 발전되지 않는 과도하게 복잡한 아이디어, 어색한 은유("날씨와 건축은 서로 다른 속도의 같은 논쟁이다"), 지나치게 화려한 문장의 남발("바다가 자신이 한때 길이었음을 잊을 때 수면 위로 떠오르는 성스러운 것들"은 한 번이면 멋지지만 책 한 권 내내 이어지면 지친다), 모든 등장인물이 동일한 단조로운 어조로 말하는 대화, 그리고 "Mara"라는 이름. 눈부신 기술적 발전 속에서도 아직 거친 부분은 남아 있다.
GPT-5.5는 모델은 계속 똑똑해지고, 앱은 계속 강력해지며, 하네스는 계속 발전해 실제 문제를 해결하는 데 점점 더 효과적으로 쓰일 수 있음을 보여준다. 단 네 번의 프롬프트로 박사급에 가까운 논문을 얻을 수 있고, 한 번의 프롬프트로 삽화와 '플레이테스트'까지 갖춘 롤플레잉 게임을 만들어낼 수 있다. 하지만 픽션은 여전히 평면적이고, 통계는 탄탄해도 가설 자체가 흥미롭지 않은 경우도 있다. 그렇더라도. 1년 전만 해도 이 중 어느 것도 가능에 근접하지 못했고, 최근 릴리즈들을 보면 역량 향상이 오히려 가속화되고 있는 것 같다.
GPT-5.5는 분명 이 여정의 종착점이 아니다. 하지만 발전 곡선 위에서 눈여겨볼 만한 한 단계임은 틀림없다. 이 뉴스레터를 써온 지 3년이 넘었는데, 패턴은 변하지 않았다. 몇 달마다 새 모델이 등장하고, 내가 테스트를 돌리면 불가능했던 일이 쉬워져 있다. 그리고 릴리즈 사이클마다 그 도약의 폭이 커지고 있다. 들쭉날쭉한 최전선은 여전히 존재한다. 다만 과거보다 훨씬 멀리 밀려났을 뿐이다.

나는 OpenAI나 다른 어떤 AI 연구소로부터도 금전적 지원을 받지 않으며, OpenAI는 이 글을 사전에 검토하지 않았다. 또한 이 글을 작성하는 시점에 출시와 관련된 모든 세부 사항을 파악하지는 못했으므로, 오류가 있다면 미리 양해를 구한다.