PyCon US 2026에서 진행한 5분 라이트닝 토크를 바탕으로, 직접 만든 주석형 프레젠테이션 도구의 최신 버전을 활용해 슬라이드를 정리했습니다.
PyCon US 2026에서 LLM 분야의 지난 6개월을 5분 안에 정리하는 라이트닝 토크를 진행했습니다.
6개월이라는 기간은 다루기에 꽤 적절한 단위인데, 제가 2025년 11월 변곡점이라고 부르는 시기를 포함하기 때문입니다. 11월은 LLM 분야, 특히 코딩 영역에서 결정적인 전환점이었습니다.
한 가지 눈에 띄는 점은, 당시 기준으로 "최고"라 불리던 모델(주로 체감 기반 평가이긴 하지만)이 3대 주요 공급사 사이에서 다섯 번이나 바뀌었다는 사실입니다.
모델 간 차이를 보여주기 위해 이번에도 자전거를 타는 펠리컨 SVG 그리기 테스트를 활용했습니다.
이 테스트를 쓰는 이유가 있습니다. 펠리컨도 그리기 어렵고, 자전거도 그리기 어렵고, 펠리컨은 자전거를 탈 수 없으며... 어떤 AI 연구소도 이렇게 황당한 작업을 위해 모델을 훈련시킬 리 없거든요.
11월 초만 해도 누구나 인정하는 "최고" 모델은 9월 29일에 출시된 Claude Sonnet 4.5였습니다. 이 모델이 그려준 펠리컨이 바로 이것입니다.
이후 11월에 GPT-5.1에 왕좌를 내준 데 이어, Gemini 3, GPT-5.1 Codex Max에 차례로 밀렸고, 마침내 Anthropic이 Claude Opus 4.5로 다시 1위를 탈환했습니다.
이 중에서 펠리컨을 가장 잘 그린 건 Gemini 3라고 생각하지만, 펠리컨 하나가 전부는 아니죠. 대부분의 실무자들은 Opus 4.5가 이후 두어 달간 선두를 유지했다는 데 동의할 것입니다.
당시에는 잘 드러나지 않았지만, 11월의 진짜 뉴스는 코딩 에이전트가 제대로 쓸 수 있는 수준이 됐다는 것입니다.
OpenAI와 Anthropic은 2025년 대부분을 검증 가능한 보상 기반 강화학습(Reinforcement Learning from Verifiable Rewards)에 투자하며 모델의 코드 작성 품질을 높이는 데 집중했습니다. 특히 각사의 Codex와 Claude Code 에이전트 하네스와 결합했을 때의 성능 향상에 주력했습니다.
그 성과가 11월에 가시화됐습니다. 코딩 에이전트는 "가끔 되는" 수준에서 "대부분 되는" 수준으로 올라섰고, 어리석은 실수를 수정하는 데 대부분의 시간을 쏟지 않아도 될 만큼 품질의 문턱을 넘어 일상적인 실무 도구로 자리 잡았습니다.
그리고 11월에 또 한 가지 일이 있었습니다. Pete라는 사람이 당시만 해도 무명이었던 "Warelay"라는 저장소에 첫 커밋을 올렸습니다.
12월부터 1월까지 이어진 연휴 기간, 우리 중 많은 이들이 시간을 내 새 모델과 코딩 에이전트를 직접 써보며 가능성을 가늠해봤습니다.
결과는 놀라웠습니다! 일부는 꽤 들뜨기도 했죠. 저 역시 잠깐이나마 LLM 심취 상태에 빠져, 얼마나 밀어붙일 수 있는지 보겠다며 야심 찬 프로젝트들을 마구 벌이기 시작했습니다.
그 중 하나가 MicroQuickJS를 느슨하게 포팅해 파이썬으로 JavaScript를 구현한 바이브 코딩 프로젝트였는데, micro-javascript라고 이름 붙였습니다. 이 플레이그라운드에서 브라우저로 직접 체험해볼 수 있습니다.
이 플레이그라운드 데모는 micro-javascript 라이브러리로 JavaScript 코드를 실행하는 것인데, 파이썬으로 돌아가고, Pyodide 위에서 실행되며, WebAssembly로 구동되고, 다시 JavaScript가 이를 실행하고, 최종적으로 브라우저에서 돌아갑니다!
꽤 멋지긴 합니다! 그런데 버그투성이에 느리고 보안도 엉망인 반쪽짜리 파이썬용 JavaScript 구현체를 필요로 하는 사람이 과연 있을까요?
없습니다. 연휴 기간에 벌여놓은 프로젝트 중 그 이후 조용히 접은 것들이 꽤 됩니다!
이제 2월 이야기입니다. 11월 말에 첫 커밋이 올라온 Warelay 프로젝트, 기억하시나요?
12월과 1월을 거치며 여러 차례 이름이 바뀌더니, 2월에는 최종 이름인 OpenClaw으로 세상을 뒤흔들었습니다.
세 달도 채 안 된 프로젝트가 이 정도 주목을 받은 건 정말 놀라운 일입니다.
OpenClaw은 "개인 AI 어시스턴트"인데, NanoClaw, ZeroClaw 같은 유사 프로젝트들을 아우르는 일반 명칭이 생겼습니다. 바로 Claws입니다.
실리콘밸리 일대에서 Mac Mini가 동나기 시작했는데, 사람들이 Claws를 돌리려고 사들였기 때문입니다.
Drew Breunig은 이를 두고 Claws가 새로운 디지털 반려동물이 됐고, Mac Mini는 그 완벽한 어항이라고 농담했습니다.
Claws를 떠올릴 때 가장 마음에 드는 비유는 2004년 영화 〈스파이더맨 2〉에서 알프레드 몰리나가 연기한 닥터 옥토퍼스입니다. 그의 촉수는 AI로 제어됐고, 억제 칩이 손상되지 않는 한 완벽히 안전했죠. 칩이 망가진 뒤에는 사악해져서 주인을 지배하기 시작했지만요.
2월에는 Gemini 3.1 Pro도 출시됐는데, 정말 잘 그린 자전거 타는 펠리컨을 뽑아줬습니다. 바구니 안에 물고기까지 들어 있다니까요.
지난 한 달 사이에도 많은 일이 있었습니다.
GLM-5.1이 그린 자전거 위의 펠리컨입니다. 완성도가 상당합니다.
... 다만 애니메이션으로 만들어보니 자전거가 화면 위로 튀어나가고 형태가 뒤틀렸습니다.
Bluesky의 Charles가 버지니아 북부 주머니쥐가 전동 킥보드를 타는 그림을 시도해보라고 제안했습니다.
이런 결과물이 나왔습니다! 다른 모델들로 같은 시도를 해봤는데 근처도 못 갔습니다. "황혼 무렵부터 커먼웰스를 누비다(Cruising the commonwealth since dusk)"라는 문구는 정말 완벽합니다. 애니메이션으로도 움직입니다.
4월에 주목할 만한 또 다른 중국 오픈 웨이트 모델은 Qwen에서 나왔습니다. 노트북에서 실행한 Qwen3.6-35B-A3B가 Claude Opus 4.7보다 나은 펠리컨을 그렸습니다. 20.9GB짜리 오픈 웨이트 모델이 노트북에서 돌아간 것입니다!
(이쯤 되면 자전거 위의 펠리컨이 유용한 벤치마크로서의 수명을 다했다는 방증이기도 합니다.)
비교를 위해 지난 9월 Claude Sonnet 4.5가 그린 펠리컨을 다시 보여드립니다.
지난 6개월의 핵심은 두 가지로 요약됩니다. 코딩 에이전트가 비약적으로 좋아졌고, 노트북에서 실행 가능한 모델들이 최첨단 모델에는 여전히 뒤처지지만 기대치를 훌쩍 뛰어넘는 성능을 보여주기 시작했습니다.
이 글은 블로그의 장문 아티클만 보여드리고 있습니다. 모든 포스트를 받아보려면 /atom/everything/을 구독하거나, 다른 구독 옵션을 확인해 보세요.
