'자전거 타는 펠리컨 벤치마크'를 모델 성능 테스트의 진지한 기준으로 삼아온 독자라면 주목할 만하다. 오늘 공개된 두 모델이 각각 그려낸 펠리컨을 비교해볼 수 있다. 대상은 Alibaba의 Qwen3.6-35B-A3B와 Anthropic의 Claude Opus 4.7이다.
먼저 Qwen 3.6이 그린 펠리컨이다. Unsloth가 양자화한 Qwen3.6-35B-A3B-UD-Q4_K_S.gguf (20.9GB) 모델을 LM Studio와 llm-lmstudio 플러그인을 통해 MacBook Pro M5에서 직접 실행했다. 전체 대화 기록은 여기서 확인할 수 있다.

다음은 방금 출시된 Claude Opus 4.7의 결과물이다. (대화 기록)

이번 라운드는 Qwen 3.6의 승리다. Opus는 자전거 프레임 모양조차 제대로 잡지 못했다.
thinking_level: max를 설정해 Opus로 한 번 더 시도해봤지만 결과는 크게 다르지 않았다. (대화 기록)

많은 사람들이 각 AI 연구소들이 내 황당한 벤치마크를 보고 학습 데이터를 맞춤 구성한다고 확신한다. 나는 그렇게 생각하지 않지만, 솔직히 이번 결과를 보고 잠깐 의심이 들기는 했다. 그래서 비밀 예비 테스트 중 하나를 공개하기로 했다. "외발자전거를 타는 플라밍고 SVG를 그려줘"라는 프롬프트로 Qwen3.6-35B-A3B와 Opus 4.7 각각에게 시켜본 결과다.
이번에도 Qwen의 손을 들어주겠다. <!-- Sunglasses on flamingo! -->라는 SVG 주석 하나만으로도 충분히 그럴 만하다.
펠리컨 벤치마크는 원래 농담으로 시작한 것이다. 모델 비교라는 작업 자체가 얼마나 난해하고 터무니없는지를 보여주려는 의도였다.
그런데 이 농담에는 묘한 점이 있었다. 지금까지는 펠리컨 그림의 품질과 모델의 실제 유용성 사이에 어느 정도 상관관계가 존재했다. 2024년 10월의 첫 펠리컨들은 형편없었고, 최근 결과물들은 눈에 띄게 나아졌다. Gemini 3.1 Pro는 실제로 어딘가에 써도 될 만한 수준의 일러스트를 뽑아낼 정도다. 물론 자전거 타는 펠리컨 삽화가 꼭 필요한 상황이라면 말이지만.
그런데 오늘, 그 느슨한 상관관계마저 깨졌다. Qwen에 대한 존중이 크지만, 21GB짜리 양자화 모델이 Anthropic의 최신 클로즈드 모델보다 더 강력하거나 유용하다고는 도저히 생각하기 어렵다.
다만, 자전거 타는 펠리컨 SVG 일러스트가 당장 필요한 상황이라면, 지금 이 순간만큼은 노트북에서 돌리는 Qwen3.6-35B-A3B가 Opus 4.7보다 나은 선택이다.
지금 보고 계신 글은 블로그의 장문 아티클만 포함된 피드입니다. 모든 포스트를 받아보려면 /atom/everything/을 구독하거나, 다른 구독 방식을 확인해보세요.