너희 말이 맞았어 - Qwen 3.6 35B 진짜 좋네... 그리고 KV Cache도 확실히 중요함.
핵심 요약
Qwen 3.6 35B 모델의 성능과 KV 캐시 압축이 모델 지능에 미치는 영향에 대한 사용자 경험 공유.
- 모델 성능 비교 — 27B 모델보다 35B 모델이 특정 작업에서 더 뛰어난 성능을 보임
- KV 캐시 중요성 — 캐시 압축 여부가 에이전트 작업의 지능과 결과물에 큰 차이를 만듦
- 도구 전환 — LM Studio의 버그로 인해 llama.cpp로 환경을 이전함
- 하드웨어 제약 — RTX 3090 Ti 환경에서 최적의 모델과 설정 조합을 찾는 과정
경고: 지금 급하게 치느라 정리나 포맷 신경 쓸 시간 없다. 짧은 문단으로 끊어 쓰는 거 거슬리면 그냥 지나가라.
Qwen 3.6 35B 나왔을 때 다들 찬양 일색이길래, 그냥 속도 때문에 빨아주는 줄 알았다. 3.5 버전 때 27B가 35B보다 객관적으로 똑똑했거든.
그래서 27B 버전(unsloth의 Q5KXL UD @ KV Q8/8)을 써봤는데, 고민할 것도 없이 바로 메인으로 정착했다. 루프도 없고 속도도 괜찮아서 별문제 없이 잘 쓰고 있었지. 딱 이틀 전까진 말이야.
35B는 속도가 딱히 중요하지 않기도 했고, 27B가 더 똑똑하다는 인식이 박혀 있어서 거들떠도 안 봤다. 근데 rivet에서 서브그래프 디버깅하느라 이틀을 날리고, 컨텍스트 오버플로우 때문에 퀀트 계속 낮추다가 모델 지능이 맛탱이 가는 걸 보면서 몇 시간씩 허비하니까 빡치더라. 그러다 최근에 IQ4NXL(MTP + 표준)이랑 Q4KXL, Q5 등등 비교 테스트한 글을 봤던 게 생각났다.
그래서 Qwen 3.6 35B IQ4NXL을 한번 돌려봤다. VRAM은 그나마 여유가 있어서 kv 캐시는 안 썼는데, 거의 한 방에 해결하더라. 그 뒤로 몇 번 더 테스트해 봤는데 좀 어이가 없네. 왜 35B가 더 낫지? 결론은 이거다. a) Qwen은 낮은 퀀트에서도 여전히 성능이 미쳤고, b) 무엇보다 kv 캐시가 진짜 중요하다는 거.
35B는 컨텍스트 길어지면 여전히 느려진다. 27B보다 더 심한 것 같기도 하고. 세션 마무리 루틴 돌리려면 어쩔 수 없이 Q4KXL에 KV Q4/4로 바꿔야 하는데, 그러면 루틴을 까먹거나 세션 요약에서 디테일을 놓칠 위험이 있다. 35B를 깊게 파본 건 아니라서 뭐가 최적인지 감 잡으려면 시간이 좀 필요할 듯.
어쨌든 핵심은 이거다. unquanted kv 캐시 쓴 IQ4NXL이 KV Q8/8 쓴 27B Q5 K XL보다 성능이 좋았다는 거. KV Q4/4 쓴 27B는 말할 것도 없고. 다들 별 차이 없다고 하길래 나도 지능 저하 별로 없는 줄 알았지. 근데 에이전트 작업할 때는 확실히 차이 나고, 덕분에 몇 시간씩 아낄 수 있다.
그리고... 빠르다. 그래서 요즘 35B를 훨씬 많이 쓴다. 적어도 지금 하는 프로젝트에서는. 27B도 여전히 좋아하고, 27B 퀀트 버전이 35B보다 나은 작업들도 분명히 있다. 27B한테 미안한 말이지만 kv 캐시 없이 돌려보진 않았다. 속도 때문에 어쩔 수 없어서. 아마 kv 캐시 안 쓰면 27B도 지능 떡상할 거라 본다. 근데 지금은 당장 할 일이 산더미고 시간이 금이라, RTX 3090 TI 하나로 버티는 중이다.
여담인데, LLM 처음 시작할 때부터 2년 동안 LM Studio만 썼거든. 근데 지금 버그 때문에 컨텍스트 오버플로우나 압축이 안 돼서 미치겠다. 새 세션 시작하고, 에이전트가 노트 다시 읽고, 컨텍스트 다 잡아먹고, 꽉 차면 다시 요약하고... 이 짓을 반복하려니 속 터져서 그냥 llama.cpp로 갈아탔다.
llama.cpp는 툴 새로 배우기도 귀찮고(이미 쓰는 앱도 너무 많아서 더 늘리기 싫었음) 번거로울 것 같아서 망설였는데, 요즘 에이전트 위주로 작업하니까 그냥 에이전트한테 컴파일 시켰다. 잘 돌아가네. 그래, 그냥 에이전트 시키면 된다. 😄

