r/LocalLLaMA•1일 전•267•126

너희 말이 맞았어 - Qwen 3.6 35B 진짜 좋네... 그리고 KV Cache도 확실히 중요함.

핵심 요약

Qwen 3.6 35B 모델의 성능과 KV 캐시 압축이 모델 지능에 미치는 영향에 대한 사용자 경험 공유.

모델 성능 비교 — 27B 모델보다 35B 모델이 특정 작업에서 더 뛰어난 성능을 보임
KV 캐시 중요성 — 캐시 압축 여부가 에이전트 작업의 지능과 결과물에 큰 차이를 만듦
도구 전환 — LM Studio의 버그로 인해 llama.cpp로 환경을 이전함
하드웨어 제약 — RTX 3090 Ti 환경에서 최적의 모델과 설정 조합을 찾는 과정

경고: 지금 급하게 치느라 정리나 포맷 신경 쓸 시간 없다. 짧은 문단으로 끊어 쓰는 거 거슬리면 그냥 지나가라.

Qwen 3.6 35B 나왔을 때 다들 찬양 일색이길래, 그냥 속도 때문에 빨아주는 줄 알았다. 3.5 버전 때 27B가 35B보다 객관적으로 똑똑했거든.

그래서 27B 버전(unsloth의 Q5KXL UD @ KV Q8/8)을 써봤는데, 고민할 것도 없이 바로 메인으로 정착했다. 루프도 없고 속도도 괜찮아서 별문제 없이 잘 쓰고 있었지. 딱 이틀 전까진 말이야.

35B는 속도가 딱히 중요하지 않기도 했고, 27B가 더 똑똑하다는 인식이 박혀 있어서 거들떠도 안 봤다. 근데 rivet에서 서브그래프 디버깅하느라 이틀을 날리고, 컨텍스트 오버플로우 때문에 퀀트 계속 낮추다가 모델 지능이 맛탱이 가는 걸 보면서 몇 시간씩 허비하니까 빡치더라. 그러다 최근에 IQ4NXL(MTP + 표준)이랑 Q4KXL, Q5 등등 비교 테스트한 글을 봤던 게 생각났다.

그래서 Qwen 3.6 35B IQ4NXL을 한번 돌려봤다. VRAM은 그나마 여유가 있어서 kv 캐시는 안 썼는데, 거의 한 방에 해결하더라. 그 뒤로 몇 번 더 테스트해 봤는데 좀 어이가 없네. 왜 35B가 더 낫지? 결론은 이거다. a) Qwen은 낮은 퀀트에서도 여전히 성능이 미쳤고, b) 무엇보다 kv 캐시가 진짜 중요하다는 거.

35B는 컨텍스트 길어지면 여전히 느려진다. 27B보다 더 심한 것 같기도 하고. 세션 마무리 루틴 돌리려면 어쩔 수 없이 Q4KXL에 KV Q4/4로 바꿔야 하는데, 그러면 루틴을 까먹거나 세션 요약에서 디테일을 놓칠 위험이 있다. 35B를 깊게 파본 건 아니라서 뭐가 최적인지 감 잡으려면 시간이 좀 필요할 듯.

어쨌든 핵심은 이거다. unquanted kv 캐시 쓴 IQ4NXL이 KV Q8/8 쓴 27B Q5 K XL보다 성능이 좋았다는 거. KV Q4/4 쓴 27B는 말할 것도 없고. 다들 별 차이 없다고 하길래 나도 지능 저하 별로 없는 줄 알았지. 근데 에이전트 작업할 때는 확실히 차이 나고, 덕분에 몇 시간씩 아낄 수 있다.

그리고... 빠르다. 그래서 요즘 35B를 훨씬 많이 쓴다. 적어도 지금 하는 프로젝트에서는. 27B도 여전히 좋아하고, 27B 퀀트 버전이 35B보다 나은 작업들도 분명히 있다. 27B한테 미안한 말이지만 kv 캐시 없이 돌려보진 않았다. 속도 때문에 어쩔 수 없어서. 아마 kv 캐시 안 쓰면 27B도 지능 떡상할 거라 본다. 근데 지금은 당장 할 일이 산더미고 시간이 금이라, RTX 3090 TI 하나로 버티는 중이다.

여담인데, LLM 처음 시작할 때부터 2년 동안 LM Studio만 썼거든. 근데 지금 버그 때문에 컨텍스트 오버플로우나 압축이 안 돼서 미치겠다. 새 세션 시작하고, 에이전트가 노트 다시 읽고, 컨텍스트 다 잡아먹고, 꽉 차면 다시 요약하고... 이 짓을 반복하려니 속 터져서 그냥 llama.cpp로 갈아탔다.

llama.cpp는 툴 새로 배우기도 귀찮고(이미 쓰는 앱도 너무 많아서 더 늘리기 싫었음) 번거로울 것 같아서 망설였는데, 요즘 에이전트 위주로 작업하니까 그냥 에이전트한테 컴파일 시켰다. 잘 돌아가네. 그래, 그냥 에이전트 시키면 된다. 😄

주요 댓글

r/localllama

사용자들은 Qwen 35B의 성능과 KV cache 압축의 중요성에 공감하며, 생산성을 위해 하드웨어 최적화와 실제 소요 시간 측정의 필요성을 논의하고 있습니다.

35B의 어텐션 텐서가 27B보다 훨씬 좁다는 점은 언급할 가치가 있어. 데이터가 적게 들어있어서 압축이 훨씬 더 치명적으로 작용하거든. 27B는 텐서가 훨씬 넓어서 KV 캐시 압축에 조금 더 "회복력"이 있을 거야.

좋은 정보네. 이번 경험을 바탕으로 35B에는 KV cache 압축을 안 할 생각이야. 오후에 할 일을 한 번에 끝내버렸거든. 이제 제대로 작동하는지 테스트해 봐야지.

좀 깐깐하게 말하자면.. KV cache 없이는 아무것도 빠르게 못 돌려. 😄 아마 KV cache 압축(양자화)을 안 하겠다는 뜻이겠지. 본문에서도 'no kv cache'라고 몇 번 말해서 짚고 넘어가는 건데, 압축 여부와 상관없이 KV cache는 무조건 있어야 해.

좋은 지적이야. 수정할게.

그래, 너한테 또 다른 데이터 포인트가 되겠네. 👍

"속도는 상관없다"고 시작해서 결국 "속도가 필요해서"라는 말로 끝맺다니, 컨텍스트 길이 제한에 미쳐버리고 35B 품질을 의심하다가 결국 27B와 35B 사이에서 갈팡질팡하는 모습이 딱 나네. 나만 그런 게 아니라니 다행이야.

하하. 내 경험을 아주 잘 요약해 줬네. 😄

너는 지금 생산성과 초당 토큰 생성 속도(tokens per second)의 차이를 보고 있는 거야. 모델이 토큰을 적게 뱉든 많이 뱉든 상관없어, 결국 누가 먼저 질문에 답하느냐가 중요한 거지.

대부분 사람들은 실제 소요 시간(wall clock time)을 체크 안 하지. 난 Pi용 타이머 확장 프로그램으로 턴이랑 전체 시간을 측정하는데 ㅋㅋㅋ 진짜 깨달은 게 많아.

난 코드를 읽을 땐 35B-A3B를 쓰고, 작성할 땐 27B를 쓰는 편이야. 예를 들어, opencode 세션 시작할 때 35B-A3B @ Q6으로 "주요 새 기능을 준비하기 위해 현재 코드베이스를 철저히 분석해라"라고 시키지. 이건 빨라. 그다음에 27B Q8로 매끄럽게 넘어가서 "기능에 대한 세부 사항은 이거야; 계획을 세워줘" 같은 식으로 시키고. 27B가 코드를 더 깔끔하게 짜고 실수를 덜 하더라고.. 근데 뭐, 내 하드웨어에선 느려. 😄

27B를 Q8로 돌리고 있다면 하드웨어가 나보다 훨씬 좋은 거 같은데, 최소 5090은 쓰는 거지?

하하, 5090 있으면 좋겠네.. >< 난 strix halo(EVO-X2 128gb)에 4090M 16gb eGPU 쓰고 있어. KV cache는 4090M으로 보내고(strix의 낙관적인 256gb/s보다 빠른 ~576gb/s니까), 나머지 레이어들도 최대한 거기 넣지. 나머지는 온보드 통합 VRAM에 들어가고. 4090M 하나 더 오고 있는데, eGPU 두 개로 나누면 성능이 어떨지 궁금해. 아마 Q8이랑 262000 컨텍스트를 다 돌리기엔 메모리가 부족하겠지만.

27b랑 35b 돌릴 때 pps랑 tgs는 얼마나 나와?

난 항상 옳고, 틀렸을 때도 자신 있게 틀리지. Qwen3.6 35B A3B면 충분해.

3060 12gb 두 개(현재 대략 22.5gb VRAM) 쓰고 있는데 어떤 버전을 쓰는 게 좋을까?