M5 Max 128GB에서 8비트 양자화 및 64k 컨텍스트로 qwen3.6-35b-a3b를 돌려봤는데 Claude만큼 좋음
핵심 요약
로컬 LLM인 Qwen3.6 35B 모델이 고성능 하드웨어에서 Claude와 견줄만한 뛰어난 성능과 속도를 보여줌.
- 로컬 모델 성능 — Qwen3.6 35B 모델이 Claude와 대등한 수준의 코딩 및 연구 작업 능력을 보여줌.
- 하드웨어 가속 — M5 Max 128GB 환경에서 매우 빠른 응답 속도와 효율적인 컨텍스트 처리가 가능함.
- 컨텍스트 최적화 — 64k에서 256k까지 컨텍스트를 확장해도 모델이 안정적으로 작동함.
- 데이터 보안 — 로컬 구동을 통해 코드베이스를 외부 제공업체에 공유하지 않아도 되어 보안성이 높음.
물론 이건 그냥 '믿어달라'는 식의 글이지만, 여러 로컬 모델(Gemma4 몇 개, Qwen3 Coder Next, Nemotron)을 테스트해 보다가 LM Studio에 새로 뜬 Qwen3.6을 연결해 봤음.
진짜 인상적임. 응답 속도가 엄청나게 빠르고, 도구 호출이 많은 긴 연구 작업도 잘 처리함(Android 앱에서 R8이 직렬화 문제를 일으키는 이유를 조사하게 시켰는데, 답변이 아주 정확했음). 아마 내 주력 모델이 될 듯(이전엔 OpenCode Zen을 통해 Kimi k2.5를 썼음).
기분 좋네. 이제 내 코드베이스를 정체불명의 제공업체에 보내서 '믿어달라'고 할 필요도 없고.


