M5 Max 128GB에서 8비트 양자화 및 64k 컨텍스트로 qwen3.6-35b-a3b를 돌려봤는데 Claude만큼 좋음 | AIwitness

r/LocalLLaMA•약 2개월 전•569•272

M5 Max 128GB에서 8비트 양자화 및 64k 컨텍스트로 qwen3.6-35b-a3b를 돌려봤는데 Claude만큼 좋음

핵심 요약

로컬 LLM인 Qwen3.6 35B 모델이 고성능 하드웨어에서 Claude와 견줄만한 뛰어난 성능과 속도를 보여줌.

로컬 모델 성능 — Qwen3.6 35B 모델이 Claude와 대등한 수준의 코딩 및 연구 작업 능력을 보여줌.
하드웨어 가속 — M5 Max 128GB 환경에서 매우 빠른 응답 속도와 효율적인 컨텍스트 처리가 가능함.
컨텍스트 최적화 — 64k에서 256k까지 컨텍스트를 확장해도 모델이 안정적으로 작동함.
데이터 보안 — 로컬 구동을 통해 코드베이스를 외부 제공업체에 공유하지 않아도 되어 보안성이 높음.

물론 이건 그냥 '믿어달라'는 식의 글이지만, 여러 로컬 모델(Gemma4 몇 개, Qwen3 Coder Next, Nemotron)을 테스트해 보다가 LM Studio에 새로 뜬 Qwen3.6을 연결해 봤음.

진짜 인상적임. 응답 속도가 엄청나게 빠르고, 도구 호출이 많은 긴 연구 작업도 잘 처리함(Android 앱에서 R8이 직렬화 문제를 일으키는 이유를 조사하게 시켰는데, 답변이 아주 정확했음). 아마 내 주력 모델이 될 듯(이전엔 OpenCode Zen을 통해 Kimi k2.5를 썼음).

기분 좋네. 이제 내 코드베이스를 정체불명의 제공업체에 보내서 '믿어달라'고 할 필요도 없고.

주요 댓글

r/localllama

로컬 모델의 비약적인 성능 향상에 다들 흥분하고 있지만, 여전히 Claude Opus나 Sonnet 같은 최상위 클라우드 모델과의 체급 차이를 인정하는 분위기임.

143

지금까지 써본 로컬 모델 중 최고임. 5090에서 돌리니까 속도가 미쳤음. 클라우드 모델이랑 비교가 안 됨. NVFP4는 아직 안 써봤는데 기대됨.

지연 시간이나 전반적인 경험이 훨씬 나음. Perplexity API보다 이게 더 좋더라. 근데 코딩은 Opus 4.7이 여전히 압승임. 나중에 M5 Ultra 나오면 122B 모델 다시 도전해볼 생각. 결국 다들 로컬 모델 돌리고, 나머지는 그냥 돈 내고 앱이랑 에이전트 쓰는 세상이 올 듯.

동의함. 1년 뒤면 다 이렇게 될 듯.

5090에서 어떻게 돌림? 퀀트랑 컨텍스트 설정 좀 알려줘. 돌아갈지 확신이 안 서서.

5090이랑 4090 멀티 GPU로 돌림. Unsloth Q8 XL 퀀트에 컨텍스트 최대로 잡았는데 진짜 빠름. SOTA 모델보다 성능은 좀 떨어져도 로컬 AI의 전환점이라 할 만함. 속도가 깡패임.

Qwen은 컨텍스트 비용이 싸서 256k까지 쉽게 올릴 수 있음. 모델 성능도 컨텍스트 활용 잘하고.

방금 올려봤는데 진짜네.

에이전트 코딩하기엔 64k 컨텍스트 너무 적지 않나?

오늘 써보니까 괜찮던데? 32k는 부족했음. 너는 얼마나 씀? 난 에이전트 풀로 안 돌리고 리서치나 타겟 리팩토링 위주로 해서.

램 넉넉하니까 256k 풀로 땡겨.

그럼 64k로도 충분하겠네. 난 에이전트 코딩할 때 240k에 Q8 KV 캐시 쓰는데, Qwen 3.5/3.6 진짜 미친 성능임. 살기 좋은 세상이다.

Claude만큼은 절대 아님. 그래도 꽤 괜찮음.

글쎄, Opus 쓰다가 Qwen 3.6으로 넘어왔는데 내가 하는 작업엔 훨씬 별로임. Opus가 멍청해진 건지 뭔지.

내 경험상 Qwen 3.6은 Sonnet 아래임. 그렇다고 나쁜 건 아님. 꽤 인상적이지. 근데 실무용으로 Opus(A+)나 Sonnet(A-)랑 비교하면 B+ 정도? 로컬 모델이랑 클라우드 모델은 체급이 다름.