r/LocalLLaMA•약 1개월 전•441•90

Qwen3.6 35B A3B Heretic (KLD 0.0015!) 역대급 모델. 내가 써본 35B 중 최고!

핵심 요약

Qwen3.6 35B A3B Heretic 모델이 24GB VRAM에서 훌륭한 성능과 긴 컨텍스트를 보여주며, 기존 모델보다 더 똑똑하게 느껴짐.

성능 최적화 — IQ4XS 및 Q8 KVcache 설정으로 24GB VRAM에서 원활하게 구동됨.
컨텍스트 처리 — 262K 컨텍스트를 지원하며 멀티 턴 툴 콜에서도 오류 없이 작동함.
모델 지능 — 기존 모델보다 더 똑똑하게 느껴지며 KLD가 낮아 무해한 프롬프트에서도 안정적임.
벤치마크 기대 — 이전 버전인 3.5 35B 사례를 볼 때 3.6 버전도 벤치마크 점수가 높을 것으로 예상됨.

며칠 동안 써봤는데, 내가 써본 Qwen 3.6 35B 언센서드 모델 중 단연 최고야. IQ4XS, Q8 KVcache, 262K 컨텍스트 설정으로 24GB VRAM에 딱 맞게 들어가고 멀티 턴 툴 콜에서도 오류가 안 나. 솔직히 원본 모델보다 더 똑똑하게 느껴져(미친 소리 같겠지만). 이 모델은 KLD도 매우 낮아서 이론적으로는 무해한 프롬프트에서 원본 모델과 비슷할 거야.

llmfan의 3.5 35B 모델이 UGI NatInt 섹션에서 실제로 원본보다 벤치마크 점수가 높게 나왔거든. 그래서 이번 3.6 35B도 원본 3.6 모델보다 벤치마크 점수가 더 높게 나올 거라는 강한 예감이 들어.

다들 한번 써봐.

주요 댓글

r/localllama

Qwen3.6 35B Heretic 모델의 뛰어난 성능과 Heretic 툴의 기술적 가치에 대해 긍정적인 반응이 주를 이루지만, 일부 유저는 툴 콜 시 발생하는 무한 루프 문제와 탈옥 모델의 실효성에 대해 의문을 제기하고 있습니다.

128

이 모델은 선형 및 기존 어텐션 블록에 별도의 파라미터를 사용하는 방식이라 흥미롭네요. 최근 제가 PR 머지를 거부했던 방식이기도 합니다. Heretic은 초보자도 쓸 수 있지만, 고수가 다루면 훨씬 강력해지죠. 이 모델 제작자인 llmfan46은 확실히 Heretic을 마스터한 사람이고, 모델의 뛰어난 성능에 대해 전적으로 인정받아야 합니다. 단순히 명령줄 프로그램만 돌린 게 아니거든요.

확실히 그렇죠. llmfan이 만드는 Heretic 모델들이 최고라고 생각합니다. 그리고 Heretic 툴 개발해주신 것도 다들 감사하게 생각하고 있어요.

-1

사람 애태우지 마시고, 왜 PR 머지를 거부하셨는지 알려주세요.

새로운 컴포넌트 타입을 추가하면 최적화해야 할 파라미터가 4개 더 늘어나기 때문입니다. TPE 수렴 동작에 관한 기존 경험칙에 따르면, 비슷한 품질을 얻기 위해 최대 300번까지 트라이를 더 돌려야 할 수도 있거든요.

항상 최적화가 필요한 게 아니라면, 아니면 센스 있는 기본값을 설정할 수 없거나 컴포넌트가 너무 깊게 박혀 있어서 비활성화가 불가능한 게 아니라면요. 그냥 머지하고 옵션에 '제대로 쓸 줄 모르면 품질 떨어짐'이라고 크게 경고문 붙이면 안 되나요? 그러면 OP 같은 숙련된 유저들은 쉽게 쓸 수 있고, 공식 레포 위에 개인 브랜치 유지할 필요도 없을 텐데요.

참고로 원래 Qwen3.6 모델들은 얼마나 검열 해제가 필요한지에 따라 다르지만, 탈옥(jailbreak)하기 꽤 쉬운 편입니다.

맞아요, 저도 Unsloth 퀀트 모델들 쓰면서 느꼈습니다. 3.5보다 기본적으로 검열이 덜한 것 같더라고요.

Qwen3.6이나 Gemma-4 같은 최신 모델들은 좋은 시스템 프롬프트만 있으면 딱히 거부하는 게 없는 것 같아요. 제가 창의력이 부족한 건지 모르겠지만요.

LLM의 윤리 정렬 단계가 성능 향상의 발목을 잡고 있는 게 사실이죠!

저도 동의합니다. Derestricted 120B가 원본 모델보다 전반적으로 성능이 더 잘 나오거든요. GPT-OSS 120B가 윤리와 정책 준수가 성능을 얼마나 방해하는지 보여주는 대표적인 예죠. Derestricted 120B는 특히 웹이랑 연결했을 때 진짜 무시무시합니다.

탈옥하면 항상 성능이나 속도가 좋아지나요?

전 탈옥한 모델이 원본보다 성능 좋은 걸 본 적이 없어요. 제 경험상 탈옥 모델들은 요점을 완전히 놓치더라도 시키는 대로 맹목적으로 수행하는 데만 특화된 경향이 있더라고요.

여기 GGUF 링크입니다.

저는 5060ti 하나로 16GB VRAM 쓰면서 Qwen3.6 27B UD-Q4_K_XL 돌리느라 허덕이고 있는데 말이죠. 35B는 잘 돌아가긴 하는데 27B랑 비교하면 응답이 좀 별로예요.

검열 해제된 건 괜찮은데, 툴 콜에서 무한 루프가 걸리네요.