Qwen3.6 GGUF 벤치마크
핵심 요약
Unsloth 팀이 Qwen3.6-35B-A3B GGUF 벤치마크를 공개하며, 최근 발생한 CUDA 13.2 이슈와 모델 재업로드 논란에 대해 투명하게 해명함.
- 벤치마크 공개 — Qwen3.6-35B-A3B 모델의 최적 양자화 선택을 돕기 위한 성능 지표를 공유함.
- CUDA 이슈 해명 — CUDA 13.2의 버그로 인한 4비트 양자화 모델의 오류를 확인하고 13.1 사용을 권장함.
- 재업로드 투명성 — 모델 재업로드는 대부분 외부 버그 수정이나 공식 템플릿 개선 때문임을 설명함.
- 양자화 연구 — 최적의 성능을 위해 특정 레이어 양자화 제외 등 연구 결과를 바탕으로 모델을 개선함.
여러분, 최고의 양자화 모델을 선택하실 수 있도록 Qwen3.6-35B-A3B GGUF KLD 성능 벤치마크를 실행했습니다.
Unsloth 양자화 모델은 파레토 프론티어에서 22번 중 21번 KLD 대 디스크 공간 비율이 가장 우수합니다.
GGUF: https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF
또한 저희 GGUF 업데이트와 관련된 몇 가지 오해를 풀고 싶습니다. 일부 사람들은 저희가 실수 때문에 자주 재업로드한다고 하거나, CUDA 13.2의 gibberish 같은 이슈가 단지 핑계일 뿐이라고 말하기도 합니다.
우려 사항은 이해하지만, 현실은 저희가 문제를 빠르게 공개하고 사람들에게 업데이트를 권장하는 편이라는 점입니다. 약 95%의 경우 근본 원인은 저희가 통제할 수 없는 것들이었습니다. 저희는 그저 투명하게 정보를 공유하고 커뮤니티에 알리려 노력할 뿐입니다.
몇 가지 예시입니다:
Gemma 4는 4번 재업로드되었습니다
3번은 약 10~20개의 llama.cpp 버그 수정 때문이었고, 그중 일부는 저희가 조사하고 수정에 기여하기도 했습니다. 4번째는 구글의 공식 Gemma 채팅 템플릿 개선 때문이었습니다. 저희뿐만 아니라 모든 제공자가 업데이트해야 했습니다. Gemma-4에 대한 약 30개의 PR 수정/개선 사항을 보여주는 llama.cpp PR을 확인하세요.
MiniMax 2.7 NaNs
저희는 Bartowski의 양자화 모델(10/26)과 저희 모델(5/23)에서 NaNs를 발견했습니다.
저희는 수정 사항을 확인하고 이미 저희 모델에 패치를 적용했습니다 - https://www.reddit.com/r/LocalLLaMA/comments/1slk4di/minimax_m27_gguf_investigation_fixes_benchmarks/ 를 확인하세요. Bartowski는 아직 패치하지 않았지만 적극적으로 작업 중입니다.
- 10/26 NaNs (38%) 발견: https://huggingface.co/bartowski/MiniMaxAI_MiniMax-M2.7-GGUF: Chunk-32 실패 (9): IQ3_XXS, IQ3_XS, IQ3_M, Q3_K_M, Q3_K_L, Q3_K_XL, Q4_K_S, Q4_1, Q5_K_S. 후반 실패 (1): IQ1_S (chunk 311에서 충돌)
- 5/23 NaNs (21%) 발견: https://huggingface.co/unsloth/MiniMax-M2.7-GGUF: UD-Q4_K_S, UD-Q4_K_M, UD-Q4_K_XL, UD-Q5_K_S, MXFP4_MOE. 모두 32 블록.

