Qwen 3.6 27B 모델의 BF16, Q4_K_M, Q8_0 GGUF 양자화 성능 평가

핵심 요약

Qwen 3.6 27B 모델의 양자화 방식별 성능을 비교한 결과, Q4_K_M이 효율성 측면에서 가장 우수한 것으로 나타남.

성능 평가 — BF16, Q4_K_M, Q8_0 양자화 모델의 HumanEval, HellaSwag, BFCL 지표를 비교함.

효율성 분석 — Q4_K_M이 BF16 대비 속도와 메모리 사용량 면에서 실용적인 이점을 제공함.

결과 의문 — 일부 사용자들이 벤치마크 점수가 비정상적으로 낮다며 측정 방식에 의문을 제기함.

방법론 논란 — 오차 범위 미표기 및 단일 시드 테스트로 인한 결과의 신뢰성 문제가 지적됨.

Neo AI Engineer를 사용하여 llama-cpp-python으로 Qwen 3.6 27B의 BF16, Q4_K_M, Q8_0 GGUF 양자화 버전을 평가했습니다.

사용된 벤치마크:

총 샘플 수:

결과:

BF16

Q4_K_M

Q8_0

주요 특징:

Q4_K_M이 가장 실용적인 변형으로 보입니다. BFCL 점수는 BF16과 거의 동일하게 유지되며, HumanEval에서 약 5.5포인트, HellaSwag에서 BF16 대비 4포인트 정도만 낮습니다.

트레이드오프가 꽤 훌륭합니다:

Q8_0은 이번 실행에서 다소 기대에 미치지 못했습니다. Q4_K_M보다 HumanEval 점수를 약 1.8포인트 개선했지만, RAM은 28GB가 아닌 42GB를 사용했고 속도도 더 느렸습니다. 또한 HellaSwag에서는 Q4_K_M보다 낮은 점수를 기록했습니다.

로컬/CPU 배포의 경우, 코드 생성 위주의 작업이 아니라면 저는 Q4_K_M을 선택할 것입니다. 최고의 품질을 원한다면 여전히 BF16이 승자입니다.

평가 설정:

핵심 요약