Qwen 3.6 27B 모델의 BF16, Q4_K_M, Q8_0 GGUF 양자화 성능 평가
핵심 요약
Qwen 3.6 27B 모델의 양자화 방식별 성능을 비교한 결과, Q4_K_M이 효율성 측면에서 가장 우수한 것으로 나타남.
- 성능 평가 — BF16, Q4_K_M, Q8_0 양자화 모델의 HumanEval, HellaSwag, BFCL 지표를 비교함.
- 효율성 분석 — Q4_K_M이 BF16 대비 속도와 메모리 사용량 면에서 실용적인 이점을 제공함.
- 결과 의문 — 일부 사용자들이 벤치마크 점수가 비정상적으로 낮다며 측정 방식에 의문을 제기함.
- 방법론 논란 — 오차 범위 미표기 및 단일 시드 테스트로 인한 결과의 신뢰성 문제가 지적됨.
Neo AI Engineer를 사용하여 llama-cpp-python으로 Qwen 3.6 27B의 BF16, Q4_K_M, Q8_0 GGUF 양자화 버전을 평가했습니다.
사용된 벤치마크:
- HumanEval: 코드 생성
- HellaSwag: 상식 추론
- BFCL: 함수 호출
총 샘플 수:
- HumanEval: 164
- HellaSwag: 100
- BFCL: 400
결과:
BF16
- HumanEval: 56.10% 92/164
- HellaSwag: 90.00% 90/100
- BFCL: 63.25% 253/400
- 평균 정확도: 69.78%
- 처리량: 15.5 tok/s
- 최대 RAM: 54 GB
- 모델 크기: 53.8 GB
Q4_K_M
- HumanEval: 50.61% 83/164
- HellaSwag: 86.00% 86/100
- BFCL: 63.00% 252/400
- 평균 정확도: 66.54%
- 처리량: 22.5 tok/s
- 최대 RAM: 28 GB
- 모델 크기: 16.8 GB
Q8_0
- HumanEval: 52.44% 86/164
- HellaSwag: 83.00% 83/100
- BFCL: 63.00% 252/400
- 평균 정확도: 66.15%
- 처리량: 18.0 tok/s
- 최대 RAM: 42 GB
- 모델 크기: 28.6 GB
주요 특징:
Q4_K_M이 가장 실용적인 변형으로 보입니다. BFCL 점수는 BF16과 거의 동일하게 유지되며, HumanEval에서 약 5.5포인트, HellaSwag에서 BF16 대비 4포인트 정도만 낮습니다.
트레이드오프가 꽤 훌륭합니다:
- BF16 대비 1.45배 빠른 속도
- 최대 RAM 사용량 48% 감소
- 모델 파일 크기 68.8% 감소
- 거의 동일한 함수 호출 점수
Q8_0은 이번 실행에서 다소 기대에 미치지 못했습니다. Q4_K_M보다 HumanEval 점수를 약 1.8포인트 개선했지만, RAM은 28GB가 아닌 42GB를 사용했고 속도도 더 느렸습니다. 또한 HellaSwag에서는 Q4_K_M보다 낮은 점수를 기록했습니다.
로컬/CPU 배포의 경우, 코드 생성 위주의 작업이 아니라면 저는 Q4_K_M을 선택할 것입니다. 최고의 품질을 원한다면 여전히 BF16이 승자입니다.
평가 설정:
- llama-cpp-python을 통한 GGUF
- n_ctx: 32768

