KVarN: 화웨이에서 새로 내놓은 KV-캐시 양자화 기술. 성능 저하 없이 3~5배 압축 가능하며 TurboQuant와 달리 추론 성능도 유지 (Apache 2.0, vLLM 플래그 하나로 적용)
핵심 요약
화웨이가 vLLM에서 성능 저하 없이 KV-캐시를 3~5배 압축하는 KVarN을 공개했습니다.
- KVarN 공개 — 화웨이가 vLLM에 플래그 하나로 적용 가능한 오픈소스 KV-캐시 양자화 기술을 발표함
- 성능 이점 — 기존 FP8 대비 3~5배 더 많은 컨텍스트를 처리하며 FP16 수준의 처리량과 정확도를 유지함
- TurboQuant 대비 우위 — TurboQuant가 겪는 추론 정확도 저하와 속도 지연 문제를 해결했다고 주장함
- 실제 검증 필요 — 커뮤니티는 실제 환경에서의 성능과 llama.cpp 지원 여부에 관심을 보임
KV-cache 양자화 경쟁이 더 재밌어졌다. 화웨이가 KVarN을 오픈소스로 풀었는데, Apache 2.0 라이선스고 vLLM에 플래그 하나만 넣으면 바로 적용됨. 기존 스택이랑은 확실히 다른 트레이드오프를 보여주길래, 누가 좀 빡세게 검증해줬으면 해서 글 쓴다.
지금 시장 상황이 이럼.
-
FP8 ( --kv-cache-dtype fp8 )이 현재 표준임. KV 용량 2배 늘려주고, BF16급 처리량에 품질 저하도 거의 없음. 이 정도면 넘사벽이라 새로 나오는 것들이 넘어야 할 산이 높음.
-
TurboQuant (구글)는 올해 공격적인 압축으로 뉴스 좀 탔지. 3월에 메모리 반도체 주가 출렁이게 만든 장본인임. 근데 vLLM 자체 연구(Red Hat AI) 결과 보면, 메모리 확보하는 대신 속도를 포기함. 어텐션 연산할 때 BF16으로 다시 디퀀타이즈(dequantize)해야 해서 BF16 처리량의 66~80% 수준이고, 버스트 상황에선 2.5배까지 느려짐. 게다가 저비트 모드에선 추론 성능(AIME25, LiveCodeBench)이 20점이나 깎임.
KVarN이 주장하는 거 (FP16 대비)
-
컨텍스트 3~5배 증가 (FP8은 2배 정도)
-
FP16 대비 처리량 최대 1.4배, 출력 품질은 FP16 유지
-
TurboQuant 대비 처리량 최대 2.4배, 정확도는 더 높음
-
정확도 동일 조건에서 TurboQuant의 모든 동작 지점보다 최소한 더 압축됨 (논문 표 참고)
-
높은 압축률에서도 추론 품질 유지 (TurboQuant 저비트 버전들이 여기서 다 무너짐)
-
모델 수정, 재학습, 캘리브레이션 필요 없음. vLLM 플래그 하나면 끝.
추론 벤치마크 (논문 발췌)
이게 핵심임. 보통 KV-cache 양자화하면 수학이나 코드 정확도 아니면 처리량 둘 중 하나는 박살 나는데, KVarN은 둘 다 잡았다고 주장함.
vLLM v. 압축률에 따른 처리량 (레포 리드미 발췌)
링크
-
vLLM TurboQuant 연구 (위 처리량/추론 수치 출처):

