KVarN: 화웨이에서 새로 내놓은 KV-캐시 양자화 기술. 성능 저하 없이 3~5배 압축 가능하며 TurboQuant와 달리 추론 성능도 유지 (Apache 2.0, vLLM 플래그 하나로 적용)

핵심 요약

화웨이가 vLLM에서 성능 저하 없이 KV-캐시를 3~5배 압축하는 KVarN을 공개했습니다.

KVarN 공개 — 화웨이가 vLLM에 플래그 하나로 적용 가능한 오픈소스 KV-캐시 양자화 기술을 발표함

성능 이점 — 기존 FP8 대비 3~5배 더 많은 컨텍스트를 처리하며 FP16 수준의 처리량과 정확도를 유지함

TurboQuant 대비 우위 — TurboQuant가 겪는 추론 정확도 저하와 속도 지연 문제를 해결했다고 주장함

실제 검증 필요 — 커뮤니티는 실제 환경에서의 성능과 llama.cpp 지원 여부에 관심을 보임

KV-cache 양자화 경쟁이 더 재밌어졌다. 화웨이가 KVarN을 오픈소스로 풀었는데, Apache 2.0 라이선스고 vLLM에 플래그 하나만 넣으면 바로 적용됨. 기존 스택이랑은 확실히 다른 트레이드오프를 보여주길래, 누가 좀 빡세게 검증해줬으면 해서 글 쓴다.

지금 시장 상황이 이럼.

FP8 ( --kv-cache-dtype fp8 )이 현재 표준임. KV 용량 2배 늘려주고, BF16급 처리량에 품질 저하도 거의 없음. 이 정도면 넘사벽이라 새로 나오는 것들이 넘어야 할 산이 높음.
TurboQuant (구글)는 올해 공격적인 압축으로 뉴스 좀 탔지. 3월에 메모리 반도체 주가 출렁이게 만든 장본인임. 근데 vLLM 자체 연구(Red Hat AI) 결과 보면, 메모리 확보하는 대신 속도를 포기함. 어텐션 연산할 때 BF16으로 다시 디퀀타이즈(dequantize)해야 해서 BF16 처리량의 66~80% 수준이고, 버스트 상황에선 2.5배까지 느려짐. 게다가 저비트 모드에선 추론 성능(AIME25, LiveCodeBench)이 20점이나 깎임.

KVarN이 주장하는 거 (FP16 대비)