KVarN: 화웨이에서 새로 내놓은 KV-캐시 양자화 기술. 성능 저하 없이 3~5배 압축 가능하며 TurboQuant와 달리 추론 성능도 유지 (Apache 2.0, vLLM 플래그 하나로 적용) | AIwitness