Gemma 4, 이제 Llama.cpp에서 안정적으로 구동 가능
핵심 요약
Llama.cpp의 최신 업데이트로 Gemma 4 관련 이슈가 해결되었으며, 안정적인 구동을 위한 설정 팁이 공유됨.
- Gemma 4 안정화 — Llama.cpp 최신 마스터 브랜치에서 관련 버그 수정 완료됨.
- 런타임 최적화 — 성능 저하 방지를 위해 캐시 및 컨텍스트 설정 권장.
- CUDA 13.2 주의 — 현재 CUDA 13.2 버전은 빌드 오류가 발생하므로 사용 금지.
- 템플릿 설정 — 에이전트 성능 향상을 위해 interleaved 템플릿 사용 권장.
https://github.com/ggml-org/llama.cpp/pull/21534 가 병합되면서, Llama.cpp의 알려진 Gemma 4 이슈들에 대한 모든 수정 사항이 해결되었습니다. 저는 이미 한동안 Q5 양자화로 Gemma 4 31B를 아무 문제 없이 돌리고 있습니다.
런타임 팁:
- Aldehir가 준비한 interleaved 템플릿(llama.cpp 코드 내 models/templates에 있음)과 함께
--chat-template-file을 실행하는 것을 잊지 마세요. - 시스템 RAM 문제를 피하기 위해
--cache-ram 2048 -ctxcp 2로 실행하는 것을 강력히 권장합니다. - KV 캐시를 Q5 K와 Q4 V로 실행했을 때 큰 성능 저하는 없었습니다. 물론 개인 환경에 따라 다를 수 있습니다.
즐거운 시간 되세요 :)
(아, 중요한 언급 하나 더 - 여기서 제가 말하는 llama.cpp는 릴리스 버전이 아니라 소스 코드를 의미합니다. 릴리스 버전은 업데이트가 느리니 현재 마스터 브랜치에서 빌드된 코드를 의미합니다)
빌드 관련 중요 참고 사항: 현재 CUDA 13.2는 사용하지 마세요. (NVidia 측에서도 이미 인지하고 있는) 확실한 결함이 있으며, 제대로 작동하지 않는 빌드가 생성됩니다.


