새로운 Gemma 4 GGUF 파일을 다시 다운로드해야 할 것 같습니다
핵심 요약
Gemma 4의 토크나이저 및 CUDA 관련 치명적 오류 수정으로 인한 GGUF 재배포 소식
- 치명적 버그 수정 — CUDA 버퍼 오버랩 및 토크나이저 관련 주요 오류가 해결됨
- GGUF 재다운로드 권장 — Unsloth 등 주요 배포처에서 수정된 모델 파일을 새로 업로드함
- imatrix 영향 — 활성화 패턴 변경으로 인해 imatrix를 사용한 경우 재변환이 필수적임
- 얼리어답터의 숙명 — 최신 모델을 안정적으로 쓰려면 여러 번 다시 받는 과정이 반복되고 있음
https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF
https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF
u/danielhanchen 작성:
다음에 대응하여 파일들을 다시 업데이트했습니다:
- kv-cache : 이기종 iSWA를 위한 어텐션 회전 지원 https://github.com/ggml-org/llama.cpp/pull/21513
- CUDA: 퓨징 전 버퍼 오버랩 확인 - 치명적 수정
<unused24> tokens관련 https://github.com/ggml-org/llama.cpp/pull/21566 - vocab : Gemma4를 위한 BPE 디토크나이저에 바이트 토큰 처리 추가 https://github.com/ggml-org/llama.cpp/pull/21488
- convert : Gemma 4에 대해 "add bos" == True 설정 https://github.com/ggml-org/llama.cpp/pull/21500
- common : Gemma 4 전용 파서 추가 https://github.com/ggml-org/llama.cpp/pull/21418
- llama-model: Gemma 4를 위한 final_logit_softcapping 읽기 기능 https://github.com/ggml-org/llama.cpp/pull/21390
- llama: Gemma 4를 위한 커스텀 개행 분할 추가 https://github.com/ggml-org/llama.cpp/pull/21406


