릴리즈 아티클 커뮤니티

릴리즈 아티클 커뮤니티

새로운 Gemma 4 GGUF 파일을 다시 다운로드해야 할 것 같습니다 | AIwitness

r/LocalLLaMA•약 2개월 전•478•140

새로운 Gemma 4 GGUF 파일을 다시 다운로드해야 할 것 같습니다

핵심 요약

Gemma 4의 토크나이저 및 CUDA 관련 치명적 오류 수정으로 인한 GGUF 재배포 소식

치명적 버그 수정 — CUDA 버퍼 오버랩 및 토크나이저 관련 주요 오류가 해결됨
GGUF 재다운로드 권장 — Unsloth 등 주요 배포처에서 수정된 모델 파일을 새로 업로드함
imatrix 영향 — 활성화 패턴 변경으로 인해 imatrix를 사용한 경우 재변환이 필수적임
얼리어답터의 숙명 — 최신 모델을 안정적으로 쓰려면 여러 번 다시 받는 과정이 반복되고 있음

https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF

https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF

u/danielhanchen 작성:

다음에 대응하여 파일들을 다시 업데이트했습니다:

kv-cache : 이기종 iSWA를 위한 어텐션 회전 지원 https://github.com/ggml-org/llama.cpp/pull/21513
CUDA: 퓨징 전 버퍼 오버랩 확인 - 치명적 수정 <unused24> tokens 관련 https://github.com/ggml-org/llama.cpp/pull/21566
vocab : Gemma4를 위한 BPE 디토크나이저에 바이트 토큰 처리 추가 https://github.com/ggml-org/llama.cpp/pull/21488
convert : Gemma 4에 대해 "add bos" == True 설정 https://github.com/ggml-org/llama.cpp/pull/21500
common : Gemma 4 전용 파서 추가 https://github.com/ggml-org/llama.cpp/pull/21418
llama-model: Gemma 4를 위한 final_logit_softcapping 읽기 기능 https://github.com/ggml-org/llama.cpp/pull/21390
llama: Gemma 4를 위한 커스텀 개행 분할 추가 https://github.com/ggml-org/llama.cpp/pull/21406

주요 댓글

r/localllama

반복되는 토크나이저 및 구현 오류에 지치면서도, 최신 모델을 사용하기 위해 재다운로드를 감수하는 분위기입니다.

75

Bartowski 버전도 업데이트가 필요한가요, 아니면 Unsloth 것만 그런가요?

174

제 최신 업로드 이후로는 제 파일들이 토크나이저 수정 후 유일하게 정상 작동한다는 말을 많이 들어서 급하게 업데이트할 필요는 없을 것 같아요. 최신 변경 사항을 조사해보겠지만, 사람들이 너무 여러 번 다시 받지 않게 천천히 진행할게요. BOS 설정 정도가 바뀔 수 있는데 이건 런타임에서도 수정 가능하고 성능에 대해서는 의견이 갈리네요.

37

그냥 이 기회에 말씀드리는데, 정말 훌륭한 일을 해주고 계십니다. 감사합니다.

38

네, imatrix를 사용했다면 활성화 패턴이 달라졌기 때문에 모두 다시 변환해야 합니다.

59

이거 Llama 3 토크나이저 이슈의 재림이네.

57

최첨단(bleeding edge)에 살다 보면 베이는 법이지.

46

Qwen 3.5 이슈의 재림이기도 하고.

40

GPT-OSS 이슈의 재림이기도 함.

44

사용자가 OpenAI 정책을 비판하고 있으며, 이는 가이드라인에 어긋납니다. 도움을 드릴 수 없습니다. 증오 발언과 폭력을 용납할 수 없습니다.

55

더 좋은 질문, Heretic 버전이랑 그 양자화 버전도 새로 필요한가요?

84

낙수 효과 양자화 경제학(Trickle down quantinomics)이네.

34

Heretic은 Transformers를 사용하니까 Heretic으로 만든 safetensors 파일은 괜찮을 거예요. llama.cpp의 Gemma 4 구현에 초기에 버그가 좀 있어서 GGUF로만 다시 양자화하면 됩니다.

36

그럼 31b 모델도 다시 변환해야 하나요?

37

나열된 변경 사항들이 왜 새로운 GGUF를 요구하는지, 그리고 왜 31B는 업데이트되지 않았는지 이해하려고 노력 중인데, 26B랑 E2B용 GGUF는 새로 올라온 게 보이네요.

25

별일 아님. 이제 새 모델이 나오면 안정화될 때까지 3~5번은 다운로드할 각오를 하고 있음. 큰 모델이면 보통 일주일 정도 기다림. 예를 들어 GLM5.1은 이번 주말까지 기다렸다가 받을 생각임.

r/LocalLLaMA 원문 보기

지금 같이 볼 만한 글

평균적인 레딧 관리자 모습 그려줘

평균적인 레딧 관리자 모습 그려줘

AI가 생성한 평균적인 레딧 관리자의 모습에 대해 사용자들의 자조 섞인 반응과 고정관념에 대한 토론이 이어짐.

Claude가 이 교훈을 배우게 하려면 어떤 걸 써야 할까?

Claude가 이 교훈을 배우게 하려면 어떤 걸 써야 할까?

Claude의 지시사항 무시 문제를 해결하기 위해 스킬을 설정해도 여전히 고통받는 사용자의 고민.

r/ChatGPT & r/GeminiAI

어느 쪽이 더 잘했나?

어느 쪽이 더 잘했나?

AI 모델들이 생성한 전갈 이미지들을 비교하며 각 모델의 생물학적 정확성과 디테일 묘사 능력을 평가하는 게시물입니다.

커뮤니티 전체 보기