r/LocalLLaMA•약 2개월 전•637•299

Gemma 4 26b A3B는 제대로 설정하면 미친 듯이 좋음

핵심 요약

Gemma 4 26b A3B 모델의 빠른 속도와 툴 콜링 성능, 그리고 루프 문제를 해결하기 위한 시스템 프롬프트 설정 팁 공유.

툴 콜링 성능 — 적절한 시스템 프롬프트 설정 시 루프 문제 없이 매우 뛰어난 성능을 보여줌.
모델 속도 — RTX 3090 환경에서 초당 80~110 토큰의 매우 빠른 속도를 유지함.
시스템 프롬프트 — 모델이 스스로를 초보자로 인식하게 하여 툴 사용을 유도하는 방식이 효과적임.
하드웨어 최적화 — 16GB VRAM 환경에서도 CPU 오프로딩을 통해 모델을 효율적으로 구동할 수 있음.

지난 며칠 동안 RTX 3090과 LM Studio에서 여러 모델과 양자화 버전을 테스트해 봤는데, 하나같이 툴 콜링에서 글리치가 발생해서 멈추지 않는 무한 루프에 빠지더군요. 하지만 이 모델은 정말 마음에 들었습니다. 고컨텍스트에서도 초당 80~110 토큰이라는 엄청난 속도를 유지하거든요.

Qwen 3.5 MoE 모델로 툴 콜링을 아주 성공적으로 사용했었는데, Qwen 모델에서 겪은 문제는 Win11에서 발생하는 어떤 버그 때문이었습니다.

주요 댓글

r/localllama

모델의 성능에 대해서는 대체로 긍정적이나, 툴 콜링 루프 문제와 시스템 프롬프트 설정의 중요성에 대해 활발한 논의가 이루어짐.

Crush agent 쓰면서 Gemma 툴 콜링 루프 문제 겪어서 그냥 포기함.

맞아, 나도 똑같은 문제 겪었어! 2일 동안 모든 양자화 버전이랑 모델, 시스템 프롬프트 다 테스트해 봤는데, 이 양자화 버전을 찾고 나서는 지난 8시간 동안 아주 빡세게 돌려도 루프가 단 한 번도 안 걸리더라.

나도 이 모델 쓰다가 루프에 빠진 적 있는데, 문서 관련 쿼리 할 때였어. 토큰 4만 정도에서 계속 똑같은 말을 반복하더라고.

나도 마찬가지야. 쓸 수가 없음. 설정이나 튜닝을 어떻게 바꿔봐도 계속 루프 걸려. 그냥 포기하고 Qwen 3.5 35b랑 27b로 돌아갔어. 걔네는 진짜 안정적이거든.

다른 모델이랑 비교했을 때, 이 모델은 내부 지식에 너무 의존하는 경향이 있어. 리서치 모델로 써보려고 했는데, 계속 자기 지식만 믿으려고 하더라고. 온도 0.3, top-k 20, min-p 0.1로 설정해도 지시는 따르지만, 특히 Unsloth UDIQ4NL 모델에서는 계속 거짓말을 하더라.

모델한테 전문가라고 하지 말고 초보자라고 말해봐. 나는 시스템 프롬프트에 모델이 해당 주제에 대해 초보자라서 모든 걸 더블 체크하기 위해 항상 툴을 사용해야 한다고 적었어. 내 사용 사례에서는 훨씬 잘 작동하더라. 모델이 전혀 모르는 언어로 번역 작업을 시키고 싶었거든. 기본적으로 이렇게 말했어. "너는 X를 배우려는 초보자야. 현재 이 언어의 단어나 문법을 전혀 몰라. 너는 툴에 접근할 수 있어...

모델한테 자존감을 낮춰주면 도움을 요청하게 됨 😉

Gemma 4는 그렇게 관리해야 해. 시스템 프롬프트가 엄청 중요하다는 걸 깨달았고, 그걸로 원치 않는 행동은 다 고칠 수 있어.

고마워 친구, 이거 진짜 문서화 안 된 꿀팁인데 따로 스레드 파서 공유할 가치가 있어.

동의해. Gemma 4 결과 진짜 놀라워. 올해 초에 Qwen 3.5 써보고 나서 이렇게 큰 개선이 있을 줄은 몰랐어.

16GB에서도 돌릴 수 있어. MoE 일부를 CPU에 올리고 GPU 레이어를 조금 낮춰봐. 속도랑 컨텍스트 크기 사이에서 좋은 균형을 찾을 수 있을 거야.

아, 확실히 그렇긴 한데, 속도가 너무 떨어질 거야. 에이전트 용도로는 속도가 중요하거든. 이 모델은 24GB용으로 만들어진 것 같아. 근데 아주 공격적인 양자화로 16GB에서 에이전트 툴을 돌릴 수 있을까? 난 항상 VRAM을 컨텍스트 윈도우로 꽉 채워서 안 해봤어.

MoE 일부를 CPU로 오프로드하면 속도가 그렇게 많이 안 떨어져. 사실 그게 메모리를 VRAM에서 덜어내서 여유 공간을 확보하려고 하는 거거든. 오히려 같은 파라미터 설정에서 속도가 엄청 빨라질 수도 있어. 이론적으로 모델 전체를 VRAM에 다 넣을 수 있더라도, 메모리를 확보해서...

Q3_K_M이랑 Q4_K_M 같은 더 높은 양자화 버전이랑 비교해봤어? Gemma 4는 잘 모르겠지만 Unsloth가 Qwen 3.5 GGUF 벤치마크 공개한 거 보면 Q3가 Q4보다 훨씬 안 좋거든. https://unsloth.ai/docs/models/qwen3.5/gguf-benchmarks 그렇지 않길 바라. 내 5070Ti는 더 큰 컨텍스트로 Q3를 돌릴 수 있거든.

대박이지! 이 모델을 파인튜닝하고 툴을 최적화하면, 로컬에서 구동하면서도 비용은 훨씬 적게 들면서 Opus 4.6이 할 수 있는 건 거의 다 할 수 있을 것 같아. 1년 뒤에는 모델들이 얼마나 더 좋아질지 상상해봐 :X

지금 같이 볼 만한 글

r/LocalLLaMA

Gemma 4 모델 추가 출시 예정

Gemma 4의 새로운 모델, 특히 120B급 대형 모델 출시에 대한 기대와 성능 논의가 활발함.

443102

r/ClaudeAI

10점 만점에 10점, 더 할 말 없음

Claude의 특정 행동 양식과 말투를 분석한 게시물에 대해 사용자들의 공감과 분석적 반응이 이어짐.

1256144

r/ChatGPT

드디어 이해하는 사람이 있네.

AI를 연인이나 치료사처럼 대하는 사용자들의 반응과 이에 대한 냉소적인 의견들이 오가는 포스트입니다.

96227

커뮤니티 전체 보기