Gemma 4 26b A3B는 제대로 설정하면 미친 듯이 좋음
핵심 요약
Gemma 4 26b A3B 모델의 빠른 속도와 툴 콜링 성능, 그리고 루프 문제를 해결하기 위한 시스템 프롬프트 설정 팁 공유.
- 툴 콜링 성능 — 적절한 시스템 프롬프트 설정 시 루프 문제 없이 매우 뛰어난 성능을 보여줌.
- 모델 속도 — RTX 3090 환경에서 초당 80~110 토큰의 매우 빠른 속도를 유지함.
- 시스템 프롬프트 — 모델이 스스로를 초보자로 인식하게 하여 툴 사용을 유도하는 방식이 효과적임.
- 하드웨어 최적화 — 16GB VRAM 환경에서도 CPU 오프로딩을 통해 모델을 효율적으로 구동할 수 있음.
지난 며칠 동안 RTX 3090과 LM Studio에서 여러 모델과 양자화 버전을 테스트해 봤는데, 하나같이 툴 콜링에서 글리치가 발생해서 멈추지 않는 무한 루프에 빠지더군요. 하지만 이 모델은 정말 마음에 들었습니다. 고컨텍스트에서도 초당 80~110 토큰이라는 엄청난 속도를 유지하거든요.
Qwen 3.5 MoE 모델로 툴 콜링을 아주 성공적으로 사용했었는데, Qwen 모델에서 겪은 문제는 Win11에서 발생하는 어떤 버그 때문이었습니다.


