r/LocalLLaMA•약 2개월 전•469•178

아직 Gemma 4를 안 써봤다면... 오늘 당장 써보세요

핵심 요약

로컬 환경에서 뛰어난 성능과 속도를 보여주는 Gemma 4 모델에 대한 사용자들의 긍정적인 평가와 활용 경험 공유.

성능 및 속도 — 로컬 환경에서 빠른 속도와 높은 정확도를 제공하며, 특히 코드 작성과 문제 해결 능력이 뛰어남.
도구 활용 — 에이전트로서 스크립트 작성 및 툴 사용 능력이 우수하여 실무 활용 가능성이 높음.
설정 최적화 — 권장 설정을 적용하면 성능이 향상되며, llama.cpp 등을 통해 로컬에서 효율적으로 구동 가능함.
사용자 경험 — 기존 클라우드 모델을 대체할 수 있을 만큼 로컬 LLM의 실용성이 크게 개선됨.

저는 Ollama를 통해 Qwen 3.5 27B나 35B까지 돌릴 수 있는 적당한 사양의 컴퓨터를 가지고 있습니다. Qwen은 작업하기에 정말 훌륭했고, 느린 속도와의 타협도 괜찮았습니다.

그런데 구글이 Gemma4를 출시했습니다.

정말 빠릅니다. 4B나 9B 모델 수준의 속도예요. 정확도와 자신감 측면에서는 실제로 작동하는 코드를 생성해냈던 첫 번째 Gemini Pro 출시 버전을 떠올리게 합니다.

로컬 환경을 선호하는 사람으로서, 소형 자체 호스팅 LLM의 이러한 사용성과 자신감의 변화는 몇 년 전 Deepseek가 사고 능력으로 보여주었던 혁신을 떠올리게 했습니다.

기회가 되면 한번 써보세요. 구글이 권장하는 설정을 적용하면 확실히 차이가 납니다(약간 느려지지만 더 좋아집니다).

몇 가지 버전을 시도해봤는데, 법률 해석, 파이썬, 브레인스토밍, 문제 해결 등 제가 테스트한 모든 항목에서 이 모델이 가장 잘 작동했습니다.

bjoernb/gemma4-26b-fast:latest (제작자와는 아무런 관련이 없습니다)

며칠 내로 abliterated 버전들을 확인해서 펜테스트 및 시스템 보안 작업에서 Qwen과 비교했을 때 어떤지 살펴볼 예정입니다.

주요 댓글

r/localllama

대부분의 사용자가 Gemma 4의 뛰어난 속도와 실용성에 만족하며, 특히 로컬 환경에서 에이전트로 활용할 수 있다는 점을 높게 평가하고 있습니다.

101

속도에 대해서는 말할 것도 없죠. A4B가 dense 27B보다 빠른 건 당연하니까요. 하지만 Gemma 4 26A4B 덕분에 제 M1 Max(32GB)에서 에이전트로 제대로 작동하는 모델을 드디어 찾았습니다. 200줄 정도의 파이썬 스크립트 작성이나 복잡한 질문에 대한 툴 체이닝도 아주 잘 해내네요. 정말 만족합니다.

저도 같은 기분인데, 저는 Qwen 3.5 35B 모델에 대해서 그래요! 왜 그런지 모르겠지만, Gemma는 아직 저한테 잘 안 맞네요. jinja 템플릿을 바꾸고 llama cpp를 업데이트하고 bos 토큰을 추가해도 툴 호출 시 계속 루프에 빠져요. Qwen은 정말 안정적인데, Gemma는...

Unsloth에 따르면 Gemma는 CUDA 13.2를 별로 안 좋아한다네요. 그래서 그런 걸 수도 있어요. 13.1로 다운그레이드 해보세요.

저는 12.0을 쓰고 있어서, 13.1로 업그레이드해서 해결되는지 확인해 볼게요!

결과 알려주세요, 흥미롭네요.

네, 제 경험상 Gemma(26B)는 Zed나 Copilot의 편집 도구를 제대로 못 써요. 도구를 호출하려고 시도조차 하기 힘들어하고, diff를 일반 응답으로 계속 작성하곤 하죠. 실제로 도구를 호출할 때도 잘못된 인수를 보내는 경우가 많고요. 응답에 diff를 쓰는 게 도구 호출 방식이라고 착각하는 것 같아요. 정말 이상하죠. llama.cpp 문제일 수도 있겠네요. 저는 최신 버전을 쓰고 있고, Vulkan과 ROCm 둘 다 사용 중입니다.

저도 같은 기기를 쓰고 있고 26b와 31b 모델 둘 다 써봤어요. 26b가 훨씬 빨라서 그냥 이걸 쓰기로 했습니다. 생각보다 더 빠르더라고요. 처리 못 하는 건 클라우드 모델을 쓰면 되니까 괜찮아요. Gemma 5가 나오면 Gemini 3.1 Pro 수준의 지식을 갖추게 될 것 같아 정말 기대됩니다.

저는 작업용 M4 Pro에서 turboquant llama.cpp 포크를 사용해 gemma-4-26B-A4B-it을 돌리고 있는데 정말 놀랍습니다. 웹 검색도 되고, MCP도 쓸 수 있고, 로컬에서 스크립트 실행도 가능하며 코드 분석과 128k 컨텍스트 처리까지 됩니다. 정말 빠르고 똑똑해요. 가끔 환각이 있긴 하지만 로컬 LLM이 클라우드 모델을 대체할 수 있다는 걸 증명하고 있죠.

네, 저도 똑같은 반응이었어요. 드디어 로컬 LLM이 클라우드 모델처럼 로컬 장비에서 쓸만해졌네요.

모델 카드 링크 좀 주실 수 있나요? M2 Max 96GB랑 M4 Pro 24GB를 가지고 있어서 더 큰 모델도 돌려보고 싶은데, 툴 호출 잘 되는 모델을 못 찾겠어요.

https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF 여기 있습니다. 저는 4비트 미디엄 양자화를 사용해요. 제가 쓰는 포크는 https://github.com/TheTom/llama-cpp-turboquant 입니다. 로컬에서 서버를 돌리고 Zed에서 localhost:8080으로 프로바이더를 만들어서 써요. 또 하나 팁은 searxng 컨테이너를 로컬에 띄워서 모델이 구글 대신 그걸로 웹 검색을 하게 하는 겁니다. 구글은 로컬 모델의 웹 스크래핑을 자주 차단하거든요.

네 훌륭한 모델이죠. 데일리 드라이버로 쓰고 싶었는데 결국 31B 모델이 그 자리를 차지했네요...

26B-a4b의 속도를 Qwen의 27B와 비교하시는 건가요? 수정: 아, 작성자가 5060ti 16GB에서 27B를 돌리려고 했다는 걸 깨닫고 나니 모든 게 이해가 가네요.

비교하는 게 아니라, MoE로서의 신뢰성을 칭찬하는 겁니다.

Ollama 대신 llama.cpp를 직접 써보세요. 훌륭한 WebUI가 있고 설치가 조금 번거로울 순 있지만, 더 빠른 속도와 최신 기능을 누릴 수 있어서 충분히 가치가 있습니다. 하드웨어에 맞춰 소스 빌드하는 게 성능은 제일 좋지만, 번들 다운로드도 있는 걸로 알아요. 윈도우 쓰시면 제 PowerShell 스크립트로 빌드해보세요: https://github.com/Danmoreng/llama.cpp-installer

지금 같이 볼 만한 글

r/vibecoding

형들, 저 사람한테 뭐라고 답해줘야 할까?

LLM 학습 비용을 모르는 사람의 황당한 요구에 대해 커뮤니티가 비꼬거나 현실적인 대안을 제시하며 반응함.

1580263

r/LocalLLaMA

지금 예언한다, 마이크로소프트가 Unsloth를 인수할 것이다.

마이크로소프트와 Unsloth의 파트너십에 대해 오픈소스 생태계 잠식 우려와 회의적인 반응이 엇갈리고 있습니다.

580318

r/ClaudeAI

Opus 4.8로 하루 만에 '테무판 리그 오브 레전드'를 만들었습니다 - 이름은 LMAO입니다

Claude Opus 4.8을 활용해 하루 만에 멀티플레이어 웹 게임을 개발한 프로젝트 공유.

2336230

커뮤니티 전체 보기