r/LocalLLaMA•약 10시간 전•776•283

google/gemma-4-12B · Hugging Face

핵심 요약

구글의 최신 오픈 모델 Gemma 4 시리즈가 공개되었으며, 12B 모델을 포함한 다양한 크기와 멀티모달 기능을 지원합니다.

멀티모달 지원 — 텍스트, 이미지, 오디오(일부 모델) 입력을 처리하고 텍스트를 생성함
다양한 아키텍처 — Dense 및 Mixture-of-Experts(MoE) 구조로 확장성 있는 배포 가능
온디바이스 최적화 — 노트북과 모바일 기기에서 효율적으로 실행되도록 설계됨
향상된 성능 — 최대 256K 컨텍스트 윈도우와 강화된 코딩 및 에이전트 능력 제공

huggingface.co

원문 사이트로 이동

Gemma는 구글 딥마인드(Google DeepMind)에서 만든 오픈 모델 시리즈야. Gemma 4 모델들은 멀티모달이라 텍스트랑 이미지 입력을 다룰 수 있고(E2B, E4B, 12B 모델은 오디오도 지원함), 텍스트 출력도 가능해. 이번에 나온 모델들은 사전 학습(pre-trained) 버전이랑 인스트럭션 튜닝(instruction-tuned) 버전 둘 다 오픈 웨이트로 풀렸어. Gemma 4는 최대 256K 토큰까지 컨텍스트 윈도우를 지원하고, 140개 이상의 언어를 지원해서 다국어 처리도 문제없어.

Dense 아키텍처랑 Mixture-of-Experts(MoE) 아키텍처를 둘 다 써서 텍스트 생성, 코딩, 추론 같은 작업에 아주 최적화돼 있어. 모델 사이즈는 E2B, E4B, 12B, 26B A4B, 31B 이렇게 다섯 가지로 나와서, 고성능 폰부터 노트북, 서버까지 환경에 맞춰서 돌릴 수 있어. 최신 AI 기술을 누구나 쉽게 쓸 수 있게 만든 거지.

Gemma 4에서 새로 추가된 핵심 기능이랑 아키텍처 개선 사항은 다음과 같아:

추론(Reasoning) – 모든 모델이 추론 능력이 엄청나게 좋게 설계됐고, 생각하는 모드(thinking modes)도 설정할 수 있어.
확장된 멀티모달(Extended Multimodalities) – 텍스트, 이미지(가변 종횡비랑 해상도 지원, 전 모델 공통), 비디오, 오디오(E2B, E4B, 12B 모델에서 기본 지원)까지 다 처리 가능해.
다양하고 효율적인 아키텍처(Diverse & Efficient Architectures) – 규모에 맞춰서 배포할 수 있게 Dense랑 MoE 모델들을 사이즈별로 다양하게 준비했어.
온디바이스 최적화(Optimized for On-Device) – 작은 모델들은 노트북이나 모바일 기기에서 로컬로 쌩쌩 돌아가게끔 특별히 설계됐어.
컨텍스트 윈도우 확장(Increased Context Window) – 작은 모델은 128K, 중간 모델은 256K까지 컨텍스트 윈도우를 지원해.
코딩 및 에이전트 능력 강화(Enhanced Coding & Agentic Capabilities) – 코딩 벤치마크 점수가 확 올랐고, 함수 호출(function-calling)도 기본으로 지원해서 똑똑한 자율 에이전트 만들 때 딱이야.
네이티브 시스템 프롬프트 지원(Native System Prompt Support) – 이제 시스템 역할을 기본으로 지원해서 대화를 훨씬 더 체계적이고 통제하기 쉽게 만들 수 있어.
https://developers.googleblog.com/gemma-4-12b-the-developer-guide/

니 감자(컴퓨터)한테 밥 좀 줘라!!!

https://huggingface.co/ggml-org/gemma-4-12b-it-GGUF

https://huggingface.co/unsloth/gemma-4-12b-it-GGUF

주요 댓글

r/localllama

사용자들은 Gemma 4-12B에 대한 상세한 기술 가이드에 큰 만족감을 표하며, 향후 더 큰 모델에 대한 기대와 함께 효율적인 아키텍처에 대해 활발히 논의하고 있습니다.

175

이것도 여기 공유 안 할 수가 없네: https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b 이 가이드 만드는 거 재밌었어, 특히 인코더 없는 아키텍처라는 점을 고려하면 더더욱!

대충 훑어봤는데 LLM 아키텍처에 대한 디테일 수준이 엄청나네. 잘 만들었어!

나중에 Gemma 4:124b 나오면 그것도 가이드 써줄 거야?

응, GPT-OSS 120B를 왕좌에서 끌어내릴 활성 파라미터 수 적은 대형 MoE 모델 기다리는 중이야. 이 사이즈대 다른 모델들은 활성 파라미터가 10B가 넘어서 CPU랑 GPU에 나눠서 돌리면 느려지거든. GPT-OSS는 진짜 부드러워. 사이즈도 완벽하고 QAT 덕분에 이기기 힘들지.

흥미로운 글이네, 공유해줘서 고마워!

네 블로그/뉴스레터가 최고 중 하나야, 고마워!!

근데 진짜 돌릴 거야?

지금 쓰는 노트북에선 그게 유일한 방법이라서 😄 예전에 Gemma3-27B Q3 돌려봤는데 노트북이 비명을 지르더라. 레이어 절반을 RAM에 올리니까 1~2 t/s 정도 나왔던 것 같음. 이번 달에 새로 맞추는 컴퓨터에선 30B 모델 Q6/Q8로 갈 거야.

난 예전 게이밍 노트북(1070 8GB, 32GB RAM)에 우분투 깔고 Qwen3.6 35BA3B Q4 모델 돌리는데 의외로 잘 돌아감. 모델 파일 20GB를 GPU랑 RAM에 나눠서 올리니까 프리필 200 t/s 정도 나오고, 컨텍스트 길이에 따라 13~20 t/s 정도 나오더라. 총 132k 컨텍스트까지 가능함.

GPU가 아주 가난하지 않은 사람들도 24GB 정도면 Q8 양자화에 긴 컨텍스트, 가벼운 배치 처리까지 가능함. 더 큰 모델만큼 복잡한 코딩은 못 할지 몰라도, Q8이면 컨텍스트가 길어질 때 내가 올릴 수 있는 다른 양자화 모델들보다 훨씬 안정적임.

115

그 빌어먹을 124B는 도대체 어디 있는 거야!!!???