google/gemma-4-12B · Hugging Face
핵심 요약
구글의 최신 오픈 모델 Gemma 4 시리즈가 공개되었으며, 12B 모델을 포함한 다양한 크기와 멀티모달 기능을 지원합니다.
- 멀티모달 지원 — 텍스트, 이미지, 오디오(일부 모델) 입력을 처리하고 텍스트를 생성함
- 다양한 아키텍처 — Dense 및 Mixture-of-Experts(MoE) 구조로 확장성 있는 배포 가능
- 온디바이스 최적화 — 노트북과 모바일 기기에서 효율적으로 실행되도록 설계됨
- 향상된 성능 — 최대 256K 컨텍스트 윈도우와 강화된 코딩 및 에이전트 능력 제공
huggingface.co
원문 사이트로 이동
Gemma는 구글 딥마인드(Google DeepMind)에서 만든 오픈 모델 시리즈야. Gemma 4 모델들은 멀티모달이라 텍스트랑 이미지 입력을 다룰 수 있고(E2B, E4B, 12B 모델은 오디오도 지원함), 텍스트 출력도 가능해. 이번에 나온 모델들은 사전 학습(pre-trained) 버전이랑 인스트럭션 튜닝(instruction-tuned) 버전 둘 다 오픈 웨이트로 풀렸어. Gemma 4는 최대 256K 토큰까지 컨텍스트 윈도우를 지원하고, 140개 이상의 언어를 지원해서 다국어 처리도 문제없어.
Dense 아키텍처랑 Mixture-of-Experts(MoE) 아키텍처를 둘 다 써서 텍스트 생성, 코딩, 추론 같은 작업에 아주 최적화돼 있어. 모델 사이즈는 E2B, E4B, 12B, 26B A4B, 31B 이렇게 다섯 가지로 나와서, 고성능 폰부터 노트북, 서버까지 환경에 맞춰서 돌릴 수 있어. 최신 AI 기술을 누구나 쉽게 쓸 수 있게 만든 거지.
Gemma 4에서 새로 추가된 핵심 기능이랑 아키텍처 개선 사항은 다음과 같아:
-
추론(Reasoning) – 모든 모델이 추론 능력이 엄청나게 좋게 설계됐고, 생각하는 모드(thinking modes)도 설정할 수 있어.
-
확장된 멀티모달(Extended Multimodalities) – 텍스트, 이미지(가변 종횡비랑 해상도 지원, 전 모델 공통), 비디오, 오디오(E2B, E4B, 12B 모델에서 기본 지원)까지 다 처리 가능해.
-
다양하고 효율적인 아키텍처(Diverse & Efficient Architectures) – 규모에 맞춰서 배포할 수 있게 Dense랑 MoE 모델들을 사이즈별로 다양하게 준비했어.
-
온디바이스 최적화(Optimized for On-Device) – 작은 모델들은 노트북이나 모바일 기기에서 로컬로 쌩쌩 돌아가게끔 특별히 설계됐어.
-
컨텍스트 윈도우 확장(Increased Context Window) – 작은 모델은 128K, 중간 모델은 256K까지 컨텍스트 윈도우를 지원해.
-
코딩 및 에이전트 능력 강화(Enhanced Coding & Agentic Capabilities) – 코딩 벤치마크 점수가 확 올랐고, 함수 호출(function-calling)도 기본으로 지원해서 똑똑한 자율 에이전트 만들 때 딱이야.
-
네이티브 시스템 프롬프트 지원(Native System Prompt Support) – 이제 시스템 역할을 기본으로 지원해서 대화를 훨씬 더 체계적이고 통제하기 쉽게 만들 수 있어.
https://developers.googleblog.com/gemma-4-12b-the-developer-guide/
니 감자(컴퓨터)한테 밥 좀 줘라!!!

