Gemma 4 12B는 이전 Gemma 모델들과 근본적으로 다릅니다
핵심 요약
Gemma 4 12B는 인코더를 제거하고 LLM이 직접 멀티모달 데이터를 처리하는 네이티브 구조를 채택했습니다.
- 인코더 제거 — ViT나 별도의 인코더 없이 선형 레이어만으로 데이터를 LLM에 직접 투영함
- 시각 성능 향상 — 저수준 세부 정보를 보존하여 OCR 및 미세한 시각적 인식 능력이 뛰어남
- 오디오 처리 — 텍스트 변환 없이 원본 파형을 처리하여 화자의 성별, 감정 등 음향 정보 보존
- 네이티브 멀티모달 — LLM이 직접 데이터를 인식하는 방식으로 로컬 모델의 큰 진보를 이룸
developers.googleblog.com
원문 사이트로 이동
Gemma 4 12B는 진정으로 인코더가 없는 모델이며, 이는 무겁고 고정된 인코더에 의존하는 이전의 Gemma 모델들이나 대부분의 다른 VLM과는 엄청난 차이입니다.
이 모델의 35M 비전 "임베더(embedder)"는 ViT가 아닙니다. 그냥 원본 픽셀 패치를 LLM의 은닉 차원으로 매핑하는 단일 선형 레이어(행렬 곱셈)일 뿐입니다. 오디오도 마찬가지입니다. 원본 파형 신호가 LLM 공간으로 바로 투영됩니다. 이들은 표준 텍스트 임베딩 레이어와 정확히 똑같이 작동합니다.
이러한 직접 투영 방식은 원본 데이터가 고정된 인코더의 필터링을 거치지 않고 LLM으로 바로 전달된다는 것을 의미합니다. 시각 데이터의 경우, ViT가 저수준 세부 정보를 삭제하지 않기 때문에 미세한 OCR 작업에 훨씬 더 뛰어납니다. 오디오의 경우, 음성을 먼저 텍스트로 변환하여 모든 음향 정보를 삭제하는 대신 원본 파형을 처리합니다. 이를 통해 일반적으로 완전히 손실되는 화자의 성별, 음조, 감정과 같은 보컬의 미묘한 차이를 보존하고 이해할 수 있습니다.
이것은 LLM 자체가 모든 인식을 수행하는 진정한 네이티브 멀티모달 설계이며, 로컬 모델에 있어 엄청난 도약입니다.


