Gemma 4 12B는 이전 Gemma 모델들과 근본적으로 다릅니다

핵심 요약

Gemma 4 12B는 인코더를 제거하고 LLM이 직접 멀티모달 데이터를 처리하는 네이티브 구조를 채택했습니다.

인코더 제거 — ViT나 별도의 인코더 없이 선형 레이어만으로 데이터를 LLM에 직접 투영함

시각 성능 향상 — 저수준 세부 정보를 보존하여 OCR 및 미세한 시각적 인식 능력이 뛰어남

오디오 처리 — 텍스트 변환 없이 원본 파형을 처리하여 화자의 성별, 감정 등 음향 정보 보존

네이티브 멀티모달 — LLM이 직접 데이터를 인식하는 방식으로 로컬 모델의 큰 진보를 이룸

Gemma 4 12B는 진정으로 인코더가 없는 모델이며, 이는 무겁고 고정된 인코더에 의존하는 이전의 Gemma 모델들이나 대부분의 다른 VLM과는 엄청난 차이입니다.

이 모델의 35M 비전 "임베더(embedder)"는 ViT가 아닙니다. 그냥 원본 픽셀 패치를 LLM의 은닉 차원으로 매핑하는 단일 선형 레이어(행렬 곱셈)일 뿐입니다. 오디오도 마찬가지입니다. 원본 파형 신호가 LLM 공간으로 바로 투영됩니다. 이들은 표준 텍스트 임베딩 레이어와 정확히 똑같이 작동합니다.

이러한 직접 투영 방식은 원본 데이터가 고정된 인코더의 필터링을 거치지 않고 LLM으로 바로 전달된다는 것을 의미합니다. 시각 데이터의 경우, ViT가 저수준 세부 정보를 삭제하지 않기 때문에 미세한 OCR 작업에 훨씬 더 뛰어납니다. 오디오의 경우, 음성을 먼저 텍스트로 변환하여 모든 음향 정보를 삭제하는 대신 원본 파형을 처리합니다. 이를 통해 일반적으로 완전히 손실되는 화자의 성별, 음조, 감정과 같은 보컬의 미묘한 차이를 보존하고 이해할 수 있습니다.

이것은 LLM 자체가 모든 인식을 수행하는 진정한 네이티브 멀티모달 설계이며, 로컬 모델에 있어 엄청난 도약입니다.

Gemma 4 12B는 이전 Gemma 모델들과 근본적으로 다릅니다

핵심 요약

주요 댓글

지금 같이 볼 만한 글

Opus 4.8 진짜 대단하네. 오늘 데이터베이스 협상만 딱 네 번 함.

앤스로픽이 은근히 나를 모욕하네

드디어 내 말을 제대로 알아들었을 때

지금 같이 볼 만한 글

Opus 4.8 진짜 대단하네. 오늘 데이터베이스 협상만 딱 네 번 함.

앤스로픽이 은근히 나를 모욕하네

드디어 내 말을 제대로 알아들었을 때

주요 댓글