Gemma 4 MTP 출시
핵심 요약
추론 속도를 최대 2배까지 높여주는 Gemma 4 MTP 모델이 공개됨.
- MTP 기술 — 추론 속도를 최대 2배까지 높여주는 다중 토큰 예측 기능이 적용됨.
- Speculative Decoding — 보조 모델이 미리 토큰을 예측하고 타겟 모델이 검증하는 방식으로 작동함.
- 온디바이스 최적화 — 지연 시간이 짧아 온디바이스 환경에서 활용하기에 적합함.
- 다양한 모델군 — 31B, 26B 등 다양한 크기의 모델이 함께 공개됨.
https://huggingface.co/google/gemma-4-31B-it-assistant
https://huggingface.co/google/gemma-4-26B-A4B-it-assistant
https://huggingface.co/google/gemma-4-E4B-it-assistant
https://huggingface.co/google/gemma-4-E2B-it-assistant
이 모델 카드는 Gemma 4 모델을 위한 다중 토큰 예측(MTP) 드래프터에 관한 것입니다. MTP는 기본 모델을 더 작고 빠른 드래프트 모델로 확장하여 구현됩니다. Speculative Decoding 파이프라인에서 사용하면 드래프트 모델이 토큰을 미리 여러 개 예측하고, 타겟 모델이 이를 병렬로 검증합니다. 그 결과 표준 생성 방식과 동일한 품질을 보장하면서도 최대 2배의 디코딩 속도 향상을 얻을 수 있어, 지연 시간이 짧은 온디바이스 애플리케이션에 완벽한 체크포인트입니다.


