Gemma 4 MTP 출시

핵심 요약

추론 속도를 최대 2배까지 높여주는 Gemma 4 MTP 모델이 공개됨.

MTP 기술 — 추론 속도를 최대 2배까지 높여주는 다중 토큰 예측 기능이 적용됨.
Speculative Decoding — 보조 모델이 미리 토큰을 예측하고 타겟 모델이 검증하는 방식으로 작동함.
온디바이스 최적화 — 지연 시간이 짧아 온디바이스 환경에서 활용하기에 적합함.
다양한 모델군 — 31B, 26B 등 다양한 크기의 모델이 함께 공개됨.

https://huggingface.co/google/gemma-4-31B-it-assistant

https://huggingface.co/google/gemma-4-26B-A4B-it-assistant

https://huggingface.co/google/gemma-4-E4B-it-assistant

https://huggingface.co/google/gemma-4-E2B-it-assistant

이 모델 카드는 Gemma 4 모델을 위한 다중 토큰 예측(MTP) 드래프터에 관한 것입니다. MTP는 기본 모델을 더 작고 빠른 드래프트 모델로 확장하여 구현됩니다. Speculative Decoding 파이프라인에서 사용하면 드래프트 모델이 토큰을 미리 여러 개 예측하고, 타겟 모델이 이를 병렬로 검증합니다. 그 결과 표준 생성 방식과 동일한 품질을 보장하면서도 최대 2배의 디코딩 속도 향상을 얻을 수 있어, 지연 시간이 짧은 온디바이스 애플리케이션에 완벽한 체크포인트입니다.

주요 댓글

r/localllama

구글의 Gemma 4 MTP 공개에 대해 커뮤니티는 기술적 유용성과 구글의 연구 공개 행보를 긍정적으로 평가하며, 다양한 프레임워크 지원 소식에 기대감을 보이고 있음.

242

작동 방식 궁금한 사람들을 위해 가이드 업데이트했음: https://newsletter.maartengrootendorst.com/i/193064129/multi-token-prediction-mtp-with-gemma-4

글 잘 쓰네, 설명 최고임!

218

E2B 모델은 78M짜리 드래프트 모델이네. 귀엽다!

이 쪼끄만 safetensor 좀 봐, 진짜 작네 ㅋㅋ

*끼익*

MTP랑 Speculative decoding이랑 뭐가 다른지 설명해 줄 사람?

Gemma 4의 경우엔 똑같음. 걔네가 Speculative decoding용 드래프터를 공개한 거니까. Qwen 3.5나 Next 같은 경우는 MTP가 모델 내부 상태를 보는 보조 출력 레이어로 구현됨.

137

즐감!

대박, 고마워! 마침 llama.cpp 지원 타이밍 딱 좋네.

그치, 빨리 적용됐으면 좋겠다! 그동안 transformers, Ollama, VLLM, SGLang, MLX 지원 작업 중임.

이거 실화냐? 구글이 언제부터 이렇게 관대했지?

Deepmind 시절부터 그랬음(원래부터 그랬지, AlphaFold나 WeatherNext, AlphaGo 연구들 봐봐). 구글은 원래 안 그랬는데 Hassabis가 자금 걱정 안 하려고 딜을 잘한 거지. (수정: 일부 제품은 Deepmind 출신이 아님, 구글 내에 다른 AI 부서도 있었음)

구글이 관대하지 않았다는 건 오해임. 구글은 항상 연구를 많이 공개해 왔어. 리눅스 커널 최대 기여자 중 하나고, 쿠버네티스, 앵귤러, 고랭도 다 구글 거임. 건강 관련 연구도 많고, 홍수나 산불 경보 시스템도 있고. 구글은 다른 기술 기업들처럼 연구 결과를 독점하지 않음.

구글이 'Attention Is All You Need' 논문 발표하면서 AI 붐을 거의 시작했지.

이게 정답이지.