LLaMA.cpp용 Multi-Token Prediction(MTP) 구현 — Gemma 4 속도 40% 향상
핵심 요약
LLaMA.cpp에 Multi-Token Prediction을 적용하여 Gemma 모델의 추론 속도를 40% 개선함.
- MTP 구현 — LLaMA.cpp 환경에서 Multi-Token Prediction을 도입하여 추론 성능을 대폭 향상함.
- 속도 벤치마크 — MacBook Pro M5Max 환경에서 Gemma 26B 모델 기준 40%의 속도 향상을 확인함.
- GGUF 모델 지원 — Gemma 4 어시스턴트 모델을 GGUF 형식으로 양자화하여 배포함.
- 오픈소스 기여 — 수정된 llama.cpp 코드와 관련 모델을 허깅페이스 및 깃허브를 통해 공개함.
LLaMA.cpp에 Multi-Token Prediction을 구현함.
Gemma 4 어시스턴트 모델을 GGUF 형식으로 양자화함.
MacBook Pro M5Max에서 테스트를 진행함. Gemma 26B 모델에 MTP를 적용하니 토큰 생성 속도가 40% 빨라짐.
프롬프트: Write a Python program to find the nth Fibonacci number using recursion
결과:
LLaMA.cpp: 97 tokens/s
LLaMA.cpp + MTP: 138 tokens/s
Gemma4-assistant GGUF 양자화 모델: https://huggingface.co/collections/AtomicChat/gemma-4-assistant-gguf
Local AI 모델 앱: http://atomic.chat
수정된 llama.cpp: https://github.com/AtomicBot-ai/atomic-llama-cpp-turboquant


