LLaMA.cpp용 Multi-Token Prediction(MTP) 구현 — Gemma 4 속도 40% 향상

핵심 요약

LLaMA.cpp에 Multi-Token Prediction을 적용하여 Gemma 모델의 추론 속도를 40% 개선함.

LLaMA.cpp에 Multi-Token Prediction을 구현함.

Gemma 4 어시스턴트 모델을 GGUF 형식으로 양자화함.

MacBook Pro M5Max에서 테스트를 진행함. Gemma 26B 모델에 MTP를 적용하니 토큰 생성 속도가 40% 빨라짐.

프롬프트: Write a Python program to find the nth Fibonacci number using recursion

결과:

LLaMA.cpp: 97 tokens/s
LLaMA.cpp + MTP: 138 tokens/s

Local AI 모델 앱: http://atomic.chat

r/localllama

MTP 기술의 속도 향상 효과는 긍정적으로 평가받고 있으나, 품질 저하 여부를 검증하기 위해 시드와 온도 설정을 통한 엄격한 비교 테스트가 필요하다는 의견이 주를 이룹니다.

116

같은 시드에 temp 0.0으로 비교해보면 재밌을 듯. MTP가 품질 저하 안 시킨다는 걸 증명할 수 있을 테니까.

이론상으론 그렇지만, 양자화 같은 거 때문에 실제론 미세하게 바뀔 수 있음. 다음 단어 예측 방식이라 아주 작은 오차만 생겨도 뒤쪽은 다 달라지거든.

-9

좋은 생각인데, 모델이 매번 똑같이 답변하진 않을걸. 판별기가 필요해.

시드를 42 같은 걸로 고정하고 temp를 0으로 설정해봐.

품질 비교하려면 최대한 비슷하게 답변하도록 강제해야 함.

ㅇㅇ 조만간 프롬프트 몇 개 돌려볼 생각임.

temp를 0으로 낮춰.

temp를 올리라는 거야 내리라는 거야?

아니. temp가 높을수록 변동성이 커짐. 0으로 낮추면 사실상 결정론적으로 작동함.

그냥 'crank down'이라는 표현을 쓴 방식에 대해 지적한 거 같은데, 모델 온도랑은 상관없는 얘기임.

LMStudio에서도 작동함?

Gemma 4 26b도 빠르긴 한데, 성능 개선하려면 31b dense 모델이 필요함.

Qwen 27b로 MTP 돌려봤는데 40% 정도 속도 향상 있었음. 31b도 비슷할 듯. Q5 버전 썼는데, 대신 VRAM을 더 먹어서 ctx 유지하려고 kv를 f16에서 q8로 바꿨음.

작성자님, 제발 Heretic GGUF도 만들어주세요! 진짜 큰 도움이 될 것 같아요.

오 좋네! 한번 해볼게 고마워.

Polymarket 거래 데이터를 Claude Code로 분석해 내부자 거래 의심 사례와 승률 분포를 밝혀낸 작성자가 추가 분석 질문을 모집합니다.

AI가 생성한 평균적인 레딧 관리자의 모습에 대해 사용자들의 자조 섞인 반응과 고정관념에 대한 토론이 이어짐.

Claude Code를 활용해 실시간 비행기 위치를 추적하고 집 천장에 프로젝션 매핑으로 구현한 프로젝트가 큰 호응을 얻고 있습니다.