Llama.cpp의 MTP 지원 베타 버전 출시!
핵심 요약
Llama.cpp가 MTP 지원을 베타로 시작하며 추론 속도 향상과 vLLM과의 성능 격차 해소를 예고함.
- MTP 지원 베타 — Llama.cpp가 Qwen3.5 모델을 시작으로 다중 토큰 예측 기능을 베타로 도입함.
- 추론 성능 향상 — vLLM과의 토큰 생성 속도 격차를 줄이고 하이브리드 추론 효율을 높일 것으로 기대됨.
- Speculative Decoding 대안 — 별도의 VRAM 할당 없이 모델 내부에 내장된 드래프트 모드로 효율적인 토큰 생성이 가능함.
- 향후 모델 확장 — 현재는 Qwen 모델 위주지만 점차 다양한 모델로 지원 범위를 넓혀갈 예정임.
Llama.cpp의 MTP 지원이 베타 버전으로 출시되었다는 소식을 전하게 되어 기쁩니다. Aman과 그동안 여러 이슈를 제기해 준 모든 분께 감사드립니다. 조만간 정식으로 병합될 가능성이 높습니다. 현재는 Qwen3.5 MTP를 지원하지만, 다른 모델들도 곧 뒤따를 예정입니다.
이 기능과 성숙해가는 텐서 병렬(tensor-parallel) 지원을 고려하면, 적어도 토큰 생성 속도 측면에서 Llama.cpp와 vLLM 사이의 성능 격차는 대부분 사라질 것으로 예상됩니다.

