r/LocalLLaMA•약 1개월 전•561•243

Llama.cpp의 MTP 지원 베타 버전 출시!

핵심 요약

Llama.cpp가 MTP 지원을 베타로 시작하며 추론 속도 향상과 vLLM과의 성능 격차 해소를 예고함.

MTP 지원 베타 — Llama.cpp가 Qwen3.5 모델을 시작으로 다중 토큰 예측 기능을 베타로 도입함.
추론 성능 향상 — vLLM과의 토큰 생성 속도 격차를 줄이고 하이브리드 추론 효율을 높일 것으로 기대됨.
Speculative Decoding 대안 — 별도의 VRAM 할당 없이 모델 내부에 내장된 드래프트 모드로 효율적인 토큰 생성이 가능함.
향후 모델 확장 — 현재는 Qwen 모델 위주지만 점차 다양한 모델로 지원 범위를 넓혀갈 예정임.

Llama.cpp의 MTP 지원이 베타 버전으로 출시되었다는 소식을 전하게 되어 기쁩니다. Aman과 그동안 여러 이슈를 제기해 준 모든 분께 감사드립니다. 조만간 정식으로 병합될 가능성이 높습니다. 현재는 Qwen3.5 MTP를 지원하지만, 다른 모델들도 곧 뒤따를 예정입니다.

이 기능과 성숙해가는 텐서 병렬(tensor-parallel) 지원을 고려하면, 적어도 토큰 생성 속도 측면에서 Llama.cpp와 vLLM 사이의 성능 격차는 대부분 사라질 것으로 예상됩니다.

주요 댓글

r/localllama

Llama.cpp의 MTP 지원 베타 소식에 사용자들은 엄청난 성능 향상을 기대하며, 기술적 원리와 기존 Speculative Decoding과의 차이점에 대해 활발하게 토론하고 있습니다.

106

이거 진짜 llama.cpp 역사상 가장 큰 게임 체인저가 될 잠재력이 있음. MTP가 dense 모델들한테는 엄청난 차이를 만들 것 같고, MoE는 좀 덜할지 몰라도 여전히 기대됨. 이제 DFlash랑 EAGLE만 나오면 된다!

맞음, vLLM에서 Qwen 27b 돌리면 55에서 105 토큰/초로 떡상함.

누가 MTP가 뭔지, 이게 무슨 의미인지 5살짜리도 이해하게 설명 좀 해줄 사람?

249

모델은 다음 토큰을 예측함. 그러려면 모든 가중치에 한 번씩 접근해야 함(dense 모델 기준). 그래서 토큰 생성 속도는 모델 가중치 전체를 RAM에서 읽어오는 횟수와 같음. 예를 들어 RAM 대역폭이 500GB/s고 모델이 50GB라면 초당 10토큰 이상은 절대 못 뽑음. 보통은 더 느림.

5살짜리 설명은 아니지만 기술적으로 아주 훌륭한 설명이네 :)

101

덩치 큰 곰이 숲길을 갈 때, 작고 빠릿빠릿하지만 가끔 실수하는 작은 곰이 도와주면 훨씬 빨리 갈 수 있음. 둘이 합치면 혼자보다 훨씬 나은 팀이 되는 거임.

큰 모델은 토큰 느리게 만들고, 작은 모델은 빠르게 만듦. 큰 모델 안에 작은 모델이 들어있어서 작은 모델이 대신 토큰 만들고 큰 모델이 검사함. 그래서 큰 모델이 더 빨리 토큰을 만드는 거임.

136

Speculative Decoding 물어보는 댓글이 많네. 이거 그냥 'draft' Speculative Decoding이랑 똑같은데 작은 모델을 위해 VRAM을 따로 할당할 필요가 없음. MTP 지원하는 큰 모델들은 저렴하게 draft 모드가 내장되어 있는 셈임.

그럼 이미 MTP 지원하는 모델들이 있음?

Qwen3.5 / 3.6이 지원함.

그거 그냥 Speculative Decoding 아님?

Speculative 방법론들 싹 정리해서 뭐가 좋은지, 장단점 뭔지 알려줄 사람 있음? MTP, Eagle-3, DFlash, DTree, ngram 등등... 뭐가 추가 모델이 필요한지, 뭐가 문맥 재사용에 좋은지 헷갈림.

다들 싸게 draft 토큰 생성하고 전체 모델로 검증하는 원리로 작동함. 핵심 차이는 draft 토큰을 어떻게 생성하느냐임. N-gram은 이미 문맥에 있는 문자열을 재사용함. 장점: 계산 엄청 빠르고 모든 모델에서 작동함. 단점: 코딩처럼 텍스트 반복이 잦은 경우에만 좋음. Draft 모델은 같은 계열의 작은 모델을 써서 빠르게 생성함. 장점: 구현이 꽤 쉬움.

draft는 베타가 아님. 빨리 구현됐으면 좋겠다.

나이스! 방금 테스트해봤는데 지금 ik_llama.cpp 구현보다 훨씬 빠름. 며칠 동안 가지고 놀았는데, am17an의 Q8_0 모델에서 MTP 레이어 추출해서 가지고 있는 Qwen 3.6 27B GGUF에 넣는 스크립트가 있더라. Bartowski의 Q6_K로 해봤는데 잘 돌아감.

지금 같이 볼 만한 글

r/ClaudeCode

Claude가 이 교훈을 배우게 하려면 어떤 걸 써야 할까?

Claude의 지시사항 무시 문제를 해결하기 위해 스킬을 설정해도 여전히 고통받는 사용자의 고민.

25043

r/LocalLLaMA

지금 예언한다, 마이크로소프트가 Unsloth를 인수할 것이다.

마이크로소프트와 Unsloth의 파트너십에 대해 오픈소스 생태계 잠식 우려와 회의적인 반응이 엇갈리고 있습니다.

580318

r/ChatGPT

세상에.

ChatGPT의 답변을 보고 놀라워하는 작성자와 이를 유머러스하게 받아치거나 비꼬는 커뮤니티 반응들.

107550

커뮤니티 전체 보기