r/LocalLLaMA•26일 전•562•113

12GB VRAM에서 Qwen3.6 35B A3B와 llama.cpp MTP로 80 tok/sec 및 128K 컨텍스트 구현하기

핵심 요약

12GB VRAM 환경에서 llama.cpp의 MTP 기능을 활용해 35B 모델로 고속 추론을 구현하는 설정법을 공유함.

MTP 활용 — llama.cpp의 Multi-Token Prediction 기능을 통해 토큰 생성 속도를 80 tok/sec 이상으로 높임.
VRAM 최적화 — 12GB VRAM 환경에서 모델 일부를 CPU로 오프로드하고 -fitt 파라미터로 메모리 균형을 맞춤.
설정 공유 — RTX 4070 Super 환경에서 128K 컨텍스트를 유지하며 효율적인 추론을 수행하는 구체적인 커맨드 제공.
성능 벤치마크 — 다양한 작업 유형에서 70~80 tok/sec의 안정적인 성능을 기록함.

12GB GPU를 가진 다른 분들이 적은 VRAM으로도 꽤 괜찮은 토큰 생성 속도를 낼 수 있도록 제 설정을 공유하고 싶었습니다. 최신 llama.cpp 빌드와 MTP PR을 사용해서, 여기 있는 벤치마크에서 80% 이상의 드래프트 수락률과 80 tok/sec 이상의 속도를 얻었습니다: https://gist.githubusercontent.com/am17an/228edfb84ed082aa88e3865d6fa27090/raw/7a2cee40ee1e2ca5365f4cef93632193d7ad852a/mtp-bench.py

이건 RTX 4070 Super 기준이라 다른 그래픽카드에서는 결과가 다를 수 있습니다.

MTP 지원 llama.cpp를 실행하려면 소스에서 직접 빌드하고 아직 마스터 브랜치에 병합되지 않은 드래프트 PR을 추가해야 합니다. 그 방법을 설명하는 아주 좋은 가이드와 Qwen3.6 MTP GGUF 다운로드 링크는 여기 있습니다: https://huggingface.co/havenoammo/Qwen3.6-35B-A3B-MTP-GGUF

llama.cpp 실행 명령어:

llama-server \
  -m Qwen3.6-35B-A3B-MTP-UD-Q4_K_XL.gguf \
  -fitt 1536 \
  -c 131072 \
  -n 32768 \
  -fa on \
  -np 1 \
  -ctk q8_0 \
  -ctv q8_0 \
  -ctkd q8_0 \
  -ctvd q8_0 \
  -ctxcp 64 \
  --no-mmap \
  --mlock \
  --no-warmup \
  --spec-type mtp \
  --spec-draft-n-max 2 \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --temp 0.6 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.0 \
  --presence-penalty 0.0 \
  --repeat-penalty 1.0

여기서 가장 중요한 파라미터는 -fitt 1536입니다. 모델 크기 때문에 일부가 CPU로 오프로드되는데, 이 설정은 llama.cpp가 GPU/CPU 부하를 적절히 분배하여 최상의 성능을 내도록 하고 MTP 드래프트 모델과 KV 캐시를 위해 1536MB의 여유 메모리를 남겨둡니다. 저는 dGPU를 보조 GPU로 사용하고(모니터는 iGPU에 연결) 있어서 12GB VRAM 전체를 추론에 사용할 수 있습니다. dGPU를 주 GPU로 사용한다면 1536은 너무 작을 수 있습니다.

벤치마크 결과:

mtp-bench.py

 code_python     pred= 192 draft= 132 acc= 125 rate=0.947 tok/s=80.8
 code_cpp           pred=  58 draft=  40 acc=  37 rate=0.925 tok/s=81.8
 explain_concept    pred= 192 draft= 152 acc= 114 rate=0.750 tok/s=70.0
 summarize          pred=  53 draft=  40 acc=  32 rate=0.800 tok/s=75.4
 qa_factual         pred= 192 draft= 144 acc= 119 rate=0.826 tok/s=77.8
 translation        pred=  22 draft=  16 acc=  13 rate=0.812 tok/s=81.9
 creative_short     pred= 192 draft= 160 acc= 111 rate=0.694 tok/s=69.2
 stepwise_math      pred= 192 draft= 144 acc= 119 rate=0.826 tok/s=76.5
 long_code_review   pred= 192 draft= 148 acc= 117 rate=0.790 tok/s=73.2

질문이 있으시면 언제든 물어보세요 :)

건승을 빕니다.

주요 댓글

r/localllama

사용자들은 작성자의 최적화 설정에 큰 관심을 보이며, 특히 no-mmap 설정의 이점과 각자의 하드웨어 환경에서 이를 재현하려는 활발한 기술적 논의가 이어지고 있습니다.

작성자님 진짜 감사합니다. 놀고 있는 5070ti 있는데 이번 주말에 바로 해봐야겠네요.

근데 DeepSeekV4도 써보셨나요? 그 모델도 좀 궁금해서요.

코딩용으로 DeepSeek V4 클라우드 써봤는데 영 별로였음. 너무 과하게 생각하고 혼란스러워하는 느낌? 뭐 이건 제 개인적인 의견이고 다른 사람들은 다르게 생각할 수도 있겠죠. 😄 코딩할 때 클라우드 모델은 GPT 5.5가 최고인 듯. 결정론적인 동작 방식 덕분에 복잡한 코드 수정이나 추가할 때 한 번에 끝내기 딱 좋음. 솔직히 Qwen3.6 35B A3B 로컬 모델도 GLM 5.1 빼고는 다른 대형 오픈 LLM들이랑 비빌 만하다고 생각함.

-no-mmap은 왜 쓰는 건가요?

--mlock 쓸 때 llama.cpp에서 권장하는 설정이에요(디스크 스왑 방지). --no-mmap은 모델 전체를 RAM에 올리는 거라 필요할 때마다 로드하는 방식보다 메모리 사용이 훨씬 예측 가능해지거든요. 로딩 시간은 좀 길어질 수 있는데 추론할 때 훨씬 안정적이에요.

방금 rtx2070S/ryzen3950x/64ram 환경에서 vram 6.25GiB 제한 걸고 qwen-3.5-9B-ud-q4-k-xl로 mmap이랑 no-mmap 벤치마크 돌려봤는데, no-mmap이 확실히 낫네요. 디코드 속도 1.5% 향상, 프롬프트 처리 5.2% 향상, vram 28MB 절약, 실행 간 편차 10~20배 감소, 디스크 IO 없어서 SSD 수명에도 좋음.

Std?

사용자가 'Std'라고만 적어서 뭔 소린가 했더니... 혹시 '성병(STD)' 검사해보라는 뜻인가? 암튼 알겠음.

그럼 mmap은 언제 쓰는 게 좋은 건가요? -no-mmap으로도 필요한 건 다 로드되는 거 아닌가요?

모델이 너무 커서 시스템 RAM에 가중치를 다 올려야 할 때(MoE 같은 경우) 리눅스에서 mmap 쓰면 돼요. 전체를 RAM에 올릴 필요 없이 필요한 부분만 로드하니까요. 근데 성능 때문에 가중치를 RAM에 계속 유지하고 싶으면 no-mmap 쓰세요. 시작은 느려도 실행은 좀 더 빠를 거예요.

GTX 1070 8GB + i7-11700 16GB에서 Qwen3.6-35B-A3B-MTP-UD-Q2_K_XL.gguf 돌려본 결과입니다. (중략) 125K 컨텍스트에서 13.6 t/s 나오네요.

> Qwen3.6-35B-A3B-MTP 이거 어떤 양자화 버전인가요?

16GB AMD CPU 쓰고 있는데 시간 나면 따라 해봐야겠네요. llama.cpp는 직접 써본 적 없고 LM studio만 써봤는데.

나도 16GB AMD CPU 복제해서 쓰고 싶다.

와 타이밍 대박이네요. 3080 Ti 쓰는데 어젯밤에 이 모델 돌리려다 실패해서 우울했거든요. 오늘 바로 해보고 결과 알려드릴게요!