인텔 옵테인 퍼시스턴트 메모리를 활용한 컴퓨터 빌드 - 1조 파라미터 모델을 초당 4토큰 이상으로 구동 가능
핵심 요약
인텔 옵테인 메모리를 활용해 1조 파라미터 모델을 로컬에서 초당 4토큰 속도로 구동하는 가성비 빌드 성공 사례.
- 인텔 옵테인 활용 — 단종된 옵테인 퍼시스턴트 메모리를 대용량 RAM처럼 사용하여 거대 모델 구동함.
- 하이브리드 추론 — GPU와 CPU를 조합하고 llama.cpp의 텐서 오버라이드 기능을 활용해 추론 최적화함.
- 가성비 빌드 — 중고 서버 부품을 적극 활용하여 저렴한 비용으로 frontier-class 모델 구동 환경 구축함.
- 성능 검증 — 1조 파라미터 모델에서 초당 4토큰의 속도를 기록하며 로컬 LLM 구동의 가능성 입증함.
제목에서 언급했듯이, 제 빌드는 1조 파라미터 모델(이번 경우에는 Kimi K2.5)을 로컬에서 초당 약 4토큰의 속도로 구동할 수 있습니다. r/LocalLLaMA 커뮤니티가 이 수치 때문에 흥미를 느낄 것 같았고, LLM 추론 빌드에서 본 적 없는 독특한 부품인 인텔 옵테인 퍼시스턴트 메모리(Intel Optane Persistent Memory)를 사용했다는 점에서도 관심이 있을 것 같아 공유합니다. 옵테인 PMem은 DRAM과 SSD 사이 어딘가에서 작동할 수 있는 DIMM 폼 팩터 메모리 장치입니다. 인텔은 이 라인업을 단종시켰고, 저는 중고 시장에서 동급 DRAM 용량보다 훨씬 저렴한 가격에 스틱을 구할 수 있었습니다. 이 거대한 PMem 용량(768GB) 덕분에 제 시스템에서 이렇게 큰 모델을 호스팅할 수 있는 것입니다. 제 빌드에서는 PMem을 메모리 모드(Memory Mode)로 사용했는데, 이는 PMem이 컴퓨터에 RAM으로 인식되고 컴퓨터의 DRAM 스틱이 캐시 역할을 하는 방식입니다.
Kimi K2.5의 Mixture-of-Experts 아키텍처는 제 빌드를 테스트하기에 이상적인 모델입니다. 제가 얻은 결과를 내기 위해 llama.cpp를 사용하여 하이브리드 GPU/CPU 추론을 수행했습니다. Kimi K2.5의 (Unsloth Q2_K_XL quant) 어텐션 가중치, 덴스 레이어, 각 MoE 레이어의 공유 전문가, 그리고 라우팅 구성 요소들은 llama.cpp의 “override-tensor” 플래그를 사용하여 제 12GB GPU에 실제로 올릴 수 있었습니다. 물론 llama.cpp의 “ngl auto”와 “cmoe” 플래그를 사용하여 llama.cpp가 알아서 텐서 배치를 결정하게 해도 꽤 좋은 결과가 나왔습니다. 어쨌든, 희소 전문가 가중치(모델 크기의 대부분)는 일반적으로 PMem/DRAM에 상주하며 필요에 따라 거기서 처리됩니다.
이 설정으로 테스트한 최종 결과는 생성 속도가 초당 약 4토큰입니다! 제한된 하드웨어 예산으로 이런 1조 파라미터급 프론티어 모델을 구동한다는 점을 고려하면, 저는 매우 성공적이라고 생각합니다. 인텔이 옵테인 퍼시스턴트 메모리를 단종시킨 것은 아쉬운 일입니다. SSD 오프로딩이나 더 넓은 메모리 티어링 접근 방식을 포함한 최근의 로컬 추론 혁신 방향을 고려할 때, 현대 하드웨어 플랫폼에서 이런 특정 종류의 메모리 계층은 정말 흥미로웠을 것이기 때문입니다. 전반적으로 저는 이 옵테인 PMem 중심 빌드에 만족하며, 매우 큰 모델을 놀라울 정도로 수용 가능한 속도로 구동할 수 있게 해주었고, 그 과정 자체가 매우 교육적이었습니다.
부품:
- Intel Xeon Gold 6246 CPU
- TYAN S5630GMRE-CGN motherboard
- ASUS Dual GeForce RTX 3060 OC 12GB GPU
- 6x 32GB Samsung 2666MHz DDR4 ECC DRAM sticks
- 6x 128GB Intel Optane DCPMM PC4-2666 NMA1XBD128GQS persistent memory modules
- Western Digital WD SN850X 2TB M.2 2280 NVMe SSD
- ASRock Steel Legend SL-850G 850W 80 PLUS GOLD & Cybenetics PLATINUM Full Modular Power Supply
- Silverstone SST-GD08B (Black) Grandia Series Home Theater PC Case
이 요약이 즐거우셨길 바랍니다. 여기에 포함하지 못한 더 많은 세부 사항이 있으니, 빌드나 구성, 또는 부품 선택 이유에 대해 궁금한 점이 있다면 댓글로 자유롭게 질문해주세요. 또한 다른 분들도 LLM 추론을 위해 독특한 하드웨어나 빌드를 시도해본 적이 있다면 함께 논의하고 싶습니다!

