r/LocalLLaMA•23일 전•720•115

인텔 옵테인 퍼시스턴트 메모리를 활용한 컴퓨터 빌드 - 1조 파라미터 모델을 초당 4토큰 이상으로 구동 가능

핵심 요약

인텔 옵테인 메모리를 활용해 1조 파라미터 모델을 로컬에서 초당 4토큰 속도로 구동하는 가성비 빌드 성공 사례.

인텔 옵테인 활용 — 단종된 옵테인 퍼시스턴트 메모리를 대용량 RAM처럼 사용하여 거대 모델 구동함.
하이브리드 추론 — GPU와 CPU를 조합하고 llama.cpp의 텐서 오버라이드 기능을 활용해 추론 최적화함.
가성비 빌드 — 중고 서버 부품을 적극 활용하여 저렴한 비용으로 frontier-class 모델 구동 환경 구축함.
성능 검증 — 1조 파라미터 모델에서 초당 4토큰의 속도를 기록하며 로컬 LLM 구동의 가능성 입증함.

제목에서 언급했듯이, 제 빌드는 1조 파라미터 모델(이번 경우에는 Kimi K2.5)을 로컬에서 초당 약 4토큰의 속도로 구동할 수 있습니다. r/LocalLLaMA 커뮤니티가 이 수치 때문에 흥미를 느낄 것 같았고, LLM 추론 빌드에서 본 적 없는 독특한 부품인 인텔 옵테인 퍼시스턴트 메모리(Intel Optane Persistent Memory)를 사용했다는 점에서도 관심이 있을 것 같아 공유합니다. 옵테인 PMem은 DRAM과 SSD 사이 어딘가에서 작동할 수 있는 DIMM 폼 팩터 메모리 장치입니다. 인텔은 이 라인업을 단종시켰고, 저는 중고 시장에서 동급 DRAM 용량보다 훨씬 저렴한 가격에 스틱을 구할 수 있었습니다. 이 거대한 PMem 용량(768GB) 덕분에 제 시스템에서 이렇게 큰 모델을 호스팅할 수 있는 것입니다. 제 빌드에서는 PMem을 메모리 모드(Memory Mode)로 사용했는데, 이는 PMem이 컴퓨터에 RAM으로 인식되고 컴퓨터의 DRAM 스틱이 캐시 역할을 하는 방식입니다.

Kimi K2.5의 Mixture-of-Experts 아키텍처는 제 빌드를 테스트하기에 이상적인 모델입니다. 제가 얻은 결과를 내기 위해 llama.cpp를 사용하여 하이브리드 GPU/CPU 추론을 수행했습니다. Kimi K2.5의 (Unsloth Q2_K_XL quant) 어텐션 가중치, 덴스 레이어, 각 MoE 레이어의 공유 전문가, 그리고 라우팅 구성 요소들은 llama.cpp의 “override-tensor” 플래그를 사용하여 제 12GB GPU에 실제로 올릴 수 있었습니다. 물론 llama.cpp의 “ngl auto”와 “cmoe” 플래그를 사용하여 llama.cpp가 알아서 텐서 배치를 결정하게 해도 꽤 좋은 결과가 나왔습니다. 어쨌든, 희소 전문가 가중치(모델 크기의 대부분)는 일반적으로 PMem/DRAM에 상주하며 필요에 따라 거기서 처리됩니다.

이 설정으로 테스트한 최종 결과는 생성 속도가 초당 약 4토큰입니다! 제한된 하드웨어 예산으로 이런 1조 파라미터급 프론티어 모델을 구동한다는 점을 고려하면, 저는 매우 성공적이라고 생각합니다. 인텔이 옵테인 퍼시스턴트 메모리를 단종시킨 것은 아쉬운 일입니다. SSD 오프로딩이나 더 넓은 메모리 티어링 접근 방식을 포함한 최근의 로컬 추론 혁신 방향을 고려할 때, 현대 하드웨어 플랫폼에서 이런 특정 종류의 메모리 계층은 정말 흥미로웠을 것이기 때문입니다. 전반적으로 저는 이 옵테인 PMem 중심 빌드에 만족하며, 매우 큰 모델을 놀라울 정도로 수용 가능한 속도로 구동할 수 있게 해주었고, 그 과정 자체가 매우 교육적이었습니다.

부품:

- Intel Xeon Gold 6246 CPU
- TYAN S5630GMRE-CGN motherboard
- ASUS Dual GeForce RTX 3060 OC 12GB GPU
- 6x 32GB Samsung 2666MHz DDR4 ECC DRAM sticks
- 6x 128GB Intel Optane DCPMM PC4-2666 NMA1XBD128GQS persistent memory modules
- Western Digital WD SN850X 2TB M.2 2280 NVMe SSD
- ASRock Steel Legend SL-850G 850W 80 PLUS GOLD & Cybenetics PLATINUM Full Modular Power Supply
- Silverstone SST-GD08B (Black) Grandia Series Home Theater PC Case

이 요약이 즐거우셨길 바랍니다. 여기에 포함하지 못한 더 많은 세부 사항이 있으니, 빌드나 구성, 또는 부품 선택 이유에 대해 궁금한 점이 있다면 댓글로 자유롭게 질문해주세요. 또한 다른 분들도 LLM 추론을 위해 독특한 하드웨어나 빌드를 시도해본 적이 있다면 함께 논의하고 싶습니다!

주요 댓글

r/localllama

대규모 모델을 로컬에서 돌리는 시도는 흥미롭지만, 긴 TTFT와 높은 전력 소모 및 운영 비용 때문에 실용성에 대해서는 회의적인 반응이 많습니다.

306

Cascade Lake 코어 수 높은 걸로 바꾸면 성능 더 나올 듯. 8260 ES 버전인 QQ89 한번 써봐. Optane 스틱을 스토리지 모드로 해서 mmap 돌리면 더 빠를지도 모르겠는데, 메모리 모드 작동 방식 생각하면 오히려 느려질 수도 있음. 다들 알겠지만 LGA3647 관련해서 몇 가지 알아둘 게 있는데...

지식 공유 폼 미쳤다. 개추.

이 서브레딧에 1년 넘게 LGA3647 얘기했는데 이제야 좀 먹히네. 10년 된 플랫폼이지만 LLM용으로는 요즘 나오는 소비자용보다 훨씬 낫고 가격도 싸. homelab에서 5년째 쓰는 중인데 Epyc Roma/Milan이랑 비교해도 크게 안 밀림.

CPU 추천 고마워! 스토리지 모드는 처음 들어보는데 App Direct 모드 설정인가? 나중에 테스트해보고 결과 알려줄게.

메인보드 매뉴얼 읽어봐. 모드 설정하는 법 다 나와 있음. 좀 까다롭긴 해.

천천히 좀 해! 요즘 애들은 왜 이렇게 급한지.

진짜 개쩌는데 4 t/s는 도저히 못 참겠다.

토큰 생성 속도는 참을 만할지 몰라도 프롬프트 처리 속도는 절대 못 참을 듯.

방금 llama-bench 돌려봤는데 결과는 이래. pp512 | 16.44 ± 0.17, tg128 | 5.35 ± 0.03

아이고 ㅋㅋㅋ 10k 프롬프트 처리하는 데만 10분 넘게 걸리겠네. 1000토큰당 딱 1분 꼴이네.

맞아, 그게 이런 시스템들 다 죽이는 요소지. 사람들이 TTFT를 너무 간과하는 경향이 있는데, 그냥 채팅용 말고는 사실상 쓰기 불가능함. 난 3kt/s 프리필 나오는데도 캐시 관리 엄청 신경 써야 함 ㅋㅋ

부품 가격 정리: Xeon Gold 6246 약 250달러, 메인보드 약 400달러, 3060 12GB 약 280달러...

추론 중에 CPU랑 GPU 80% 정도 쓴다고 치면 대충 500W는 꾸준히 먹겠네. 4 tok/s면 125 J/tok이고, kWh당 28.8k 토큰인 셈이지. 0.35유로/kWh 기준으로 백만 토큰당 12유로 정도 나오는데... 3k 달러 들여서 Anthropic 수준 요금 내는 꼴이네.

128GB Optane 스틱은 50~60달러 정도고, 512GB는 200달러면 삼. CPU는 90달러 미만으로 24코어 엔지니어링 샘플 구하면 됨. Cascade Lake ES는 리테일 CPU랑 CPUID 같아서 아무 보드나 바이오스에서 다 돌아감. PCIe 슬롯 구성 신경 안 쓰면 300달러 미만으로 보드나 워크스테이션 통째로 살 수 있음. 워크스테이션으로 가면 케이스, 파워, 쿨러 같은 거 다 건너뛸 수 있고.

부품은 2025년 말에서 2026년 초 사이에 샀고 총 1900달러 정도 들었음.

지금 같이 볼 만한 글

r/vibecoding

Claude로 주말 동안 뚝딱 만든 "B2B SaaS" 좀 그만 팔아라

AI로 쉽게 만든 소프트웨어는 더 이상 경쟁 우위가 없으며, 이제는 코드 외의 차별점이 필수적이라는 지적.

25562

r/LocalLLaMA

Gemma 4 모델 추가 출시 예정

Gemma 4의 새로운 모델, 특히 120B급 대형 모델 출시에 대한 기대와 성능 논의가 활발함.

443102

r/ChatGPT

세상에.

ChatGPT의 답변을 보고 놀라워하는 작성자와 이를 유머러스하게 받아치거나 비꼬는 커뮤니티 반응들.

107550

커뮤니티 전체 보기