Zai가 GLM-5.1 추론 네트워크 아키텍처를 교체했는데 성능 향상이 엄청나네요
핵심 요약
Zai가 칭화대와 협력해 개발한 ZCube 네트워크 아키텍처로 GPU 클러스터의 비용은 줄이고 추론 성능은 대폭 개선했습니다.
- 네트워크 아키텍처 혁신 — 기존 ROFT 대신 ZCube를 도입해 네트워크 병목 현상을 해결함
- 비용 절감 효과 — 스위치 및 광모듈 비용을 33% 절감하면서도 하드웨어 효율을 극대화함
- 추론 성능 향상 — GPU 처리량 15% 증가 및 첫 토큰 지연 시간 40.6% 단축 달성
- 기술적 해결책 — PD 분리형 추론 환경에서 발생하는 비대칭 트래픽과 PFC 백프레셔 문제를 해결함
최근 AI 인프라 쪽을 더 깊게 파고 있는데 Zai에서 나온 이 내용을 우연히 발견했어. GLM-5.1 코딩 추론을 실행하는 1,000개 GPU 클러스터의 네트워크 아키텍처를 기존 ROFT 설정에서 칭화대학교 및 HarnetsAI와 함께 개발한 ZCube라는 것으로 업그레이드했더라고.
실제 운영 환경에서의 수치는 다음과 같아:
-
스위치 및 광모듈 비용 33% 감소
-
GPU 추론 처리량 15% 증가
-
첫 토큰의 P99 테일 레이턴시 40.6% 감소
같은 GPU, 같은 소프트웨어 스택, 같은 모델을 사용했어. 오직 네트워크 아키텍처만 바꾼 거지.
그들이 해결하려던 실제 문제는 흥미로워. Prefill-Decode 분리형 추론에서는 KV 캐시 전송이 노드 간에 매우 비대칭적인 트래픽을 생성해. ROFT 토폴로지는 학습 워크로드에는 잘 대응하지만, PD 분리형 환경에서는 트래픽 패턴이 정적 레일 매핑과 맞지 않아서 특정 리프 스위치에 핫스팟이 생기고 PFC 백프레셔가 쌓이게 돼.
ZCube는 스파인 계층을 완전히 제거하고 두 스위치 그룹 간에 완전 이분 그래프 형태의 상호 연결을 사용하여 이 문제를 해결했어. ROFT가 설계상 피할 수 없었던 모든 종류의 혼잡 문제를 제거한 거지.
성능은 높이면서 비용을 절감했다는 점이 가장 눈에 띄어. 보통 더 좋은 네트워크 하드웨어를 쓰려면 돈을 더 써야 하잖아. 여기서는 하드웨어 비용을 3분의 1로 줄이면서도 같은 GPU에서 15% 더 많은 처리량을 얻어냈어.


