r/LocalLLaMA•7일 전•532•70

Zai가 GLM-5.1 추론 네트워크 아키텍처를 교체했는데 성능 향상이 엄청나네요

핵심 요약

Zai가 칭화대와 협력해 개발한 ZCube 네트워크 아키텍처로 GPU 클러스터의 비용은 줄이고 추론 성능은 대폭 개선했습니다.

네트워크 아키텍처 혁신 — 기존 ROFT 대신 ZCube를 도입해 네트워크 병목 현상을 해결함
비용 절감 효과 — 스위치 및 광모듈 비용을 33% 절감하면서도 하드웨어 효율을 극대화함
추론 성능 향상 — GPU 처리량 15% 증가 및 첫 토큰 지연 시간 40.6% 단축 달성
기술적 해결책 — PD 분리형 추론 환경에서 발생하는 비대칭 트래픽과 PFC 백프레셔 문제를 해결함

최근 AI 인프라 쪽을 더 깊게 파고 있는데 Zai에서 나온 이 내용을 우연히 발견했어. GLM-5.1 코딩 추론을 실행하는 1,000개 GPU 클러스터의 네트워크 아키텍처를 기존 ROFT 설정에서 칭화대학교 및 HarnetsAI와 함께 개발한 ZCube라는 것으로 업그레이드했더라고.

실제 운영 환경에서의 수치는 다음과 같아:

스위치 및 광모듈 비용 33% 감소
GPU 추론 처리량 15% 증가
첫 토큰의 P99 테일 레이턴시 40.6% 감소

같은 GPU, 같은 소프트웨어 스택, 같은 모델을 사용했어. 오직 네트워크 아키텍처만 바꾼 거지.

그들이 해결하려던 실제 문제는 흥미로워. Prefill-Decode 분리형 추론에서는 KV 캐시 전송이 노드 간에 매우 비대칭적인 트래픽을 생성해. ROFT 토폴로지는 학습 워크로드에는 잘 대응하지만, PD 분리형 환경에서는 트래픽 패턴이 정적 레일 매핑과 맞지 않아서 특정 리프 스위치에 핫스팟이 생기고 PFC 백프레셔가 쌓이게 돼.

ZCube는 스파인 계층을 완전히 제거하고 두 스위치 그룹 간에 완전 이분 그래프 형태의 상호 연결을 사용하여 이 문제를 해결했어. ROFT가 설계상 피할 수 없었던 모든 종류의 혼잡 문제를 제거한 거지.

성능은 높이면서 비용을 절감했다는 점이 가장 눈에 띄어. 보통 더 좋은 네트워크 하드웨어를 쓰려면 돈을 더 써야 하잖아. 여기서는 하드웨어 비용을 3분의 1로 줄이면서도 같은 GPU에서 15% 더 많은 처리량을 얻어냈어.

주요 댓글

r/localllama

게시물이 인기를 얻어 디스코드에 소개되었다는 봇의 알림입니다.

298

비밀로 할 수도 있었을 텐데 공개해 줘서 좋네. OpenAI도 그냥 광고만 할 게 아니라 이런 논문을 더 많이 내줬으면 좋겠어.

OpenAI인데 소스도 닫고, 가중치도 닫고, 논문도 닫았네

투자자들 거품으로 돈 벌 생각에만 열려 있지

열려 있긴 한데 지금 꼬라지 보면 구글보다는 AOL에 훨씬 가까워 보이는데

차별화하려고 애쓰고는 있지만, 그래도 가진 게 많긴 해. 대중들 사이에서 인지도가 제일 높고, 대부분의 기업 관계자들은 여전히 chatGPT를 먼저 떠올리니까. OpenAI는 기업용으로 맞춘 제품들도 꽤 있고. 이제는 집중할 수 있는 애플리케이션 하나, 진짜 쓸모 있는 차별점이 필요해. Sora를 그냥 사용자한테 공개 안 하는 게 아니라 아예 닫아버린 건 진짜 의외였어. 디즈니 같은 곳을 겨냥한 툴로 계속 유지했으면...

내 기억이 맞다면 Antigravity는 얼마 전에 짤렸을걸

Antigravity CLI로 대체됐지. 솔직히 내 생각에 Gemini 모델들은 보통 개판이야. 물론 파라미터 지식은 많고 빠르긴 하지. 근데 말 그대로 hallucination이랑 아부 떠는 기계 수준이라 Anthropic 모델보다 훨씬 못해. LMArena 데이터로 사후 학습시키면 다 그렇게 되는 건가 싶기도 하고.

Antigravity 안 짤렸어, 그냥 업데이트된 거지. 구글은 지금 지구상에서 가장 수직 계열화가 잘 된 AI 기업이야. OpenAI는 끝났고, 지금은 Claude가 잘나가는 것 같지만 모델 성능 향상이 정체되면 결국 가격 경쟁력 때문에 기업 시장에서 구글한테 밀릴 거야(구글이 Anthropic 지분을 가지고 있으니 딱히 신경 안 쓰겠지만). 물론 구글의 제품 관리 쪽은 완전히 엉망진창이지.

구글이 뭘 하는 건지 잘 모르겠어. 그냥 구글답게 ADHD 걸린 회사처럼 여기저기 다 쑤시고 다니는 것 같아. 제품들은 더 불안정해지고 있고. 지난 6개월 동안 구글 모바일 제품들은 전부 다 나빠졌어. 버그, 충돌, 불안정성까지! AI는 좋을지 몰라도 모바일 쪽은 망해가고 있어, 적어도 나한테는 그래. 지난 3~4주 동안은 불안정성이 진짜 개판이 됐어.

그게 안드로이드랑 앱에 AI 기능을 억지로 쑤셔 넣는 거랑 직접적인 연관이 있다고 봐. 그러니까 결론은 ADHD 걸린 회사처럼 여기저기 다 쑤시고 다닌다는 거지. 뭐든 80%만 해놓고는 정신 팔려서 다른 걸로 넘어가 버려. 최고의 AI랑 최악의 AI를 동시에 가지고 있는 꼴이지. Gemini가 최고의 LLM은 절대 아니지만, 그렇다고 구글이 자기들이 가진 최고의 LLM을 서비스하고 있는 것 같지도 않아. 아니면 적어도 서비스 중인 Gemini 버전이 성능 제한이 걸려 있거나. 새로운 모델 나올 때마다 거의 항상...

솔직히 이거 절반은 실제 수치 나오기 전까지는 투자자들 낚으려는 미끼지.

“Alt”man이 만든 거

Saltman(소금쟁이)

Z.ai는 아마 페이스북한테 배운 모양이지. 물론 FB가 이제 오픈 모델 같은 건 안 하지만, 사람들이 읽을 수 있게 데이터센터 바이블을 작성하는 측면에서는 사실 그들에게 넘겨줘야 하는 게 맞거든.

작성하신 글이 인기를 얻어서 저희 디스코드에 소개되었습니다! 확인하러 오세요! 기여에 대한 보상으로 특별 플레어도 드렸습니다. 글 올려주셔서 감사합니다! 저는 봇이며 이 작업은 자동으로 수행되었습니다.