nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · 허깅페이스
핵심 요약
엔비디아가 공개한 550B 규모의 초거대 모델로, 엄청난 하드웨어 사양을 요구해 로컬 구동이 사실상 불가능합니다.
- 모델 사양 — 550B 파라미터와 LatentMoE 아키텍처 기반의 고성능 모델임
- 하드웨어 요구사항 — 최소 8x H200 등 기업용 GPU 클러스터가 필요함
- 주요 기능 — 다국어 지원 및 복잡한 추론과 에이전트 워크플로우에 최적화됨
- 로컬 구동 — 일반적인 개인용 환경에서는 실행이 불가능한 수준임
huggingface.co
원문 사이트로 이동
모델 요약
총 파라미터 550B (활성 55B) 아키텍처 LatentMoE - Mamba-2 + MoE + Attention 하이브리드, Multi-Token Prediction (MTP) 적용 컨텍스트 길이 최대 1M 토큰 최소 GPU 사양 8x GB200/B200/GB300/B300, 16x H100, 8x H200 지원 언어 영어, 프랑스어, 스페인어, 이탈리아어, 독일어, 일본어, 한국어, 힌디어, 브라질 포르투갈어, 중국어 용도 최첨단 추론, 복잡한 에이전트 워크플로우, 긴 문맥 분석, 도구 사용, 다국어 추론, 고난도 RAG 추론 모드 채팅 템플릿을 통해 설정 가능 ( enable_thinking=True/False ) 라이선스 OpenMDW License Agreement, version 1.1 출시일 2026년 6월 4일 Nemotron이 뭐야?
NVIDIA Nemotron™은 가중치, 학습 데이터, 레시피가 모두 공개된 오픈 모델 시리즈야. 특화된 AI 에이전트를 만드는 데 있어 압도적인 효율과 정확도를 보여주지.
설명
Nemotron-3-Ultra-550B-A55B-BF16은 NVIDIA가 만든 최첨단 거대 언어 모델(LLM)이야. 강력한 에이전트 기능, 추론 능력, 대화 성능을 갖추도록 설계됐지. 복잡한 다단계 에이전트 작업, 긴 문맥 분석, 코드·수학·과학 분야의 고난도 추론처럼 빡센 작업에 최적화돼 있어. 다른 모델들과 마찬가지로, 사용자 질문이나 과제를 받으면 먼저 추론 과정을 쫙 뽑아낸 다음에 최종 답변을 내놓는 방식이야. 모델의 추론 능력은 채팅 템플릿의 플래그를 통해 설정할 수 있어.
이 모델은 하이브리드 Latent Mixture-of-Experts (LatentMoE) 아키텍처를 채택했어. Mamba-2와 MoE 레이어를 섞고, 중간중간 Attention 레이어를 넣은 구조지. Super 모델처럼 Ultra 모델도 Multi-Token Prediction (MTP) 레이어를 넣어서 텍스트 생성 속도랑 품질을 다 잡았고, NVFP4 사전 학습 레시피를 써서 연산 효율을 극한으로 끌어올렸어. 활성 파라미터는 55B, 전체 파라미터는 550B야.
지원하는 언어는 영어, 프랑스어, 스페인어, 이탈리아어, 독일어, 일본어, 한국어, 힌디어, 브라질 포르투갈어, 중국어까지야.
이 모델은 상업적, 비상업적 용도로 바로 쓸 수 있어.
내 컴퓨터 사양으론 돌리기엔 너무 크네. 혹시 8xH200 쓰는 사람 있냐?


