중국 AI 연구소 DeepSeek이 지난해 12월 V3.2(및 V3.2 Speciale)를 공개한 데 이어, 많은 기대를 받아온 V4 시리즈의 첫 모델을 두 가지 프리뷰 형태로 출시했습니다. 바로 DeepSeek-V4-Pro와 DeepSeek-V4-Flash입니다.
두 모델 모두 100만 토큰 컨텍스트를 지원하는 Mixture of Experts 구조입니다. Pro는 총 파라미터 1.6T에 활성 파라미터 49B이며, Flash는 총 284B에 활성 파라미터 13B입니다. 라이선스는 표준 MIT 라이선스를 사용합니다.
이로써 DeepSeek-V4-Pro는 현재 공개된 가중치 모델 중 가장 큰 규모가 됐습니다. Kimi K2.6(1.1T), GLM-5.1(754B)보다 크고, DeepSeek V3.2(685B)와 비교하면 두 배가 넘는 규모입니다.
Hugging Face 기준 용량은 Pro가 865GB, Flash가 160GB입니다. 가볍게 양자화한 Flash 모델은 제 128GB M5 맥북 프로에서 실행할 수 있을 것 같습니다. Pro 모델은 필요한 활성 전문가(expert)만 디스크에서 스트리밍하는 방식이라면 가능할 수도 있겠고요.
우선 OpenRouter와 llm-openrouter를 이용해 두 모델을 직접 테스트해봤습니다.
llm install llm-openrouter
llm openrouter refresh
llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle'
먼저 DeepSeek-V4-Flash가 생성한 펠리컨입니다.

그리고 DeepSeek-V4-Pro가 생성한 펠리컨입니다.

비교를 원한다면 지난 12월 DeepSeek V3.2, 8월 V3.1, 2025년 3월 V3-0324에서 생성한 펠리컨도 함께 살펴보세요.
펠리컨 생성 결과도 꽤 괜찮지만, 이번 발표에서 진짜 주목할 부분은 가격입니다. DeepSeek V4는 매우, 매우 저렴한 모델입니다.
DeepSeek 가격 페이지를 보면, Flash는 입력 $0.14/백만 토큰, 출력 $0.28/백만 토큰이며, Pro는 입력 $1.74/백만 토큰, 출력 $3.48/백만 토큰입니다.
Gemini, OpenAI, Anthropic의 프론티어 모델들과 비교한 표입니다.
| 모델 | 입력 ($/백만) | 출력 ($/백만) |
|---|---|---|
| DeepSeek V4 Flash | $0.14 | $0.28 |
| GPT-5.4 Nano | $0.20 | $1.25 |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 |
| Gemini 3 Flash Preview | $0.50 | $3 |
| GPT-5.4 Mini | $0.75 | $4.50 |
| Claude Haiku 4.5 | $1 | $5 |
| DeepSeek V4 Pro | $1.74 | $3.48 |
| Gemini 3.1 Pro | $2 | $12 |
| GPT-5.4 | $2.50 | $15 |
| Claude Sonnet 4.6 | $3 | $15 |
| Claude Opus 4.7 | $5 | $25 |
| GPT-5.5 | $5 | $30 |
DeepSeek-V4-Flash는 소형 모델 중 가장 저렴하며, OpenAI의 GPT-5.4 Nano보다도 낮은 가격입니다. DeepSeek-V4-Pro는 대형 프론티어 모델 중 가장 저렴합니다.
이처럼 낮은 가격이 가능한 이유는 DeepSeek 논문에서 확인할 수 있습니다. 이번 릴리스에서 효율성, 특히 긴 컨텍스트 프롬프트 처리에 상당한 공을 들였기 때문입니다.
100만 토큰 컨텍스트 환경에서, 활성 파라미터 수가 더 많은 DeepSeek-V4-Pro조차 DeepSeek-V3.2 대비 단일 토큰 FLOPs(FP8 등가 기준)는 27%, KV 캐시 크기는 10% 수준에 불과합니다. 활성 파라미터 수가 더 적은 DeepSeek-V4-Flash는 효율성을 한층 더 끌어올려, 같은 환경에서 V3.2 대비 단일 토큰 FLOPs 10%, KV 캐시 크기 7%를 달성했습니다.
DeepSeek이 논문에서 직접 공개한 벤치마크에 따르면 Pro 모델은 다른 프론티어 모델들과 경쟁할 만한 수준이지만, 다음과 같은 단서가 붙어 있습니다.
추론 토큰을 확장한 DeepSeek-V4-Pro-Max는 표준 추론 벤치마크에서 GPT-5.2와 Gemini-3.0-Pro를 상회하는 성능을 보입니다. 다만 GPT-5.4 및 Gemini-3.1-Pro에는 소폭 못 미치는 수준으로, 현재의 최첨단 프론티어 모델 대비 약 3~6개월 정도의 개발 격차가 있는 것으로 보입니다.
Unsloth 팀이 곧 양자화 버전을 공개할 것으로 예상되는 만큼, huggingface.co/unsloth/models를 주시하고 있습니다. Flash 모델이 제 로컬 머신에서 얼마나 잘 돌아가는지 직접 확인해보는 게 기대됩니다.
이 글은 블로그의 장문 아티클만 표시한 것입니다. 모든 포스트를 받아보려면 /atom/everything/을 구독하거나, 다른 구독 옵션을 확인해보세요.