DeepSeek V4가 17배 저렴하다는 걸 보고 클라우드와 로컬 사용량을 직접 측정해 봤는데, 결과가 어처구니없네요.
핵심 요약
DeepSeek V4의 가성비를 계기로 로컬과 클라우드 모델의 효율성을 직접 측정해 본 결과, 일상적인 코딩 작업의 65%는 로컬 모델로 충분하다는 결론을 얻었습니다.
- 비용 효율성 — 로컬 모델 활용으로 API 비용을 85달러에서 22달러로 대폭 절감함.
- 작업 라우팅 — 단순 코딩은 로컬, 복잡한 아키텍처 설계는 클라우드로 분리하여 효율을 극대화함.
- 측정의 중요성 — 막연한 클라우드 의존에서 벗어나 실제 필요한 작업량을 측정하는 것이 핵심임.
- 모델 성능 — 로컬 모델도 65%의 일상적인 코딩 작업에서는 클라우드와 동일한 성능을 보여줌.
Foodtruck 벤치마크 포스트에서 DeepSeek V4가 GPT-5.2와 대등하면서도 17배 저렴하다는 걸 보고 생각이 좀 많아졌습니다. 만약 최첨단 클라우드 모델들이 동일한 품질 대비 이렇게 비싸다면, 제 일상 업무 중 도대체 얼마나 많은 부분이 클라우드가 필요한 걸까요?
10일 동안 제 평소 코딩 워크플로우를 실행해 봤습니다. 모든 작업을 기록했습니다: 작업 내용, 입력/출력 토큰 수, 그리고 로컬 Qwen 3.6 27b(3090 사용)로 처리 가능했는지 여부요. 벤치마크는 사용하지 않았고, 그냥 150개의 작업을 무작위로 뽑아 양쪽에서 다시 실행해 봤습니다.
결과:
-
파일 읽기, 프로젝트 스캔, "이 코드 설명해 줘": 로컬이 97%의 확률로 클라우드와 동일했습니다. 제 작업량의 35%를 차지하죠. 여기서 클라우드 비용을 내는 건 그냥 돈을 버리는 겁니다.
-
테스트 작성, 상용구 코드(boilerplate), 단일 파일 수정: 로컬이 88% 일치했습니다. 작업의 30%를 차지하죠. 12%의 실패는 코드 리뷰에서 충분히 잡을 수 있는 수준이었습니다.
-
다중 파일 컨텍스트를 활용한 디버깅: 로컬이 61%로 떨어졌습니다. 클라우드가 여전히 낫지만 17배의 가격을 지불할 정도는 아닙니다. 제 업무의 20% 정도입니다.
-
아키텍처 결정, 5개 이상의 파일에 걸친 복잡한 리팩토링: 로컬은 29%였습니다. 여기선 클라우드가 확실히 필요합니다. 제 작업의 15%뿐이죠.
결론적으로 제 일상 코딩 업무의 65%는 전기세만 내는 모델로도 동일하게 돌아갑니다. 나머지 20%는 가끔 발생하는 오류를 감수할 만큼 충분히 비슷하고요. 오직 15%만이 클라우드 비용을 정당화합니다.
그래서 작업 유형별로 라우팅을 시작했습니다. 앞의 두 유형은 로컬, 뒤의 두 유형은 클라우드를 썼죠. 제 API 청구액은 한 달 85달러에서 22달러로 줄었고, 3090은 아무것도 안 하고 놀고 있었는데 드디어 제 역할을 하게 됐습니다.
DeepSeek 포스트의 말대로 가격 차이는 미친 수준이지만, 더 큰 통찰은 우리 대부분이 하는 일의 대부분은 클라우드가 필요 없다는 겁니다. 그냥 우리가 측정하기 귀찮아할 뿐이죠.

