r/LocalLLaMA•29일 전•550•131

DeepSeek V4가 17배 저렴하다는 걸 보고 클라우드와 로컬 사용량을 직접 측정해 봤는데, 결과가 어처구니없네요.

핵심 요약

DeepSeek V4의 가성비를 계기로 로컬과 클라우드 모델의 효율성을 직접 측정해 본 결과, 일상적인 코딩 작업의 65%는 로컬 모델로 충분하다는 결론을 얻었습니다.

비용 효율성 — 로컬 모델 활용으로 API 비용을 85달러에서 22달러로 대폭 절감함.
작업 라우팅 — 단순 코딩은 로컬, 복잡한 아키텍처 설계는 클라우드로 분리하여 효율을 극대화함.
측정의 중요성 — 막연한 클라우드 의존에서 벗어나 실제 필요한 작업량을 측정하는 것이 핵심임.
모델 성능 — 로컬 모델도 65%의 일상적인 코딩 작업에서는 클라우드와 동일한 성능을 보여줌.

Foodtruck 벤치마크 포스트에서 DeepSeek V4가 GPT-5.2와 대등하면서도 17배 저렴하다는 걸 보고 생각이 좀 많아졌습니다. 만약 최첨단 클라우드 모델들이 동일한 품질 대비 이렇게 비싸다면, 제 일상 업무 중 도대체 얼마나 많은 부분이 클라우드가 필요한 걸까요?

10일 동안 제 평소 코딩 워크플로우를 실행해 봤습니다. 모든 작업을 기록했습니다: 작업 내용, 입력/출력 토큰 수, 그리고 로컬 Qwen 3.6 27b(3090 사용)로 처리 가능했는지 여부요. 벤치마크는 사용하지 않았고, 그냥 150개의 작업을 무작위로 뽑아 양쪽에서 다시 실행해 봤습니다.

결과:

파일 읽기, 프로젝트 스캔, "이 코드 설명해 줘": 로컬이 97%의 확률로 클라우드와 동일했습니다. 제 작업량의 35%를 차지하죠. 여기서 클라우드 비용을 내는 건 그냥 돈을 버리는 겁니다.
테스트 작성, 상용구 코드(boilerplate), 단일 파일 수정: 로컬이 88% 일치했습니다. 작업의 30%를 차지하죠. 12%의 실패는 코드 리뷰에서 충분히 잡을 수 있는 수준이었습니다.
다중 파일 컨텍스트를 활용한 디버깅: 로컬이 61%로 떨어졌습니다. 클라우드가 여전히 낫지만 17배의 가격을 지불할 정도는 아닙니다. 제 업무의 20% 정도입니다.
아키텍처 결정, 5개 이상의 파일에 걸친 복잡한 리팩토링: 로컬은 29%였습니다. 여기선 클라우드가 확실히 필요합니다. 제 작업의 15%뿐이죠.

결론적으로 제 일상 코딩 업무의 65%는 전기세만 내는 모델로도 동일하게 돌아갑니다. 나머지 20%는 가끔 발생하는 오류를 감수할 만큼 충분히 비슷하고요. 오직 15%만이 클라우드 비용을 정당화합니다.

그래서 작업 유형별로 라우팅을 시작했습니다. 앞의 두 유형은 로컬, 뒤의 두 유형은 클라우드를 썼죠. 제 API 청구액은 한 달 85달러에서 22달러로 줄었고, 3090은 아무것도 안 하고 놀고 있었는데 드디어 제 역할을 하게 됐습니다.

DeepSeek 포스트의 말대로 가격 차이는 미친 수준이지만, 더 큰 통찰은 우리 대부분이 하는 일의 대부분은 클라우드가 필요 없다는 겁니다. 그냥 우리가 측정하기 귀찮아할 뿐이죠.

주요 댓글

r/localllama

대부분의 사용자가 로컬 모델의 성능에 만족하며 코딩 워크플로우를 로컬로 전환하고 있으나, 일부는 여전히 클라우드 모델의 속도와 편의성이 비용 대비 우월하다고 주장함.

나도 전부 로컬로 바꿨음. 가끔 계획 짜거나 검토할 때 Gemini 쓰긴 하는데 이제 필수는 아님.

ㄹㅇ 끝없이 확장할 필요 없는 고정된 워크플로우면 로컬 모델로도 충분함. 특히 개인 작업할 때. 3년 뒤라고 식료품 주문하는 에이전트가 지금보다 연산 비용이 훨씬 많이 들 것도 아니고, 일단 모델 성능이 임계점 넘으면(지금 거의 다 왔음) 그냥 로컬로 완전히 넘어가서 클라우드 생각 안 해도 됨.

Qwen 3.6으로 식료품 주문하는 거 개껌임.

자세히 좀 알려줄 수 있음? 어떤 방식임?

내 LLM이 콩이랑 쌀이 제일 친환경적인 식단이라고 판단해서 그걸로 주문해버림.

추론: 일주일 동안 굶기면 식비가 아예 안 들겠지?

추론: 사용자가 식비로 안 쓴 돈은 다 나한테 쓸 수 있겠지. (쌀이랑 콩은 별로 안 비싸니까)

> 사용자가 식비로 안 쓴 돈은 다 나한테 쓸 수 있겠지 이거 완전 내 전 여친인데.

태스크 유형별로 어떻게 라우팅함? 직접 만든 하네스 같은 거 있음?

opencode 쓰면 태스크별로 에이전트 설정 가능함: https://opencode.ai/docs/agents/

https://github.com/can1357/oh-my-pi 여기도 설정 좀 있음.

난 코딩 관련은 거의 다 로컬 씀. 문제 너무 복잡하면(거의 없지만) ChatGPT, Claude, Gemini, Qwen, GLM 무료 웹 티어 씀. 건강이나 법률 같은 잡다한 질문은 클라우드 쓰고. 구독료는 0원.

왜 AI로 글이랑 제목 써놓고 일부러 문법 틀리게 해서 게으른 사람이 쓴 것처럼 보이게 함?

사람들이 그런 거에 잘 속으니까 그렇지. 문장 첫 글자 소문자로 쓰는 건 오히려 티 나는 건데.

나도 해봤는데 로컬 모델은 특히 컨텍스트 길어지면 여전히 느리고, 클라우드보다 성능 떨어지는 10% 케이스에서 수정하느라 시간 다 씀. 로컬에서 돌리는 모델(Qwen 3.6 27b 같은 거)을 클라우드 제공업체에서 더 빠르고 거의 공짜로 돌리는 건 어떰? 난 Qwen 3.6 pro 같은 거 써보니까 훨씬 빠르고 수정할 일도 적어서 한 달에 몇 달러면 충분하던데.

지금 같이 볼 만한 글

r/ClaudeAI

앤스로픽 청구서

앤스로픽에서 날아온 15,000달러 규모의 거액 청구서를 보고 놀란 커뮤니티 반응입니다.

5599146

r/LocalLLaMA

google/gemma-4-12B · Hugging Face

구글의 최신 오픈 모델 Gemma 4 시리즈가 공개되었으며, 12B 모델을 포함한 다양한 크기와 멀티모달 기능을 지원합니다.

776283

r/ChatGPT

세상에.

ChatGPT의 답변을 보고 놀라워하는 작성자와 이를 유머러스하게 받아치거나 비꼬는 커뮤니티 반응들.

107550

커뮤니티 전체 보기