5월에 11억 5천만 입력 토큰을 썼습니다 🫣 배운 점 공유합니다
핵심 요약
엄청난 토큰 비용을 지불하며 깨달은 토큰 절약 팁과 최적화 전략을 공유합니다.
- 토큰 개념 — 단어, 문장 부호, 공백을 포함하는 언어 모델의 기본 처리 단위임
- 비용 절감 전략 — 모델 선택, 프롬프트 캐싱, 출력 토큰 최소화가 핵심임
- JSON 최적화 — 구조화된 데이터는 일반 텍스트보다 토큰을 2배 더 소모함
- 예산 관리 — 무한 루프 방지를 위해 반드시 예산 한도와 알림 설정을 해야 함
지난 몇 달 동안 토큰 11억 5천만 개를 태워먹으면서 토큰이 대체 뭔지, 어떻게 계산되는지, 그리고 어떻게 하면 돈을 덜 쓸 수 있는지 제대로 배웠다.
아래에 몇 가지 팁을 공유한다.
도대체 토큰이 뭐냐고?
토큰은 언어의 레고 블록 같은 거다. 블록 하나가 단어일 수도 있고, 단어의 일부나 문장 부호, 혹은 공백일 수도 있다.
간단한 예시:
-
"OpenAI" = 1 토큰
-
"OpenAI's" = 2 토큰 (아포스트로피 s가 따로 떨어져 나감)
-
"Cómo estás" = 5 토큰 (영어 아닌 언어는 토큰화 효율이 더 구림)
대충 감 잡는 법:
-
1 토큰 ≈ 영어 4글자
-
100 토큰 ≈ 75단어
Claude 토크나이저 써서 프롬프트 확인해 봐라.
대부분이 놓치는 사실 하나: JSON은 토큰 잡아먹는 하마다. 대괄호, 따옴표, 콜론, 쉼표 하나하나가 다 토큰을 쳐먹는다. 콤팩트한 JSON 객체는 똑같은 내용의 일반 텍스트보다 토큰을 대략 2배 더 쓴다. 구조화된 데이터를 컨텍스트로 넘길 거면 그냥 일반 텍스트나 마크다운 표로 보내는 게 훨씬 싸게 먹힌다.
돈 안 쓰고 버티는 법 — 전체 리스트
- 모델 제대로 골라라 (뻔한 소리 같지만 다들 무시하더라)
현재 Claude 가격 (100만 토큰당): Haiku 4.5는 $1/$5, Sonnet 4.6은 $3/$15, Opus 4.6은 $5/$25다. 배치 처리를 쓰면 모든 모델에서 50% 할인된다 (결과 받기까지 최대 24시간 걸릴 수 있는데, 보통 2~3시간이면 온다).
https://platform.claude.com/docs/en/build-with-claude/batch-processing
비교하자면 OpenAI는 mini랑 o1 사이의 가격 차이가 훨씬 극단적이다. 대부분의 작업은 굳이 최상위 모델 안 써도 된다. 모델 사용량 자주 점검해라. 6개월 전엔 성능 구려서 못 썼던 모델들도 지금은 충분히 쓸만할 수도 있다.
OpenAI, Claude, DeepSeek, Gemini를 한 인터페이스에서 다 쓰고 싶으면 OpenRouter 쓰는 거 추천한다.
- 프롬프트 캐싱
Claude의 경우 프롬프트 캐싱을 쓰면 캐시된 입력 비용을 90%까지 줄일 수 있다. 긴 시스템 프롬프트를 쓴다면 가성비 면에서 이거만 한 게 없다.
기본 원칙은 여전하다: 변하는 내용은 프롬프트 맨 뒤에 넣어라.
근데 바뀐 게 하나 있다. Anthropic이 2026년 초에 프롬프트 캐시 TTL을 60분에서 5분으로 조용히 줄여버렸다. 많은 실무 환경에서 이 변경 하나 때문에 실제 비용이 30~60% 늘어났다. 최근에 캐시 적중률 확인 안 해봤으면 지금 당장 여기서 확인해라: https://platform.claude.com/usage/cache


