2026년 프로덕션 AI의 현주소를 짚어봅니다. 수백 개의 모델과 수십 조 개의 토큰에 걸친 7개월간의 AI Gateway 트래픽 데이터를 바탕으로 합니다.
어떤 AI 모델이 최선이냐고 물으면, 잉크가 마르기도 전에 답이 바뀐다. 매주 새 모델이 쏟아지는 업계의 현실이다.
벤치마크마다 측정하는 경쟁이 다르고, 경쟁마다 우승자가 따로 있다. 하지만 Vercel은 프로덕션 워크로드를 통해 업계를 독자적인 시각으로 바라본다. AI Gateway는 실제 애플리케이션과 에이전트를 통해 수백 개의 모델에 걸쳐 수십 조 개의 토큰을 처리한다.
현재 우리가 파악한 내용:
단가가 높음에도 Anthropic이 지출 기준 1위, 볼륨 기준은 Google이 선두
오픈소스 모델이 주목받고 있지만, 특정 랩에 대한 충성도는 없다
최근 모델 업데이트 이후 OpenAI의 지출 점유율이 빠르게 증가
대용량 워크로드는 평균 30개 이상의 모델에 분산 라우팅
에이전틱 워크로드가 전체 토큰 볼륨의 59% 차지 (6개월 만에 2배 증가)
이 보고서는 AI Gateway의 7개월 치 프로덕션 트래픽 데이터를 바탕으로 하며, 20만 개 이상의 고유 팀의 사용 현황을 담고 있다.
비용과 볼륨 순위가 엇갈리는 이유는, 같은 고객이라도 두 지표가 서로 다른 워크로드를 측정하기 때문이다.
2026년 4월 지출 기준으로 Anthropic이 61%, Google이 21%, OpenAI가 12%를 차지했다.
토큰 볼륨 기준으로는 순위가 뒤집힌다. 4월 AI Gateway 트래픽 중 38%가 Google로, 26%가 Anthropic으로, 13%가 OpenAI로, 10%가 xAI로 라우팅됐다. 나머지는 소규모 랩들이 나눠 가졌다.
일부 모델은 낮은 토큰 단가로 대규모 볼륨을 처리하는 데 강점이 있고, 다른 모델은 품질이 중요한 작업에만 적합할 만큼 가격이 높다. 즉, 서로 다른 모델들은 같은 요청을 놓고 경쟁하지 않는다. 총합해서 보면 동일한 고객층이 두 리더보드 모두에 걸쳐 있다. 프리미엄 추론 호출은 Claude Opus로, 저렴하고 빠른 호출은 Gemini Flash로 향한다. 지출은 중요도가 높은 호출을 따라가고, 볼륨은 중요도가 낮은 호출을 따라가며, 각 랩은 동일한 애플리케이션의 서로 다른 계층을 담당한다.
볼륨과 지출의 관계는 랩 수준에서도 빠르게 변한다. 몇 가지 구체적인 신호를 살펴보면:
Gemini Flash 덕분에 Google이 적은 지출 점유율로 볼륨 1위를 차지
Claude Opus가 Anthropic을 Google보다 낮은 볼륨으로도 지출 1위로 견인
GPT-5.4/5.5 출시 이후 OpenAI의 지출 점유율이 3월 대비 4월에 3배로 증가
Gemini Flash 사용량이 확대되면서 Google의 지출 점유율이 3월 8%에서 4월 21%로 상승
이 비용/볼륨의 격차는 특정 워크로드 유형 안에서도 더 세밀하게 나타난다:
개인 비서는 토큰 볼륨의 40%를 차지하면서 비용은 20%에 그침
코딩 에이전트는 토큰 20%에 비용 22%로 대체로 균형을 이룸
백오피스 에이전트는 토큰 15%에 비용 6%로 운영
앱 생성은 토큰 11%에 비용 7%로 운영
워크로드의 토큰당 지출은 해당 유스케이스에서 오답이 얼마나 비싼 대가를 치르는지에 따라 결정된다. 개인 비서는 실수가 개별 사용자에게만 영향을 미치고 빠르게 수정되기 때문에 저렴하고 빠른 모델로 충분하다. 반면 백오피스 워크플로는 오류가 법적·재무적·운영적 리스크로 이어질 수 있어, 호출당 비용 절감보다 강력한 추론 능력에 투자하는 게 합리적이다. 토큰당 경제성은 일종의 리스크 지도다. 실수의 대가가 클수록 토큰당 더 많은 비용을 지출한다.
이 패턴은 더 넓은 B2C/B2B 구분에서도 동일하게 나타난다. B2C 애플리케이션은 저비용 호출을 대량으로 발생시키는 반면, B2B 애플리케이션은 더 적지만 비용이 높은 호출을 실행한다. 토큰당 기준으로 B2B는 B2C보다 약 2배의 비용이 든다.
유스케이스별로 데이터를 분석하면 공급자 시장이 파편화되어 있음을 알 수 있다:
Anthropic은 소프트웨어 개발 분야에서 두드러진 우위를 보임
Google은 컨슈머 분야에 집중
OpenAI는 가장 균등하게 분산
xAI 등은 코딩, 컨슈머, 롱테일 유스케이스에 걸쳐 분산
Anthropic의 패턴은 중요도가 높은 계층에 집중하는 것이다. 워크로드가 백오피스에서 컨슈머로 이동할수록 Anthropic의 토큰 점유율은 71%에서 7%로 급락한다. 반면 비용 점유율은 훨씬 완만한 곡선을 그리며 네 개 카테고리 중 세 곳에서 선두를 유지한다. 얼마나 많은 볼륨이 지나가든 상관없이, 정확한 답이 요구되는 곳에 수익이 집중된다.
Google은 정반대 형태다. Google의 입지는 컨슈머 분야에 집중되어 있으며, 이 영역에서 Gemini Flash가 토큰의 28%를 15%의 비용으로 처리한다. 그 외 비용 차트에는 거의 등장하지 않는다. 이 포지션은 Flash 채택률에 따라 오르내리는 단일 SKU 도박이다.
xAI는 가격 쐐기 전략을 취하고 있다. Grok은 개발 토큰의 20%, 아웃리치 토큰의 18%를 각각 훨씬 낮은 비용 점유율로 처리한다. xAI의 강점은 가격 대비 품질이며, 다른 업체가 가격을 맞추는 순간 이 쐐기는 사라진다.
OpenAI는 네 곳 중 가장 균형 잡힌 형태로, 개발 비용의 6%, 컨슈머 비용의 18%, 아웃리치 비용의 28%를 각각 담당한다. 어떤 단일 계층도 OpenAI 전체 점유율을 좌우하지 않는 만큼, 특정 계층에서의 충격에 가장 덜 취약한 곳이 바로 OpenAI다.
Kimi, MiniMax, GLM 같은 오픈 웨이트 계열 모델들은 비용 상한이 낮은 컨슈머와 개발 영역을 순환한다. 이들의 비용 점유율은 작지만, 컨슈머와 개발 부문에서의 토큰 점유율은 상당해, 비용만으로 시장을 바라보면 이들의 존재를 과소평가하게 된다.
전체 시장을 지배하는 단일 공급자가 없는 이유는, 지배적인 단일 유스케이스 자체가 없기 때문이다. 올바른 질문은 "AI에서 누가 이기고 있는가?"가 아니라 "내가 관심 갖는 유스케이스에서 어떤 모델이 이기고 있는가?"다. 블렌디드 차트에서 가장 비슷해 보이는 랩들도 실은 동일한 스택의 서로 다른 계층을 놓고 경쟁하고 있다.
이 모든 변화의 이면에서 프로덕션 AI 요청의 형태 자체가 달라지고 있다. 2026년 4월, AI Gateway 요청의 22.2%가 툴 호출로 끝났는데, 이는 2025년 10월의 11.4%에서 크게 오른 수치다. 토큰 기준으로는 변화가 더 두드러진다. 전체 토큰의 58.9%가 현재 툴 호출 요청에 포함되어 있으며, 6개월 전 31.6%에서 크게 증가했다.
두 지표 모두에서 에이전틱 비중은 반년 만에 약 2배로 늘었지만, 더 주목해야 할 수치는 두 비중 사이의 격차다. 요청의 22.2%가 토큰의 58.9%를 차지한다는 말은, 툴을 사용하는 요청이 그렇지 않은 요청보다 토큰 소비량이 약 2.6배 많다는 뜻이다. AI의 비용 구조가 채팅 형태에서 에이전트 형태로 이동한 것인데, 표면적인 요청 수는 거의 변하지 않았다.
함수 실행이든 API 호출이든 데이터베이스 쿼리든 코드 실행이든, 모든 종류의 왕복은 동일한 미터로 청구된다. 따라서 툴 호출을 10번 발생시키는 에이전트는 채팅의 약 10배에 달하는 토큰을 청구한다. 채팅이 프롬프트당 한 번의 왕복을 청구한다면, 에이전트는 그 연쇄 전체를 청구하는 셈이다.
규모가 커지면 멀티 모델은 선택이 아닌 표준 에이전트 아키텍처가 된다.
1K~10K 요청을 처리하는 팀은 평균 3개의 모델을 사용한다. 10M+ 요청 구간에 이르면 평균 35개 모델이 상시 운용된다. 1M~10M 구간의 18개에서 10M+ 구간의 35개로 치솟는 지점이 변곡점이다.
35개 모델로 구성된 플리트는 라우팅 그래프 형태로 운영된다. 의도 감지에는 저렴한 분류기, 추론 단계에는 프론티어 모델, 검색에는 임베딩 모델, 요약에는 빠른 모델, 스크린샷 처리에는 비전 모델이 각각 배치된다. 이 모든 모델은 언제든 교체 가능하다. 공급자가 가격을 올리거나 품질이 저하되거나 장애가 발생하면, 트래픽은 몇 시간 안에 나머지 모델로 재분배된다. 리더보드 지출의 대부분을 만들어내는 규모에서 랩을 전환하는 일은 벤더 마이그레이션보다 설정 변경에 가깝다. 요청 볼륨 곡선의 상단으로 올라갈수록 랩 락인에 대한 통념은 정반대가 된다.
이 플리트 설계 방식은 신규 릴리스가 얼마나 빠르게 흡수되는지도 설명한다. 모델 패밀리 내에서 새 버전이 출시되면, 트래픽은 몇 주 안에 해당 버전으로 이동한다.
Claude Sonnet 4.6은 출시 후 첫 한 달 만에 Sonnet 패밀리 점유율의 대부분을 흡수했다.
Opus 패밀리도 현재 동일한 양상을 보이고 있으며, Claude Opus 4.7이 거의 동일한 곡선으로 Opus 4.6의 점유율을 빼앗고 있다.
이전 모델들은 두 기간 내내 AI Gateway에서 활성 상태로 라우팅 가능했지만, 팀들은 어차피 이동했다. 마이그레이션은 설정 변경에 불과하며, 랩들은 더 이상 자사 제품군의 업그레이드 일정을 주도하지 못한다.
AI Gateway 요청의 약 3.5%는 폴백(fallback) 이후에 완료된다. 초기 라우트에서 오류, 속도 제한, 타임아웃이 발생했을 때, 게이트웨이가 정상적인 대안으로 요청을 빠르게 재발행해 사용자가 여전히 성공적인 응답을 받을 수 있도록 한다는 의미다.
토큰 기준 복구율은 5.1%, 비용 기준으로는 4.9%다. 토큰 가중치 및 비용 가중치 비율이 요청 가중치 비율보다 높은 이유는, 복구되는 요청이 평균적으로 더 크고 비싸기 때문이다. 긴 컨텍스트 윈도는 짧은 것보다 속도 제한에 더 자주 걸리고, 다단계 에이전트 실행은 각 단계에 걸쳐 실패가 누적되며, 고강도 추론 호출은 지속적인 부하 하에서 타임아웃이 발생한다. 이러한 실패 모드들은 모두 워크로드의 고비용 영역을 겨냥하기 때문에, 비용 비율이 요청 비율보다 높게 나타난다.
공급자의 SLA는 요청 수준의 가동률을 측정하지만, 프로덕션 애플리케이션이 실제로 경험하는 것은 비용 가중치 기준의 가동률이다. 그리고 이 두 지표는 정확히 모델에 대한 비용을 지불한 호출에서 어긋나기 시작한다.
프로덕션 워크로드는 최신 모델 리더보드를 따르기 위해서가 아니라, 효율성·안정성·유연성을 위해 설계된다.
동일한 데이터를 여섯 가지 방식으로 분석해도 그 이면의 형태는 변하지 않는다. 서로 다른 랩이 동일한 애플리케이션의 서로 다른 계층을 장악하고 있으며, 그 계층들을 처리하는 아키텍처는 대규모 프로덕션 팀들이 이미 구축한 것과 동일하다.
이는 초기 클라우드 시대를 연상시킨다. 당시 팀들은 먼저 컴퓨팅을 확장하고(인스턴스, 리전, 이중화를 늘리고), 그다음에 단위 비용을 줄였다. 지출 곡선 상단에 보이는 35개 모델 플리트는 동일한 패턴이 더 빠른 속도로 반복되는 것이다. 이후의 최적화는 라우팅 계층에서 일어난다.
지금 AI를 출시하는 모든 이에게:
여러 공급자의 복수 모델을 염두에 두고 계획하라
가동률과 비용 최적화를 위해 폴백이 필요하다고 가정하라
처음부터 라우팅을 핵심 아키텍처 단위로 설계하라
패턴이 변함에 따라 이 데이터를 주기적으로 다시 살펴볼 예정이다. 실시간 모델 순위는 AI Gateway Leaderboards에서 확인할 수 있다.
이 분석은 2026년 4월까지의 Vercel AI Gateway 익명화·집계 라우팅 데이터를 기반으로 한다.
측정 방식에 대한 몇 가지 참고 사항:
지출 은 자체 API 키를 사용하는 팀 간의 정규화된 비교를 위해 시장 가격(공시 정가)을 적용한다.
볼륨 은 AI Gateway를 통해 라우팅된 토큰 수를 집계한다.
B2C, B2B, 유스케이스 분류 는 집계 기준으로 이루어지며, 개별 팀이나 워크로드는 식별되지 않는다.