Gemma 4가 Opus 4.6과 GPT-5.2를 제외한 리더보드의 모든 모델을 압살함. 31B 파라미터, 실행당 $0.20
핵심 요약
Gemma 4 31B 모델이 저렴한 비용으로 에이전트 시뮬레이션 벤치마크에서 압도적인 성능을 보여줌.
- 압도적 가성비 — 31B 모델이 실행당 $0.20의 비용으로 100% 생존율과 높은 ROI를 기록함.
- 벤치마크 성능 — GPT-5.2나 Sonnet 4.6 등 고가 모델과 견주어도 손색없는 에이전트 의사결정 능력을 보임.
- 26B 모델의 한계 — A4B 버전은 성능은 준수하나 JSON 출력 형식이 깨지는 문제가 있어 별도 처리가 필요함.
- 커뮤니티 반응 — 전반적으로 놀랍다는 반응과 함께 벤치마크 신뢰성 및 특정 작업에서의 성능에 대한 의문이 제기됨.
우리 벤치마크에서 Gemma 4 (31B)를 테스트해 봄. 진짜 이럴 줄은 몰랐음.
100% 생존율, 5번 실행 중 5번 모두 수익성 달성, 중앙값 ROI +1,144%. 실행당 $0.20의 비용으로.
이 모델은 GPT-5.2(실행당 $4.43), Gemini 3 Pro(실행당 $2.95), Sonnet 4.6(실행당 $7.90)을 능가하며, 우리가 테스트한 모든 중국 오픈소스 모델(Qwen 3.5 397B, Qwen 3.5 9B, DeepSeek V3.2, GLM-5)을 완전히 압살함. 그중 어떤 모델도 일관되게 생존하지 못했음.
Gemma 4를 이기는 유일한 모델은 실행당 $36인 Opus 4.6뿐임. 무려 180배나 더 비쌈.
310억 개의 파라미터. 20센트. 설정, 프롬프트, 모델 ID를 다시 확인해봤는데 리더보드의 다른 모든 모델과 동일함. 같은 시드, 같은 도구, 같은 시뮬레이션. 그냥 모델 자체가 이렇게 좋은 거임.
에이전트 워크플로우에 강력 추천함. 지금까지 22개 모델을 테스트해봤는데, 지금까지 본 것 중 가성비가 단연 최고임.
차트와 일자별 분석이 포함된 전체 분석: foodtruckbench.com/blog/gemma-4-31b
FoodTruck Bench는 AI 비즈니스 시뮬레이션 벤치마크임 — 에이전트가 30일 동안 푸드트럭을 운영하며 위치, 메뉴, 가격, 직원, 재고에 대한 결정을 내림. 리더보드는 foodtruckbench.com에서 확인 가능
수정 — Gemma 4 26B A4B 결과가 나옴.
많은 사람이 26B A4B 버전에 대해 물어봐서, 5번 시뮬레이션을 돌려본 솔직한 결과임:
60% 생존율 (5번 중 3번 완료, 2번 파산). 중앙값 ROI +119%, 순자산 $4,386. 비용: 실행당 $0.31. 리더보드 7위 기록 — 모든 중국 모델과 Sonnet 4.5보다는 위, 나머지는 아래.
두 번의 파산은 대출 불이행이었음 — 다른 모델들에서도 흔히 보이는 패턴임. 생존한 3번의 실행은 탄탄했고, 특히 최고 성적은 ROI +296%였음.
하지만 문제가 있음. 26B A4B는 테스트한 23개 모델 중 유일하게 작동을 위해 커스텀 출력 정제(sanitization)가 필요했음. 유효한 도구 호출 의도는 생성하지만, JSON 형식이 일관되게 깨짐 — 잘못된 따옴표, 뒤에 붙는 쓰레기 토큰, 유효하지 않은 이스케이프 등. 이 모델만을 위한 3단계 정제기를 따로 만들어야 했음. 다른 모델은 이런 게 전혀 필요 없었음. 비즈니스 결정 자체는 수정하지 않았고, 정제기는 JSON 형식만 고치는 것임. 하지만 이 모델을 에이전트 워크플로우에 사용할 계획이라면 출력 형식을 처리할 준비를 해야 함. 기본 상태로는 깔끔한 함수 호출을 생성하지 못함.
TL;DR: 31B 덴스 모델 → 100% 생존, 실행당 $0.20, 전체 3위. 26B A4B → 60% 생존, 실행당 $0.31, 전체 7위, 하지만 커스텀 출력 파싱 필요. 31B가 확실한 승자임. 업데이트된 리더보드: foodtruckbench.com


