r/LocalLLaMA•약 2개월 전•1590•276

Gemma 4가 Opus 4.6과 GPT-5.2를 제외한 리더보드의 모든 모델을 압살함. 31B 파라미터, 실행당 $0.20

핵심 요약

Gemma 4 31B 모델이 저렴한 비용으로 에이전트 시뮬레이션 벤치마크에서 압도적인 성능을 보여줌.

압도적 가성비 — 31B 모델이 실행당 $0.20의 비용으로 100% 생존율과 높은 ROI를 기록함.
벤치마크 성능 — GPT-5.2나 Sonnet 4.6 등 고가 모델과 견주어도 손색없는 에이전트 의사결정 능력을 보임.
26B 모델의 한계 — A4B 버전은 성능은 준수하나 JSON 출력 형식이 깨지는 문제가 있어 별도 처리가 필요함.
커뮤니티 반응 — 전반적으로 놀랍다는 반응과 함께 벤치마크 신뢰성 및 특정 작업에서의 성능에 대한 의문이 제기됨.

우리 벤치마크에서 Gemma 4 (31B)를 테스트해 봄. 진짜 이럴 줄은 몰랐음.

100% 생존율, 5번 실행 중 5번 모두 수익성 달성, 중앙값 ROI +1,144%. 실행당 $0.20의 비용으로.

이 모델은 GPT-5.2(실행당 $4.43), Gemini 3 Pro(실행당 $2.95), Sonnet 4.6(실행당 $7.90)을 능가하며, 우리가 테스트한 모든 중국 오픈소스 모델(Qwen 3.5 397B, Qwen 3.5 9B, DeepSeek V3.2, GLM-5)을 완전히 압살함. 그중 어떤 모델도 일관되게 생존하지 못했음.

Gemma 4를 이기는 유일한 모델은 실행당 $36인 Opus 4.6뿐임. 무려 180배나 더 비쌈.

310억 개의 파라미터. 20센트. 설정, 프롬프트, 모델 ID를 다시 확인해봤는데 리더보드의 다른 모든 모델과 동일함. 같은 시드, 같은 도구, 같은 시뮬레이션. 그냥 모델 자체가 이렇게 좋은 거임.

에이전트 워크플로우에 강력 추천함. 지금까지 22개 모델을 테스트해봤는데, 지금까지 본 것 중 가성비가 단연 최고임.

차트와 일자별 분석이 포함된 전체 분석: foodtruckbench.com/blog/gemma-4-31b

FoodTruck Bench는 AI 비즈니스 시뮬레이션 벤치마크임 — 에이전트가 30일 동안 푸드트럭을 운영하며 위치, 메뉴, 가격, 직원, 재고에 대한 결정을 내림. 리더보드는 foodtruckbench.com에서 확인 가능

수정 — Gemma 4 26B A4B 결과가 나옴.

많은 사람이 26B A4B 버전에 대해 물어봐서, 5번 시뮬레이션을 돌려본 솔직한 결과임:

60% 생존율 (5번 중 3번 완료, 2번 파산). 중앙값 ROI +119%, 순자산 $4,386. 비용: 실행당 $0.31. 리더보드 7위 기록 — 모든 중국 모델과 Sonnet 4.5보다는 위, 나머지는 아래.

두 번의 파산은 대출 불이행이었음 — 다른 모델들에서도 흔히 보이는 패턴임. 생존한 3번의 실행은 탄탄했고, 특히 최고 성적은 ROI +296%였음.

하지만 문제가 있음. 26B A4B는 테스트한 23개 모델 중 유일하게 작동을 위해 커스텀 출력 정제(sanitization)가 필요했음. 유효한 도구 호출 의도는 생성하지만, JSON 형식이 일관되게 깨짐 — 잘못된 따옴표, 뒤에 붙는 쓰레기 토큰, 유효하지 않은 이스케이프 등. 이 모델만을 위한 3단계 정제기를 따로 만들어야 했음. 다른 모델은 이런 게 전혀 필요 없었음. 비즈니스 결정 자체는 수정하지 않았고, 정제기는 JSON 형식만 고치는 것임. 하지만 이 모델을 에이전트 워크플로우에 사용할 계획이라면 출력 형식을 처리할 준비를 해야 함. 기본 상태로는 깔끔한 함수 호출을 생성하지 못함.

TL;DR: 31B 덴스 모델 → 100% 생존, 실행당 $0.20, 전체 3위. 26B A4B → 60% 생존, 실행당 $0.31, 전체 7위, 하지만 커스텀 출력 파싱 필요. 31B가 확실한 승자임. 업데이트된 리더보드: foodtruckbench.com

주요 댓글

r/localllama

Gemma 4의 가성비와 성능에 대한 놀라움이 주를 이루지만, 벤치마크의 신뢰성과 특정 작업에서의 실용성에 대해서는 의견이 갈림.

224

OP: 결과 페이지에 추론 비용 컬럼이 아예 없는 것 같은데? 있으면 유용할 듯.

맞는 말임. 메인 리더보드 테이블에는 아직 안 넣었음. 비용 데이터는 개별 사례 연구에 있는데 메인 페이지에도 컬럼으로 추가해야겠네. 리스트에 넣겠음.

MoE 모델은 어떰?

MoE 모델들은 우리 벤치마크에서 성적이 안 좋았음. Qwen 3.5 397B(활성 17B)는 생존율 29%에 ROI도 마이너스였고, DeepSeek V3.2는 62% 생존하지만 결국 적자임. Gemma 4가 덴스 모델인데도 31B로 이들을 다 이기는 게 제일 놀라운 부분임.

107

그건 Gemma 4 26B A4B 얘기하는 거 아님?

115

아 미안, 잘못 읽었네. 26B A4B는 아직 테스트 안 해봤음. 지금 돌리는 중이니까 12시간 안에 결과 업데이트하겠음.

제안 하나 하자면, 모든 모델에 히든 시드를 써서 혹시 모델들이 벤치마크에 과적합(over-fitted)되도록 학습된 건 아닌지 확인해보는 게 흥미로울 듯.

좋은 생각임. 벤치마크가 비공개 소스인 이유가 바로 그거임. 모델들이 시뮬레이션으로 학습하지 못하게 하려고. 몇몇 중국 연구소에서 관심을 보였지만 우리는 실행 데이터만 공유하고 시뮬레이션 자체는 절대 안 줌. 그래도 랜덤 시드 몇 개 돌려서 확인해보는 건 좋은 아이디어임. 로그를 봐도 의사결정이 유기적이라 과적합 징후는 안 보임.

Gemma 4는 내 사용 사례에는 별로였음. PLC 코드 진단하는 건데, Qwen-Coder-Next가 여전히 제일 잘함.

그럴 수 있지. 31B는 여전히 작은 모델이라 모든 걸 잘할 순 없음. 우리 벤치마크는 에이전트 의사결정을 테스트하는 거지 코딩을 테스트하는 게 아님. PLC 진단이나 개발 작업에는 이 사이즈에서 더 나은 옵션이 분명히 있음. Qwen-Coder가 그쪽엔 확실히 좋음.

Gemma 4는 32GB VRAM에서 수정 없이 돌릴 수 있는 첫 로컬 모델임. 입력당 평균 2분 정도 걸리는데, 대화 주제를 절대 벗어나거나 오해하지 않음. 프랑스어로 말하는데도. Gemini Flash조차 실수를 많이 하는데. 로컬 LLM 입장에서 엄청난 발전임! 124B MoE 모델이 너무 기다려짐! 내 RAM이랑 CPU가 엄청 고생하겠지만 ㅋㅋ!

와우. 질문: 유료 모델들보다 느낌이 더 좋음? (이미지에 있는 Sonnet 4.6이나 Gemini 3 Pro보다 성능 체감이 더 나음?)

진심으로 그렇음. 에이전트 추론 측면에서 이 모델은 Sonnet 4.6이나 Gemini 3 Pro보다 훨씬 위임. 의사결정 퀄리티는 솔직히 GPT-5.2/5.3/5.4 xhigh에 가까움. 31B 파라미터로 어떻게 이걸 달성했는지는 아직 완전히 이해 못 했지만, 구글 말로는 Gemma 4를 에이전트 작업용으로 특별히 학습시켰다니까 그게 이유일 듯.

진짜 의심스러운데. 특정 사용 사례에서는 그럴 수도 있겠지. 아직 테스트는 안 해봐서 거짓말이라고 하는 건 아님. 그냥 여기서나 벤치마크에서 그런 소리를 하도 많이 들어서. 항상 SOTA보다 훨씬 못했거든.

내 경험상 Qwen 3.5 35B보다도 훨씬 별로임. JSON 파일 수정조차 못 함. 수정은 하는데 문법을 다 망쳐버림. 난 별로임. 좋아하고 싶지만 프로그래밍용으로는 좀 별로임.