Gemma 4 31B, FoodTruck Bench에서 주요 모델들 제치고 3위 달성
핵심 요약
Gemma 4 31B가 FoodTruck 벤치마크에서 상위 모델들을 제치고 3위를 기록하며 성능 논란을 일으킴.
- 벤치마크 성능 — Gemma 4 31B가 FoodTruck Bench에서 Claude Sonnet 등 주요 모델을 앞지름.
- 벤치마킹 의혹 — 모델들이 벤치마크 데이터를 학습 데이터에 포함해 점수를 올리는 'benchmaxxing' 의혹 제기.
- 일반화 논쟁 — 특정 벤치마크에 최적화된 모델이 실제 일반화 능력을 갖췄는지에 대한 회의적 시각 존재.
- AGI 비전 — 벤치마크 정복이 AGI로 가는 길인지, 아니면 단순히 데이터 오염인지에 대한 커뮤니티 토론.
Gemma 4 31B가 FoodTruck Bench에서 놀랍게도 3위를 차지하며 GLM 5, Qwen 3.5 397B, 그리고 모든 Claude Sonnet 모델들을 제쳤습니다!
이 결과를 어떻게 설명할지 기대되네요. 이전 모델들이 실행을 끝내지 못했던 것과 달리, Gemma 4는 장기적인 작업(long horizon tasks)을 더 잘 처리하고 다음 날 실행을 계획할 때 스스로의 조언을 실제로 따르는 것으로 보입니다.
EDIT: 저는 이 벤치마크의 작성자가 아닙니다. 그냥 이 벤치마크가 대부분의 다른 벤치마크와 달리 재밌어 보여서 좋아할 뿐입니다.


