Gemma 4 31B, FoodTruck Bench에서 주요 모델들 제치고 3위 달성

핵심 요약

Gemma 4 31B가 FoodTruck 벤치마크에서 상위 모델들을 제치고 3위를 기록하며 성능 논란을 일으킴.

벤치마크 성능 — Gemma 4 31B가 FoodTruck Bench에서 Claude Sonnet 등 주요 모델을 앞지름.
벤치마킹 의혹 — 모델들이 벤치마크 데이터를 학습 데이터에 포함해 점수를 올리는 'benchmaxxing' 의혹 제기.
일반화 논쟁 — 특정 벤치마크에 최적화된 모델이 실제 일반화 능력을 갖췄는지에 대한 회의적 시각 존재.
AGI 비전 — 벤치마크 정복이 AGI로 가는 길인지, 아니면 단순히 데이터 오염인지에 대한 커뮤니티 토론.

Gemma 4 31B가 FoodTruck Bench에서 놀랍게도 3위를 차지하며 GLM 5, Qwen 3.5 397B, 그리고 모든 Claude Sonnet 모델들을 제쳤습니다!

이 결과를 어떻게 설명할지 기대되네요. 이전 모델들이 실행을 끝내지 못했던 것과 달리, Gemma 4는 장기적인 작업(long horizon tasks)을 더 잘 처리하고 다음 날 실행을 계획할 때 스스로의 조언을 실제로 따르는 것으로 보입니다.

EDIT: 저는 이 벤치마크의 작성자가 아닙니다. 그냥 이 벤치마크가 대부분의 다른 벤치마크와 달리 재밌어 보여서 좋아할 뿐입니다.

주요 댓글

r/localllama

모델의 벤치마크 성능 급상승에 대해 데이터 오염(benchmaxxing) 의혹을 제기하며 회의적인 반응이 지배적임.

180

벤치마크 점수 올리기(benchmaxxing)가 새로운 문제네.

Gemini 3.1 Pro가 ARC AGI 2에서 77.1%를 기록한 건 웃기지. Claude Sonnet 4.5는 13.6%였는데 4.6은 60.4%라니. 모델들이 이렇게 빨리 똑똑해졌다고 믿으라고? ARC 팀도 Gemini 테스트할 때 벤치마크 데이터 오염 증거를 찾았는데.

ARC AGI 3는 LLM에게 더 까다로워. RL이나 검색 모델링으로 꼼수를 쓸 순 있겠지만 LLM이 다루기엔 너무 밖이지. 만약 LLM이 여기서 잘한다면 확실히 발전한 거임.

구글이 이 듣보잡이지만 복잡한 벤치마크를 위해 'benchmaxxing'을 했다는 건 말도 안 됨.

162

아마 벤치마크 데이터로 학습했겠지.

111

그래, 세상 모든 태스크를 다 벤치마크 점수 올리기(benchmaxxing) 해버려. 그게 AGI 달성하는 방법일지도.

그게 사실 다리오(Dario)가 생각하는 AGI 비전이지. 가상의 특별한 비법보다는 이게 더 설득력 있어.

문제는 현실 세계에는 점수 매길 수 없는 수조 개의 구체적인 벤치마크가 널려 있다는 거지.

하지만 그는 일반화가 없다는 게 아니라, 도메인 내부와 도메인 간에 느리지만 일관된 일반화가 존재한다고 말하는 거야. 이건 증명된 사실이고, 그래서 코드만 아는 모델은 똑똑할 수 없는 거지.

대학 입시 점수 상위 1%의 99%가 다 그렇게 점수 따는 거 아니겠어.

수상하네. 벤치마크가 이미 학습 데이터에 포함됐다고 봐야지.

구글이 왜 듣보잡 벤치마크(작성자 비하 아님)에 신경 쓰겠어?