Qwen3.6-27B vs Coder-Next 비교
핵심 요약
고성능 GPU로 두 모델을 극한까지 테스트한 결과, 작업 성격에 따라 승자가 갈리는 흥미로운 결과가 나옴.
- 모델 성능 비교 — 27B와 Coder-Next는 작업 종류에 따라 서로 다른 강점을 보임.
- Thinking Trace 영향 — 27B 모델에서 thinking 기능을 끄면 추론 과정은 줄지만 결과물은 유지됨.
- 하드웨어 제약 — VRAM 용량과 모델 구조(Dense vs MoE)에 따라 사용자별 체감 성능이 크게 다름.
- 벤치마크 신뢰성 — 기존 벤치마크의 조작 의혹을 해소하기 위해 직접 가혹 테스트를 진행함.
RTX PRO 6000 Blackwell 2대를 사용해 20시간 동안 사이드 바이 사이드 컴퓨팅을 돌리며 두 모델 중 무엇이 확실히 더 나은지 결론을 내리려 했습니다. 인생의 많은 일이 그렇듯, 수많은 토큰과 전력을 소모한 뒤 내린 결론은 "상황에 따라 다르다"였습니다.
이 모델들은 전반적으로 서로 매우 잘 맞습니다. 광범위한 테스트와 시나리오에서 비슷한 점수를 기록했고, 각기 다른 부분에서 성공하거나 실패했습니다. N=10으로 4개의 셀을 돌렸을 때, Coder-Next는 25/40, 27B-thinking은 30/40을 기록하며 Wilson 신뢰 구간이 겹치는 통계적 동률을 보였습니다.
겉보기에는 말이 됩니다. 27B는 사고(thinking) 기능이 뛰어난 최신 세대의 Dense 모델입니다. Coder-Next는 파라미터가 약 3배 더 많지만, 작동 시에는 한 번에 3B만 활성화합니다. 무엇을 하려는지에 따라 둘 중 하나가 정답이 될 수 있습니다.
흥미로운 점은, thinking 기능을 껐을 때의 27B가 가장 일관된 결과를 냈다는 것입니다. N=10인 12개 셀 전체에서 95.8%의 성공률을 보였습니다(Wilson 95% [90.5%, 98.2%]). 27B-thinking과 동일한 모델 가중치에 --no-think 옵션만 사용한 결과입니다. 양쪽 모두 성공한 셀을 직접 비교해 보니 실질적인 결과물은 보존되어 있었습니다. 차이점은 추론 과정의 장황함이지, 결과 결정의 차이가 아니었습니다. "사고 과정을 루프 기질로 사용하는" 메커니즘은 실제로 존재하며, 문서 합성 시 단어 제한 루프가 no-think 상태에서 절반으로 줄었습니다(4/10 → 2/10).
3.6-35B-A3B는 작업 수행 시 너무 자주 실패해서 다른 두 모델과 계속 비교할 가치가 없다고 판단했습니다. 폴더는 실패 모드 증거로 남겨두었습니다.
며칠 동안 이 모델들에게 미친 듯한 작업들을 던져주며 GPU를 뜨겁게 달궜습니다. 기존 벤치마크들이 조작되고 있다는 느낌을 받았기 때문에 이 테스트를 시작했습니다. 그래서 그냥 이 모델들을 진흙탕에 던져놓고 학대하며 무슨 일이 일어나는지 보고 싶었습니다.
성공할 만한 작업과 실패할 수밖에 없는 작업을 주고, 그들이 어떻게 성공하고 실패하는지, 그 모습이 어떤지 연구했습니다. 가장 극단적인 결과는, 27B가 8/10을 기록한 라이브 시장 조사 작업에서 Coder-Next가 0/10을 기록한 것입니다(Coder-Next의 붕괴에 대한 Wilson 95% [0%, 27.8%], 재현 가능). 반대로, 제한된 비즈니스 메모 및 문서 합성 작업에서는 Coder-Next가 27B 변형 모델들보다 60~100배 낮은 비용으로 10/10을 기록했습니다. 같은 모델이라도 "잘하는" 모양새가 매우 달랐습니다.
데이터가 엄청나게 많아서 정리하기 쉽게 만들려고 노력했고, 현재는 이 두 모델을 철저히 비교하는 데 집중하고 있습니다.
어쨌든, 이제 졸리네요. 의견이나 질문이 있으면 알려주세요. 저장소는 아래에 있습니다. 정신 좀 차리고 나면 더 이야기하겠습니다 lol.
https://github.com/Light-Heart-Labs/MMBT-Messy-Model-Bench-Tests


