Qwen3.6-35B 모델, 적절한 에이전트와 결합 시 클라우드 모델과 경쟁 가능
핵심 요약
Qwen3.6-35B 모델이 적절한 에이전트 스캐폴딩과 결합했을 때 클라우드 모델과 대등한 수준의 성능을 보여줌.
- 성능 향상 — 스캐폴딩 최적화만으로 벤치마크 성공률이 19%에서 78%까지 급상승함.
- 모델 경쟁력 — 로컬 모델도 적절한 에이전트 환경을 갖추면 클라우드 모델과 대등한 성능을 낼 수 있음.
- 방법론 공유 — 작성자가 공개한 'little-coder' 프로젝트를 통해 구체적인 에이전트 설계 방식을 확인할 수 있음.
- 향후 계획 — 터미널 벤치마크 및 GAIA 벤치마크를 통해 추가적인 성능 검증을 진행할 예정임.
이전 글에 이은 짧은 후속 글입니다. 동일한 9B Qwen 모델을 사용하더라도 스캐폴딩을 변경하면 벤치마크 성능이 19.11%에서 45.56%로 향상된다는 것을 보여드렸었죠:
https://www.reddit.com/r/LocalLLaMA/s/JMHuAGj1LV
이곳 커뮤니티의 피드백을 받은 후, Qwen3.6 35B 모델로 little-coder를 테스트해 보았습니다.
이제 이 모델은 78.7%의 성공률로 공개 Polyglot 벤치마크 상위 10위 안에 진입했으며, 이 벤치마크에서 최고의 모델들과 실제로 경쟁할 수 있는 수준이 되었습니다!
이제 저는 클라우드 모델과의 성능 격차 중 일부가 하네스(harness) 불일치 때문이라고 점점 확신하게 되었습니다. 우리는 로컬 코딩 모델을 다른 등급의 모델을 위해 만들어진 스캐폴드 안에서 테스트해 왔을지도 모릅니다.
다음은 터미널 벤치마크, 그 다음은 연구 능력을 위한 GAIA 벤치마크가 될 예정입니다. 여러분의 피드백을 듣고 싶습니다!
전체 글: https://open.substack.com/pub/itayinbarr/p/honey-i-shrunk-the-coding-agent
GitHub: https://github.com/itayinbarr/little-coder
전체 벤치마크 결과: https://github.com/itayinbarr/little-coder/blob/main/docs/benchmark-qwen3.6-35b-a3b.md


