r/LocalLLaMA•약 1개월 전•646•155

Qwen 3.6 27B, Artificial Analysis 에이전트 지표에서 Sonnet 4.6과 동급 달성

핵심 요약

Qwen 3.6 27B가 에이전트 성능 지표에서 Sonnet 4.6과 대등한 수준을 기록하며 놀라운 성장세를 보임.

성능 도약 — Qwen 3.6 27B가 에이전트 지표에서 최상위 모델인 Sonnet 4.6과 어깨를 나란히 함.
벤치마크 논쟁 — 모델의 성능 향상이 실제 실력인지 아니면 벤치마크 최적화인지에 대한 의견이 갈림.
실사용 경험 — 일부 사용자는 실제 코딩 작업에서 Sonnet 4.5 대비 뛰어난 해결 능력을 체감함.
차기 모델 기대 — 122B 모델 출시에 대한 기대감이 높으며, 모델 크기에 따른 성능 향상을 주목함.

Qwen 3.6 27B가 Artificial Analysis의 에이전트 지표에서 Sonnet 4.6과 동급을 기록하고, Gemini 3.1 Pro Preview, GPT 5.2 및 5.3, MiniMax 2.7까지 추월했다는 게 미쳤네요. 세 가지 지표 모두에서 성장을 이뤘지만, 코딩 지표가 작동하는 방식 때문에 그 성장이 제대로 드러나지 않는 것 같아요. 코딩 지표는 Terminal Bench Hard와 SciCode만 사용하는데, 둘 다 좀 이상한 선택이거든요. 현재 출시된 3.6 모델들의 학습이 OpenClaw/Hermes를 위한 에이전트 사용에 집중된 건 분명하지만, 이렇게 작은 모델이 프론티어 모델에 얼마나 근접할 수 있는지 보여주는 건 흥미롭네요. Qwen 3.6 122B는 진짜 대박일지도...

주요 댓글

r/localllama

Qwen 3.6 27B의 놀라운 성능 향상에 대한 찬사와 함께, 로컬 모델과 Frontier 모델을 조합한 효율적인 워크플로우 활용법 및 향후 모델 출시에 대한 기대감이 주를 이룸.

138

이 작은 모델에서 뽑아내는 지능 수준 미쳤네. 덩치 큰 모델들에도 아직 성능 향상 여지가 엄청나다는 증거임... 진짜 미친 시대가 오고 있다.

이제 지능을 제대로 끌어올릴 중간 사이즈의 묵직한 MoE만 있으면 됨. 7B 활성화되는 60B나 80B 정도면 딱일 듯.

모델 훌륭한 건 알겠는데 솔직히 말하자면, 성능 상당 부분은 벤치마크 점수 따려고 꼼수 쓴 거 아님?

의심할 여지 없지. 직접 써봐, 진짜 물건이야. 내 워크플로우는 이제 1. Frontier 플랜, 2. 로컬 실행으로 바뀜. 진짜 미친 시대에 살고 있다.

매일 이렇게 함: Frontier가 계획 짜고 -> 로컬이 실행하고 -> 모든 Frontier 모델에 코드 품질 검사 돌리고 -> 로컬 모델이 버그 수정하고 -> Frontier 모델이 버그 수정 확인. 하루 일과 끝에 30분이면 끝, 구독료도 안 듦.

미국 모델들은 benchmaxx 안 해서 그런 거 아님?

근데 다른 애들도 다 benchmaxxing 하고 있잖아...

benchmaxxing이 걱정되면 Qwen3.6 27B를 같은 라인업인 Qwen3.6 35BA3B랑 비교해 봐. 모든 Qwen 모델이 benchmaxxing 한다면 상대적 개선치로 판단하면 됨.

Qwen 3.5 27B는 SWE-Rebench에서 이미 대형 모델들이랑 어깨 나란히 함. 아직 존재하지도 않는 코딩 문제로 benchmax 하는 건 불가능하고, 2/14~2/28 카테고리 보면 대형 모델들 사이에서 잘 버텼음. Kimi K2나 Step-3.5한테 밀리긴 해도 MiniMax M2.5나 Devstral 2 123B 같은 더 큰 모델들은 다 이겼음.

성능 점프 미쳤다, 122B 3.6 버전 빨리 나왔으면.

이번엔 뉴스 타려고 일주일에 모델 하나씩 내놓는 듯. 다음 주에 122B 말고 9B 나오면 진짜 빡칠 듯.

중국 너드들한테 밀리고 있다니...

난 3.6-coder 기다리는 중. 이전 coder 모델들은 80b MoE였는데 코딩용으로 튜닝됐었거든.

1년도 안 된 670B 모델보다 27B 모델 점수가 더 높다니, 게다가 RTX 3090 + 5070ti(VRAM 40GB)에서 Q8 버전 170K에 KV 캐시 FP16으로 돌릴 수 있음. 진짜 괴물 같은 모델임. 나중에 Qwen에서 50~70B 덴스 모델 꼭 내줬으면 좋겠다. 진짜 대단한 시대다!

벤치마크 격차가 빠르게 줄어들고 있음. 지난주에 M2에서 qwen3-30b-a3b 돌려봤는데 다단계 툴 호출도 문제없이 처리하더라. 27B 덴스 모델이 벌써 이 정도면 122B는 API 제공업체들한테 진짜 위협이 될 듯.

지금 같이 볼 만한 글

r/LocalLLaMA

Gemma 4 모델 추가 출시 예정

Gemma 4의 새로운 모델, 특히 120B급 대형 모델 출시에 대한 기대와 성능 논의가 활발함.

443102

r/ChatGPT

드디어 내 말을 제대로 알아들었을 때

AI 모델의 갑작스러운 성능 저하와 비용 문제에 대해 사용자들이 공감하며 인간 작업의 가치를 재평가하고 있습니다.

243732

r/ClaudeAI

Opus 4.8로 하루 만에 '테무판 리그 오브 레전드'를 만들었습니다 - 이름은 LMAO입니다

Claude Opus 4.8을 활용해 하루 만에 멀티플레이어 웹 게임을 개발한 프로젝트 공유.

2336230

커뮤니티 전체 보기