r/ClaudeCode•약 2개월 전•430•86

Opus 4.7 vs 4.6: 3일간의 실제 코딩 세션 비교

핵심 요약

Claude Opus 4.7과 4.6을 실제 코딩 세션에서 비교한 결과, 4.7이 성공률은 낮고 비용은 더 많이 드는 것으로 나타남.

성능 저하 — 4.7 버전의 원샷 성공률이 4.6 대비 낮고 재시도 횟수가 증가함.
비용 증가 — 토큰 출력량이 늘어나면서 호출당 비용이 4.6보다 비싸짐.
도구 활용 — 4.7 버전에서 도구 사용 빈도와 하위 에이전트 위임이 눈에 띄게 줄어듦.
데이터 기반 — 3일간의 실제 사용 데이터를 바탕으로 4.6이 여전히 더 낫다는 결론을 내림.

오늘 Opus 4.6과 4.7을 제 실제 사용 데이터를 통해 비교해 보면서 실제로 어떻게 작동하는지 확인해 봤습니다.

4.7을 쓰기엔 아직 좀 이르지만, 몇 가지 놀라운 점이 있었습니다.

제 세션에서 4.7은 4.6보다 첫 시도에 성공하는 경우가 적었습니다. 원샷 성공률은 74.5% 대 83.8%였고, 편집당 재시도 횟수는 대략 두 배 정도(0.46 대 0.22)였습니다.

또한 호출당 출력량이 훨씬 많았는데, 4.6의 372 토큰에 비해 4.7은 약 800 토큰을 생성하여 비용이 눈에 띄게 더 비쌌습니다. 호출당 비용은 $0.185 대 $0.112였습니다.

작업 유형별로 분석해 보니 코딩과 디버깅 모두 4.7에서 더 약한 모습을 보였습니다. 코딩 원샷 성공률은 84.7%에서 75.4%로, 디버깅은 85.3%에서 76.5%로 떨어졌습니다. 기능 구현 작업은 4.7이 약간 더 나았지만(75% 대 71.4%), 표본이 작습니다. 위임 작업은 큰 차이를 보였지만(100% 대 33.3%), 4.7 쪽 표본이 3개뿐이라 아직 큰 의미를 두진 않으려 합니다.

4.7은 턴당 사용하는 도구 수도 더 적고(1.83 대 2.77), 하위 에이전트 위임도 거의 하지 않았습니다(0.6% 대 3.1%). 이게 스타일 차이인지 아니면 표본이 작아서 그런 건지는 아직 확실하지 않습니다.

몇 가지 주의할 점이 있습니다. 이 데이터는 4.7의 3일치(3,592건의 호출)와 4.6의 8일치(8,020건의 호출)를 비교한 것입니다. 일부 카테고리는 예시가 몇 개 되지 않습니다. 이 수치는 사용량이 늘어나면 바뀔 것이고, 여러분이 어떤 작업을 하느냐에 따라 결과는 아마 다르게 보일 것입니다.

지표의 의미:

| 지표 | 측정 내용 |
|:-|:-|
| 원샷 성공률 | 재시도 없이 성공한 편집 턴의 비율 |
| 재시도율 | 편집 턴당 평균 재시도 횟수 (낮을수록 좋음) |
| 자기 교정 | 모델이 스스로 실수를 잡아낸 턴의 비율 |
| 호출당 비용 | API 호출당 평균 지출 |
| 편집당 비용 | 편집 턴당 평균 지출 |
| 호출당 출력 토큰 | 모델이 호출당 생성하는 분량 |
| 캐시 적중률 | 캐시에서 가져온 입력과 새로 생성된 입력의 비율 |

npx codeburn compare

https://github.com/getagentseal/codeburn

주요 댓글

r/claudecode

데이터 기반의 분석글에 대한 호평과 함께, 4.7 모델의 성능 저하와 비용 문제에 대한 활발한 토론이 이어짐.

맥락 공유해 줘서 고마워. 퀄리티 좋은 글이네. 내 직관으로는 4.7 모델에 맞춰서 하네스(harness) 프롬프트를 좀 수정해야 할 것 같아. CC 팀이 이미 했어야 하는 거 아니냐는 의견도 있겠지만, 그건 잘 모르겠네. 자기들 코드베이스 말고 더 다양한 데이터로 테스트해야 제대로 된 결과가 나올 텐데. 시간 지나면 알게 되겠지.

맞아. 다른 서드파티 도구들이 치고 올라오는 거에 비하면 Claude Code 하네스가 좀 약한 것 같아. 시스템 프롬프트를 하네스에 맞춰서 최적화하면 훨씬 나아질 듯. 예전에 메타 하네스 얘기가 나왔던 것 같은데, 하네스랑 시스템 프롬프트 정렬이 시급함.

CC 하네스랑 메타 프롬프팅은 일반적인 상황에선 꽤 괜찮은 편이야. 너랑은 관점이 좀 다른 것 같네. 내가 보기엔 그냥 4.7 모델에 맞춰서 하네스를 살짝 손보기만 하면 될 것 같은데.

CC 하네스랑 서드파티 도구 비교한 상세 내용 좀 공유해 줄 수 있어? 평가 방식이나 경험이 어떤지 궁금해. Anthropic이 기계 해석 가능성(mech. interpretability) 연구를 많이 한 걸 생각하면 좀 의외라서.

다들 CC 하네스가 너무 비대하다고 느끼는 것 같아. LLM 자체가 이미 학습되고 강화된 상태인데 굳이 거대한 시스템 프롬프트가 필요하냐는 의견도 있고. 지금 최소한의 하네스만 쓰는 pi-coding-agent 테스트 중인데, 아직 결론 내리기엔 좀 이르네.

좋긴 한데, CC는 구독자만 쓸 수 있다는 게 문제지.

forgecode가 괜찮다는 소리를 많이 들었는데, 혹시 아는 거 있으면 좀 알려줘.

근거 없는 비난글만 수백 개씩 올라오는 와중에 직접 데이터 뽑아서 분석해 주니 속이 다 시원하네. 고마워!

총비용 필드 보니까 Anthropic이 왜 그렇게 4.7 모델을 밀어붙이는지 딱 알겠네.

-6

4.7이 더 싸다고 나오는데, 무슨 말인지 모르겠네?

내가 보기엔 4.7이 토큰을 더 많이 써서 오히려 더 비싸 보이는 것 같은데? 아니면 전략일 수도 있지. 작은 모델이라 운영 비용은 싸지만, 성능 맞추려고 토큰을 더 많이 쓰게 만드는 식으로.

각 모델의 추론 레벨은 어느 정도로 설정했어?

둘 다 최대 성능(max effort)으로 설정하고 돌렸어.

고생했어! Sonnet 3.7 나왔을 때도 내가 쓰던 워크플로우에선 객관적으로 더 구렸던 기억이 나네. 4 나올 때까지 3.5 썼었지. 얘네 모델 버전 나누는 기준이 뭔지 궁금해. x.5 버전들이 제일 강력한 것 같던데. 4.5는 굳이 나중에 나온 버전들로 바꿀 필요가 있었나 싶기도 하고. 그냥 Opus/Sonnet 5 나올 때까지 기다릴걸 그랬어.

혹시 그때 데이터 아직 있으면 비교해 보고 싶네. x.5 버전이 더 낫다는 생각은 못 해봤는데 흥미롭네.

지금 같이 볼 만한 글

r/ChatGPT

드디어 내 말을 제대로 알아들었을 때

AI 모델의 갑작스러운 성능 저하와 비용 문제에 대해 사용자들이 공감하며 인간 작업의 가치를 재평가하고 있습니다.

243732

r/LocalLLaMA

google/gemma-4-12B · Hugging Face

구글의 최신 오픈 모델 Gemma 4 시리즈가 공개되었으며, 12B 모델을 포함한 다양한 크기와 멀티모달 기능을 지원합니다.

776283

r/ClaudeAI

Opus 4.8로 하루 만에 '테무판 리그 오브 레전드'를 만들었습니다 - 이름은 LMAO입니다

Claude Opus 4.8을 활용해 하루 만에 멀티플레이어 웹 게임을 개발한 프로젝트 공유.

2336230

커뮤니티 전체 보기