Opus 4.7 vs 4.6: 3일간의 실제 코딩 세션 비교
핵심 요약
Claude Opus 4.7과 4.6을 실제 코딩 세션에서 비교한 결과, 4.7이 성공률은 낮고 비용은 더 많이 드는 것으로 나타남.
- 성능 저하 — 4.7 버전의 원샷 성공률이 4.6 대비 낮고 재시도 횟수가 증가함.
- 비용 증가 — 토큰 출력량이 늘어나면서 호출당 비용이 4.6보다 비싸짐.
- 도구 활용 — 4.7 버전에서 도구 사용 빈도와 하위 에이전트 위임이 눈에 띄게 줄어듦.
- 데이터 기반 — 3일간의 실제 사용 데이터를 바탕으로 4.6이 여전히 더 낫다는 결론을 내림.
오늘 Opus 4.6과 4.7을 제 실제 사용 데이터를 통해 비교해 보면서 실제로 어떻게 작동하는지 확인해 봤습니다.
4.7을 쓰기엔 아직 좀 이르지만, 몇 가지 놀라운 점이 있었습니다.
제 세션에서 4.7은 4.6보다 첫 시도에 성공하는 경우가 적었습니다. 원샷 성공률은 74.5% 대 83.8%였고, 편집당 재시도 횟수는 대략 두 배 정도(0.46 대 0.22)였습니다.
또한 호출당 출력량이 훨씬 많았는데, 4.6의 372 토큰에 비해 4.7은 약 800 토큰을 생성하여 비용이 눈에 띄게 더 비쌌습니다. 호출당 비용은 $0.185 대 $0.112였습니다.
작업 유형별로 분석해 보니 코딩과 디버깅 모두 4.7에서 더 약한 모습을 보였습니다. 코딩 원샷 성공률은 84.7%에서 75.4%로, 디버깅은 85.3%에서 76.5%로 떨어졌습니다. 기능 구현 작업은 4.7이 약간 더 나았지만(75% 대 71.4%), 표본이 작습니다. 위임 작업은 큰 차이를 보였지만(100% 대 33.3%), 4.7 쪽 표본이 3개뿐이라 아직 큰 의미를 두진 않으려 합니다.
4.7은 턴당 사용하는 도구 수도 더 적고(1.83 대 2.77), 하위 에이전트 위임도 거의 하지 않았습니다(0.6% 대 3.1%). 이게 스타일 차이인지 아니면 표본이 작아서 그런 건지는 아직 확실하지 않습니다.
몇 가지 주의할 점이 있습니다. 이 데이터는 4.7의 3일치(3,592건의 호출)와 4.6의 8일치(8,020건의 호출)를 비교한 것입니다. 일부 카테고리는 예시가 몇 개 되지 않습니다. 이 수치는 사용량이 늘어나면 바뀔 것이고, 여러분이 어떤 작업을 하느냐에 따라 결과는 아마 다르게 보일 것입니다.
지표의 의미:
| 지표 | 측정 내용 |
|:-|:-|
| 원샷 성공률 | 재시도 없이 성공한 편집 턴의 비율 |
| 재시도율 | 편집 턴당 평균 재시도 횟수 (낮을수록 좋음) |
| 자기 교정 | 모델이 스스로 실수를 잡아낸 턴의 비율 |
| 호출당 비용 | API 호출당 평균 지출 |
| 편집당 비용 | 편집 턴당 평균 지출 |
| 호출당 출력 토큰 | 모델이 호출당 생성하는 분량 |
| 캐시 적중률 | 캐시에서 가져온 입력과 새로 생성된 입력의 비율 |
npx codeburn compare

