MineBench에서 확인한 Claude Opus 4.6과 4.7의 차이점
핵심 요약
MineBench를 통해 Claude Opus 4.6과 4.7의 3D 구조 생성 성능을 비교하고, 4.7의 일관성 부족과 변화된 동작 방식을 분석함.
- 성능 비교 — MineBench를 활용해 Claude Opus 4.6과 4.7의 3D 구조 생성 능력을 테스트함.
- 일관성 문제 — 4.7 버전이 이전 모델보다 창의적 작업에서 일관성이 떨어지고 풍경에 과도하게 집중하는 경향을 보임.
- 동작 방식 변화 — Anthropic의 모델 마이그레이션 가이드에 따라 4.7은 작업 복잡도에 맞춰 응답 길이를 조정하도록 변경됨.
- 비용 및 효율 — 빌드당 평균 43분 소요 및 약 275달러의 비용이 발생하며, 4.6 대비 툴 사용과 캐시 토큰 활용이 강화됨.
몇 가지 참고 사항:
- 현재 SOTA 모델로 여겨지고 거의 모든 벤치마크에서 다른 모든 모델을 능가한다고 하지만, 솔직히 훨씬 더 일관성이 있을 것으로 기대했습니다.
- 때때로 풍경(아케이드나 오두막 빌드 같은)에 너무 집중하는 것을 볼 수 있는데, 프롬프트는 동일하게 유지되었고 Gemini 3.1과 GPT 5.4도 동일한 프롬프트로 벤치마크되었습니다.
- 프롬프트는 모델이 풍경에 더 집중할지 여부를 스스로 결정하도록 장려하는데, 이는 Opus 4.7이 Opus 4.6보다 창의적/브레인스토밍 작업에서 그만큼 좋지 않다는 것을 나타낼 수 있습니다?
- 또한 일관성 없는 결과는 적응형 사고 모드 때문일 수도 있지만, Anthropic은 향후 모든 모델에 대해 기본 사고 모드를 중단했기 때문에 실제로 테스트할 수는 없습니다.
- 때때로 풍경(아케이드나 오두막 빌드 같은)에 너무 집중하는 것을 볼 수 있는데, 프롬프트는 동일하게 유지되었고 Gemini 3.1과 GPT 5.4도 동일한 프롬프트로 벤치마크되었습니다.
- 빌드당 평균 추론 시간: ~2600초 (약 43분)
- 총 비용은 약 $275였습니다.
- Opus 4.6이 훨씬 저렴했던 것으로 기억하지만, 벤치마크가 툴 사용과 캐시 토큰을 더 선호하는 방향으로 약간 진화했습니다.
- 이 게시물이 즐거우셨다면 벤치마크 후원을 고려해 주세요.
벤치마크: https://minebench.ai/
Git 저장소: https://github.com/Ammaar-Alam/minebench
이전 게시물:

