MineBench에서 확인한 Claude Opus 4.6과 4.7의 차이점

ENT_Alam · 2026-04-17T22:17:30+00:00

MineBench를 통해 Claude Opus 4.6과 4.7의 3D 구조 생성 성능을 비교하고, 4.7의 일관성 부족과 변화된 동작 방식을 분석함.

몇 가지 참고 사항:

현재 SOTA 모델로 여겨지고 거의 모든 벤치마크에서 다른 모든 모델을 능가한다고 하지만, 솔직히 훨씬 더 일관성이 있을 것으로 기대했습니다.
- 때때로 풍경(아케이드나 오두막 빌드 같은)에 너무 집중하는 것을 볼 수 있는데, 프롬프트는 동일하게 유지되었고 Gemini 3.1과 GPT 5.4도 동일한 프롬프트로 벤치마크되었습니다.
  - 프롬프트는 모델이 풍경에 더 집중할지 여부를 스스로 결정하도록 장려하는데, 이는 Opus 4.7이 Opus 4.6보다 창의적/브레인스토밍 작업에서 그만큼 좋지 않다는 것을 나타낼 수 있습니다?
- 또한 일관성 없는 결과는 적응형 사고 모드 때문일 수도 있지만, Anthropic은 향후 모든 모델에 대해 기본 사고 모드를 중단했기 때문에 실제로 테스트할 수는 없습니다.
빌드당 평균 추론 시간: ~2600초 (약 43분)
총 비용은 약 $275였습니다.
- Opus 4.6이 훨씬 저렴했던 것으로 기억하지만, 벤치마크가 툴 사용과 캐시 토큰을 더 선호하는 방향으로 약간 진화했습니다.
- 이 게시물이 즐거우셨다면 벤치마크 후원을 고려해 주세요.

이전 게시물:

핵심 요약