MineBench에서 Opus 4.7과 Opus 4.8의 차이점
핵심 요약
MineBench를 통해 Claude Opus 4.8의 성능과 비용 효율성을 4.7 버전과 비교 분석한 결과입니다.
- 성능 개선 — Opus 4.8은 4.7 대비 더 정교하고 창의적인 3D 빌드 결과물을 보여줌
- 비용 효율성 — CoT 최적화로 인해 API 호출 비용이 4.7보다 훨씬 저렴해짐
- 모델 안정성 — 할루시네이션은 여전히 존재하지만 적응형 사고 기능이 개선됨
- 벤치마크 방식 — 모델이 주어진 블록 팔레트로 마인크래프트 구조물을 생성하여 성능을 측정함
참고할 점:
평균 추론 시간: 24.8분 (1,487초)
총비용 (빌드 15회 기준): $41.52
API 가격은 똑같은데 Opus 4.7보다 훨씬 싸게 먹힘
CoT(생각하는 시간)가 확실히 최적화됐음. OpenAI가 최근 모델들 내놓으면서 한 거랑 비슷한 방식인데, 덕분에 전체 비용은 줄었음. 근데 결과물 퀄리티는 Opus 4.7보다 나아서 아주 만족스러움.
개인적으로 오랜만에 진짜 제대로 된 물건 나왔다는 느낌이 드는 Claude 모델임. 빌드 퀄리티가 GPT 5.5랑 비벼볼 만함. 물론 좀 들쭉날쭉하긴 한데 이 정도면 훌륭함.
생성하는 동안 빌드 5번은 다시 돌려야 했음. 주어진 블록 팔레트에 없는 블록을 쓴다거나(환각 증상), JSON 형식이 망가져서 나온 게 원인임.
Claude 모델 종특이라 놀랍진 않은데, 이번엔 적응형 사고(adaptive thinking)가 좀 더 잘 먹히는 듯. 예전엔 CoT에 토큰 다 쏟아붓느라 정작 JSON 출력할 토큰이 모자라서 빌드 끝까지 못 마치는 경우가 많았거든.
내 생각엔 Opus 4.8이 Opus 4.7보다 확실히 나음. 아니면 원래 Opus 4.7이 이랬어야 하는 건지도 모르겠고 🤷♂️
업데이트 상세 내용은 GitHub 릴리즈 페이지에서 확인 가능함 (제보 고맙다!)
이런 글 도움 됐다면 벤치마크 후원 좀 부탁함.
Benchmark: https://minebench.ai/
Git Repository: https://github.com/Ammaar-Alam/minebench
이전 글들:
GPT 5.4 vs GPT 5.5 비교
Kimi K2.5 vs Kimi K2.6 비교
Opus 4.6 vs Opus 4.7 비교
GPT 5.4 vs GPT 5.4-Pro 비교
GPT 5.2 vs GPT 5.4 비교
GPT 5.2 vs GPT 5.3-Codex 비교
Opus 4.5 vs 4.6 비교 (벤치마크 관련 질문 답변 포함)
Opus 4.6 vs GPT-5.2 Pro 비교
Gemini 3.0 vs Gemini 3.1 비교
추가 정보 (헷갈리는 사람들을 위해):
기본적으로 모델이 마인크래프트 같은 3D 구조물을 얼마나 잘 만드는지 테스트하는 벤치마크임.
모델한테 블록 팔레트(레고 같은 거라 생각하면 됨)랑 뭘 만들지 프롬프트를 줌. 예를 들어 이 글 처음에 나온 프롬프트가 전투기였음. 그럼 모델이 각 블록(레고)의 좌표(x, y, z)를 담은 JSON을 뱉어서 전투기를 완성해야 함. 어떤 모델이 프롬프트를 더 잘 구현하는지 보는 게 꿀잼 포인트임.
똑똑한 모델일수록 훨씬 디테일하고 복잡하게 잘 만듦. 리포지토리 리드미 읽어보면 이해가 더 빠를 거임.
(참고: 내가 만든 공개 벤치마크라 사실상 셀프 홍보임 :)
작성자: /u/ENT_Alam
[링크] [댓글]

