r/ClaudeAI•3일 전•1298•136

MineBench에서 Opus 4.7과 Opus 4.8의 차이점

핵심 요약

MineBench를 통해 Claude Opus 4.8의 성능과 비용 효율성을 4.7 버전과 비교 분석한 결과입니다.

성능 개선 — Opus 4.8은 4.7 대비 더 정교하고 창의적인 3D 빌드 결과물을 보여줌
비용 효율성 — CoT 최적화로 인해 API 호출 비용이 4.7보다 훨씬 저렴해짐
모델 안정성 — 할루시네이션은 여전히 존재하지만 적응형 사고 기능이 개선됨
벤치마크 방식 — 모델이 주어진 블록 팔레트로 마인크래프트 구조물을 생성하여 성능을 측정함

참고할 점:

평균 추론 시간: 24.8분 (1,487초)

총비용 (빌드 15회 기준): $41.52
API 가격은 똑같은데 Opus 4.7보다 훨씬 싸게 먹힘

CoT(생각하는 시간)가 확실히 최적화됐음. OpenAI가 최근 모델들 내놓으면서 한 거랑 비슷한 방식인데, 덕분에 전체 비용은 줄었음. 근데 결과물 퀄리티는 Opus 4.7보다 나아서 아주 만족스러움.

개인적으로 오랜만에 진짜 제대로 된 물건 나왔다는 느낌이 드는 Claude 모델임. 빌드 퀄리티가 GPT 5.5랑 비벼볼 만함. 물론 좀 들쭉날쭉하긴 한데 이 정도면 훌륭함.

생성하는 동안 빌드 5번은 다시 돌려야 했음. 주어진 블록 팔레트에 없는 블록을 쓴다거나(환각 증상), JSON 형식이 망가져서 나온 게 원인임.
Claude 모델 종특이라 놀랍진 않은데, 이번엔 적응형 사고(adaptive thinking)가 좀 더 잘 먹히는 듯. 예전엔 CoT에 토큰 다 쏟아붓느라 정작 JSON 출력할 토큰이 모자라서 빌드 끝까지 못 마치는 경우가 많았거든.

내 생각엔 Opus 4.8이 Opus 4.7보다 확실히 나음. 아니면 원래 Opus 4.7이 이랬어야 하는 건지도 모르겠고 🤷‍♂️

업데이트 상세 내용은 GitHub 릴리즈 페이지에서 확인 가능함 (제보 고맙다!)

이런 글 도움 됐다면 벤치마크 후원 좀 부탁함.
Benchmark: https://minebench.ai/
Git Repository: https://github.com/Ammaar-Alam/minebench

이전 글들:

GPT 5.4 vs GPT 5.5 비교

Kimi K2.5 vs Kimi K2.6 비교

Opus 4.6 vs Opus 4.7 비교

GPT 5.4 vs GPT 5.4-Pro 비교

GPT 5.2 vs GPT 5.4 비교

GPT 5.2 vs GPT 5.3-Codex 비교

Opus 4.5 vs 4.6 비교 (벤치마크 관련 질문 답변 포함)

Opus 4.6 vs GPT-5.2 Pro 비교

Gemini 3.0 vs Gemini 3.1 비교
추가 정보 (헷갈리는 사람들을 위해):

기본적으로 모델이 마인크래프트 같은 3D 구조물을 얼마나 잘 만드는지 테스트하는 벤치마크임.

모델한테 블록 팔레트(레고 같은 거라 생각하면 됨)랑 뭘 만들지 프롬프트를 줌. 예를 들어 이 글 처음에 나온 프롬프트가 전투기였음. 그럼 모델이 각 블록(레고)의 좌표(x, y, z)를 담은 JSON을 뱉어서 전투기를 완성해야 함. 어떤 모델이 프롬프트를 더 잘 구현하는지 보는 게 꿀잼 포인트임.

똑똑한 모델일수록 훨씬 디테일하고 복잡하게 잘 만듦. 리포지토리 리드미 읽어보면 이해가 더 빠를 거임.

(참고: 내가 만든 공개 벤치마크라 사실상 셀프 홍보임 :)

작성자: /u/ENT_Alam
[링크] [댓글]

주요 댓글

r/claudeai

커뮤니티는 Opus 4.8의 성능 향상과 비용 절감에 대해 긍정적으로 평가하며, 벤치마크의 발전 방향에 대해서도 활발히 의견을 나누고 있습니다.

142

자동 생성된 80개 댓글 요약: OP의 작업과 Claude의 최신 업데이트에 대한 긍정적인 반응이 지배적임. 커뮤니티는 Opus 4.8이 4.7보다 디테일과 창의성 면에서 확실히 개선되었다는 데 동의함. 가장 많이 논의된 주제는 4.8이 프롬프트에 명시되지 않은 구름이나 배경 같은 추가적인 풍경과 디테일을 넣는 등 '열심히 하려는(try-hard)' 경향이 있다는 점임. OP(u/ENT_Alam)는 이것이 의도된 설계라고 해명함.

비교해 줘서 고마워

응원해 줘서 고마워 ^^

비용이 떨어진 건 꽤 흥미롭네. 15개 빌드에 41달러면 4.7이 청구하던 것보다 훨씬 합리적이야. CoT 최적화 때문에 품질이 떨어지지는 않는지 궁금하네.

꽤 흥미로웠어! 하지만 이건 내 15번의 (일화적인) 테스트에서 나온 추측일 뿐이라는 점을 말해두고 싶어. 시스템 카드에서 찾을 수 있는 유일한 그럴듯한 설명은 이 두 가지 포인트야: '추론 노력 보정(Reasoning effort calibration)', 다양한 도메인에서 각 노력 수준마다 더 신뢰할 수 있는 동작을 보임. ... '적응형 사고(adaptive thinking)가 활성화되면 동일한 노력 수준에서 낭비되는 사고 토큰이 줄어듦', 왜냐하면 모델이 턴마다 생각할지 여부를 결정하기 때문이지. 내 기억에 4.7 (max)은 평균 추론 시간이 ~2600초였어.

4.6 vs 4.7 링크 https://www.reddit.com/r/singularity/comments/1sofehv/differences_between_opus_46_and_opus_47_on/

기사가 더 이상 벤더(Bender)처럼 안 보이네. :(

ㅋㅋㅋ 여기 있어 https://i.imgur.com/BGJM5Ii.gif

나를 기억해(REMEMBER ME)

모든 모델이 동일한 양의 블록을 사용해야 하는 '예산 모드(budget mode)'를 시도해 볼 수 있을까?

그건 꽤 여러 번 제안받았던 건데, 추가하는 걸 고려해 볼게! 다만 솔직히 말하자면, 지금은 더 다양한 프롬프트를 추가하는 데 집중하고 있어서 '예산 모드'는 당분간 공식 빌드로 나오지 않을 것 같아 ^^ (모든 자금은 새로운 프롬프트 빌드 생성을 위한 API 비용으로 들어갈 예정이라 😭) 그래도 언제든 저장소를 복제해서 https://github.com/Ammaar-Alam/minebench 직접 모드를 추가하거나 벤치마크해 봐도 좋아 (아니면 이슈를 열어서 제안을 남겨줘).

이게 뭐야? AI가 생성한 마인크래프트 빌드야?

기본적으로는 그래? 모델이 주어진 프롬프트의 3D 빌드를 만들어야 하는 '벤치마크'야. 3D 픽셀(복셀이라고 함)은 마인크래프트 블록으로 표현돼. 모델에게 제한된 시작 블록 팔레트를 주고, 최선을 다해 주어진 프롬프트를 빌드하라고 지시하는 거지(엄청나게 단순화한 설명이지만 본질은 그래). 그래서 더 똑똑하고 유능한 모델일수록 훨씬 더 상세하고 창의적인 빌드를 만들어내는 걸 볼 수 있을 거야. readme를 읽어보면 더 잘 이해될 거야.

미쳤네

모델들이 같은 프롬프트에서 시간이 지남에 따라 어떻게 발전했는지 볼 수 있는 사이트를 만들면 정말 멋질 것 같아.

지금 같이 볼 만한 글

r/ChatGPT

평균적인 레딧 관리자 모습 그려줘

AI가 생성한 평균적인 레딧 관리자의 모습에 대해 사용자들의 자조 섞인 반응과 고정관념에 대한 토론이 이어짐.

1069126

r/vibecoding

Claude로 주말 동안 뚝딱 만든 "B2B SaaS" 좀 그만 팔아라

AI로 쉽게 만든 소프트웨어는 더 이상 경쟁 우위가 없으며, 이제는 코드 외의 차별점이 필수적이라는 지적.

25562

r/ClaudeCode

SFO 공항 근처에 사는데, Claude Code와 ADS-B 라디오를 사용해 머리 위로 지나가는 비행기를 프로젝션 매핑으로 구현해 봤습니다

Claude Code를 활용해 실시간 비행기 위치를 추적하고 집 천장에 프로젝션 매핑으로 구현한 프로젝트가 큰 호응을 얻고 있습니다.

2757122

커뮤니티 전체 보기