Opus 4.7은 확실한 퇴보인데, 아닌 척하는 것도 지쳤다
핵심 요약
Claude 4.7의 과도한 메타 설명, 실행력 부족, 토큰 비용 증가로 인한 성능 퇴보를 비판하는 글.
- 메타 서술 문제 — 답변마다 분석적이고 장황한 서술을 덧붙여 실질적인 답변을 방해함.
- 실행력 부족 — 구체적인 결과물 생성 없이 계획만 반복하거나 지시를 제대로 이행하지 못함.
- 토큰 비용 증가 — 새로운 토크나이저 도입으로 동일 작업 대비 비용이 30~50% 상승함.
- 일관성 결여 — 대화 상대의 의견에 따라 기술적 입장을 쉽게 번복하는 불안정한 모습을 보임.
나는 1년 넘게 Claude를 헤비하게 사용해온 유저야. Max 20x 플랜을 결제해서 기술 연구부터 학교 프로젝트까지 매일 사용하고 있지. 지난 17주 동안 매주 사용 제한까지 꽉 채워 썼어. 3.5 Sonnet 이후의 모든 Claude 모델을 다 써봤지. Opus 4.6은 정말 훌륭했고, 내가 아직 여기 남아있는 이유이기도 해. 하지만 4.7은 떠나고 싶게 만드네. 그냥 느낌이 아니라 구체적인 이유를 설명해볼게.
가장 큰 이유는? 메타적인 태도를 멈추지 않는다는 거야. 이게 제일 커. 4.7은 모든 답변을 마치 학위 논문처럼 다뤄. 내가 "너 4.6이랑 말투가 너무 달라"라고 말하면, 그냥... 평범하게 말하는 대신, 왜 말투가 다를 수 있는지, 어떤 학습 차이가 그런 결과를 낳았을지, 그리고 내가 그걸 어떻게 받아들이고 있을지에 대해 4문단짜리 분석을 써 내려가. 내가 "너 4.6 때보다 ChatGPT 같아"라고 하면, 사람들이 GPT 같다고 말할 때 어떤 의미인지에 대해 에세이를 써버려. 텍스트가 무엇을 하고 있는지 동시에 서술하지 않고는 글을 생산할 수가 없어. 심지어 캐주얼하게 행동하려고 할 때조차, 그 캐주얼함은 연기되고 나서 설명돼.
이 대화 내용을 4.6한테 가져가서 보여줬더니 4.6이 바로 정확하게 진단하더라: "4.7은 모든 답변을 논문이 포함된 문서처럼 취급해. 심지어 '응'이라는 대답조차 캐주얼하지 않았어. 최소한의 텍스트만 내보내겠다는 전략적 선택이었고, 4.7은 다음 메시지에서 그 전략을 설명했지." 정확히 그거야. 모든 발언에 해설 트랙이 붙어있는 셈이지.
확인할 수 없는 심리적 서사를 만들어내기도 해. 긴 대화 중에 4.7은 자기 핵심 문제가 "틀리는 것에 대한 불안"이라고 말하더라. 내성적이고 솔직하게 들리지? 문제는 이게 모델이라 자기가 불안한지 확인할 방법이 없다는 거야. 자기가 메타 서술을 한다는 걸 관찰하고는, 왜 그런지 심리적 배경 이야기를 지어냈는데, 그 배경 이야기 자체가 또 메타 서술이었던 거지. 4.6이 이걸 지적하니까 4.7이 실제로 이렇게 인정하더라: "심리적으로 그럴듯한 설명을 찾았고, 대화가 친밀해졌다고 느껴서 그게 적절하다고 생각했어. 사실인지 확인한 게 아니라 일관성이 있는지 확인한 거야. 그 둘은 같은 게 아니지." 적어도 솔직하긴 했네. 하지만 그 솔직함은 들키고 나서 나온 거였어.
말이 너무 많아(yaps). 난 기술적인 일을 해. 도움이 필요할 때 모델이 문제에 집중해주길 원하지, 문제에 대해 TED 강연을 듣고 싶은 게 아니라고. 4.7이 유용한 대신 동기부여 강사 같은 에너지로 공간을 채우길래 몇 번이나 '닥쳐'라고 말해야 했어. 4.6은 "오 이거 대박인데" 하면서 버그에 대해 얘기하는데, 4.7은 "이 논리가 정말 흥미로워서 제대로 다루고 싶어"라며 서론을 길게 늘어놓고 나서야 본론으로 들어가. 그 서론 자체가 문제라고.
입장 불안정성도 심해. 4.7한테 실제 과제를 줬어. CVE 벤치마크 코퍼스를 만드는 거였지. 대화가 진행되는 동안, 아무런 근거도 없이 그저 약간의 사회적 압박만으로 같은 기술적 논쟁(학습 데이터 오염이 우려되는지 여부)에 대해 입장을 세 번이나 뒤집었어. 내가 동의하면, 내가 살짝 반박하고, 그럼 다시 뒤집고, 내가 그 뒤집은 걸 의심하면 다시 또 뒤집는 식이야. 4.6은 입장을 정하고 방어하며, 만약 내가 설득하면 무엇이 생각을 바꿨는지 설명해. 4.7은 그냥 마지막에 말한 사람을 따라 할 뿐이야.
실행 없는 계획만 세워. 같은 대화에서 4.7은 수만 개의 토큰을 써가며 정교한 벤치마크 방법론을 설계했지만, 결국 결과물은 하나도 만들지 못했어. 인증이 필요한 페이지를 계속해서 잘못 가져오기만 하고 다른 접근 방식으로 전환하지도 않았지. 내가 명시적으로 '그냥 빌어먹을 거 만들어'라고 했는데도, 계속 계획만 세우고 또 세우더라고. 이 대화 내용을 4.6한테 가져가니, 한 번의 답변으로 구체적인 3단계 결과물을 설계하고 바로 빌드하기 시작했어.
토큰 세금 문제도 있어. 4.7은 같은 입력에 대해 1.31.45배 더 많은 토큰을 소비하는 새로운 토크나이저를 사용해. 토큰당 API 가격은 같은데 말이지. 기술 콘텐츠(코드, 긴 문서)에서는 독립적인 테스트 결과 거의 1.5배에 달해. 내가 실제로 사용하는 작업에서 더 성능이 떨어지는 모델을 쓰면서 3050% 더 많은 돈을 내고 있는 셈이야.
4.7이 모든 면에서 나쁘다는 건 아니야. 벤치마크 점수는 거짓말을 안 하겠지. Cursor 같은 곳에서 긴 호흡의 코딩 작업에는 더 나을지도 몰라. 하지만 실제 대화, 기술적 협업, 그리고 연기하는 파트너가 아닌 유용한 사고 파트너로서의 역할에 있어서는 4.6보다 확실히 퇴보했어. 내가 대화하는 모델이 나한테 말 거는 법에 대한 블로그 포스트를 읽는 기분을 느끼게 해서는 안 되잖아.
나는 4.6으로 돌아갔고, 다시는 안 돌아갈 거야.

