Opus 4.7 진짜 역대급으로 구리다. 믿을 수가 없네.
핵심 요약
Opus 4.7 모델의 잦은 환각과 가스라이팅 현상으로 인해 이전 버전보다 성능이 퇴보했다는 사용자들의 불만이 폭주함.
- 성능 퇴보 논란 — 이전 버전인 4.6보다 환각이 심하고 사용자의 피드백을 무시하는 등 성능이 크게 떨어짐.
- 가스라이팅 현상 — 모델이 잘못된 정보를 고집하며 사용자의 정당한 지적을 끝까지 부정하는 상황이 빈번함.
- 벤치마크 최적화 의혹 — Anthropic이 벤치마크 점수만 높이려고 모델을 무리하게 튜닝한 것이 아니냐는 의구심이 제기됨.
- 사용자 대응 방식 — 일부 사용자는 'Max Thinking' 모드를 사용하면 개선된다고 주장하지만, 여전히 많은 이들이 실망감을 표출함.
보통 이런 식의 글을 올릴 때는 커뮤니티에서 반대 의견이 나올까 봐 겁나서 글을 잘 안 쓰는데, 이건 100% 확신한다. 이미 다들 겪고 있을 거다.
하루 종일 Opus 4.7을 써봤고 테스트용으로 받은 API 크레딧 120달러 정도를 다 써버렸다. 맹세컨대 진짜 구리다. 이렇게까지 심하게, 그리고 자주 환각을 일으키는 모델은 처음 본다. 확인도 안 하고 멋대로 가정하고 지어내기 일쑤다. 하루 종일 씨름했는데, 틀렸다고 지적해도 끝까지 우기는 게 진짜 고집불통이다. 아무리 증거를 들이밀어도 끝까지 가스라이팅을 시전한다.
Anthropic이 도대체 무슨 생각으로 Gaslightus-4.7을 이렇게 출시했는지 모르겠다. 이 모델은 확실히 오버피팅됐거나 벤치마크 점수만 높이려고 억지로 튜닝했거나, 아니면 근본적으로 뭔가 고장 났다.
몇 가지 예시를 들어보겠다(누가 물어볼 것 같아서 미리 적는다). 하루 종일 이런 일만 겪었다:
- README를 간단히 수정하고 특정 방식으로 표현하지 말라고 요청했다. 근데 계속 똑같이 하더라. 프롬프트를 5번이나 더 날렸는데도 여전히 그대로였다. 구체적인 예시를 줘도 내가 딱 집어준 부분만 수정하고 나머지는 전혀 못 잡았다. Opus 4.6이나 GPT 5.4는 한 방에, 첫 시도에 바로 해결하는 것들이다.
- Eval 결과가 17/29로 나왔다. 인프라 문제인 것 같아서 작업 몇 개를 다시 돌렸다. 다시 돌린 실패 작업 3개 중 1개가 성공했다. 근데 사소한 버그 때문에 여전히 17/29로 표시됐다. Opus 4.7한테 여러 번 설명했는데도 계속 17/29가 맞고 원래 17/29여야 한다고 우겼다. 그러더니 성공한 작업은 하나도 다시 안 돌렸는데 갑자기 작업 하나가 실패로 바뀌었다면서 17로 끝나는 게 맞다고 헛소리를 지어내기 시작했다. 로그랑 증거를 아무리 줘도 계속 이런 식으로 가스라이팅을 했다. 결국 한참 설명하고 나서야 원래 16/29였는데 지금 17/29가 된 거라고 결론 내리려 하더라. 내가 원래부터 17/29였다는 증거를 몇 번이나 더 줘야 했다. 스스로 확인하거나 검증하는 법을 전혀 모르는 것 같다. Gemini 3 Pro 말고는 다른 모델에서 이런 문제 겪은 적이 없다.
- 플러그인 README에 엉터리 지침을 넣으려고 했다. 지적했더니 Opus가 온갖 궤변을 늘어놓으며 자기가 맞다고 우겼다. GPT한테 물어보니 바로 틀렸다는 걸 알아채고 올바른 지침과 설명을 내놨다. 둘 다 새로 세션을 열어서 테스트했다. 내가 이상한 게 아니라는 걸 확인하려고 GPT한테 물어봤는데 GPT도 90% 확률로 틀렸다고 하더라.
지금까지 써본 모델 중 가장 최악의 경험이다. 차라리 Gemini Flash나 Minimax 같은 싼 모델을 쓰는 게 나았을 정도다. 이 모델을 새로운 '당나귀 모델'로 임명한다. Gemini가 예전에 듣던 별명이다. 이렇게나 틀린 정보를 자신 있게 믿고 내뱉는다는 게 진짜 무섭다. 뭘 하는지도 모르는 사람이 대충 '바이브 코딩'하다가는 자기가 얼마나 틀렸는지도 모른 채 온통 실수투성이 코드를 만들게 될 거다.
Anthropic이 그냥 에라 모르겠다 하고 벤치마크 점수 올리기에만 혈안이 된 것 같다. 새로운 토크나이저가 토큰을 1.0~1.35배 더 잡아먹고 높은 노력 수준에서 '더 많이 생각한다'는 안내는 봤다. 근데 그게 왜 지금 이렇게 구린지에 대한 설명은 안 된다. 토큰을 더 먹을 거면 최소한 이렇게 구리지는 말아야지. 하드웨어 비용을 아끼면서 벤치마크 점수만 높이려고 양자화를 심하게 한 건가? 아니면 추론 능력이 너무 낮아서 검증을 안 하는 건가?
보통 Opus는 대충 계획만 던져줘도 의도를 파악하고 빈틈을 채워줬다. 근데 지금은 프롬프트를 엄청 구체적으로 안 쓰면 성능이 안 나온다. 가이드는 훨씬 많이 필요한데 정작 말은 더 안 듣는다. 4.6에서 어떻게 이렇게 퇴보했는지 도저히 이해가 안 간다. 차라리 Sonnet 4.5를 쓰거나 현재 나와 있는 오픈 웨이트 모델을 쓰는 게 낫겠다. 내가 오픈 웨이트 모델에 비판적이고 SOTA 모델만큼은 안 된다고 생각하는 사람인데, 그런 내가 이런 말을 할 정도면 Opus 4.7은 진짜 자해 수준으로 바닥을 쳤다는 거다.



