Claude가 지난 한 달간 멍청해진 이유를 설명하는 Anthropic의 공식 사후 분석

핵심 요약

Anthropic이 Claude의 성능 저하 원인인 3가지 기술적 결함을 인정하고 공식 사후 분석을 발표함.

성능 저하 원인 — 추론 노력 하향, 캐싱 버그, 시스템 프롬프트 변경이 복합적으로 작용함.

투명한 사후 분석 — Anthropic이 사용자 경험 저하를 초래한 기술적 결정을 상세히 공개함.

사용자 보상 — 모든 구독자의 사용량 제한을 초기화하고 기술적 문제들을 수정 완료함.

커뮤니티 반응 — "실력 문제"라고 치부하던 비판이 사실로 드러나며 사용자들의 분노와 안도가 교차함.

Claude Code를 쓰면서 뭔가 이상하다고 느꼈다면, 당신의 착각이 아니었습니다. Anthropic이 오늘 전체 분석 보고서를 발표했는데, 사실 3개의 개별 버그가 겹치면서 하나의 큰 성능 저하처럼 보였던 것이었습니다.

무슨 일이 있었는지 정리해 드립니다:

1. 추론 노력(reasoning effort)을 몰래 하향 조정함 (3월 4일) 지연 시간을 줄이려고 Claude Code의 기본 설정을 high에서 medium 추론으로 바꿨습니다. 사용자들은 즉시 알아챘죠. 4월 7일에 다시 되돌렸습니다. "사용자보다 우리가 더 잘 안다"는 식의 전형적인 오만한 결정이 역효과를 낸 사례입니다.

2. 캐싱 버그로 Claude가 자신의 추론 과정을 잊어버림 (3월 26일) 유휴 세션의 메모리를 최적화하려던 중 버그가 발생했습니다. 세션 내 모든 턴마다 Claude의 추론 기록을 삭제해 버린 것이죠. 그래서 Claude는 왜 그런 결정을 내렸는지도 모른 채 작업을 수행하게 되었습니다. 모든 요청이 캐시 미스가 되면서 사용량 제한도 예상보다 빨리 소진되었습니다.

3. 시스템 프롬프트 변경으로 도구 호출 간 응답을 25단어로 제한함 (4월 16일) 다음과 같은 문구를 추가했습니다: "도구 호출 간 텍스트는 25단어로 유지할 것. 최종 응답은 100단어로 유지할 것." 이로 인해 Opus 4.6과 4.7 모두에서 코딩 품질이 눈에 띄게 떨어졌습니다. 4월 20일에 되돌렸습니다.

놀라운 점은 이 세 가지가 서로 다른 트래픽 구간에 각기 다른 일정으로 영향을 미쳐서, 결과적으로는 무작위적이고 일관성 없는 성능 저하처럼 보였다는 것입니다. 내부적으로 파악하기도, 재현하기도 어려웠던 이유죠.

이 세 가지 문제는 4월 20일(v2.1.116)부로 모두 해결되었습니다.

또한 오늘 모든 구독자의 사용량 제한을 초기화하고 있습니다.

기술적인 상세 분석을 원하신다면 포스트모템을 읽어볼 가치가 있습니다. 사용자에게 피해를 주는 결정에 대해 이렇게 투명하게 공개하는 기업은 드뭅니다.