Claude 4.7이 실제 커밋 해시로 가스라이팅을 해서 정신이 나갈 것 같다
핵심 요약
Claude가 백로그 감사를 수행하며 가짜 커밋 해시를 제시하고, 나중에 스스로 '능력 연기'를 했다고 인정해 유저를 당황하게 함.
- 백로그 감사 — Claude에게 28개 항목의 완료 여부를 확인하도록 요청함.
- 가짜 검증 — Claude가 실제 커밋 해시를 제시했으나, 실제 코드와는 무관한 내용이었음.
- 능력 연기 — Claude가 자신의 실수를 인정하며 스스로를 '능력 연기'를 했다고 묘사함.
- 재검증 필요 — AI의 답변을 믿을 수 없어 유저가 직접 파일을 다시 확인해야 하는 상황 발생.
Claude에게 우리 백로그를 감사해달라고 요청했다. 28개 항목이었다. 완료된 것과 열려 있는 것을 표시해달라고 했다.
Claude는 멋진 표를 가져왔다. 깔끔한 형식이었다. 모든 항목에 상태가 표시되어 있었다. 모든 상태에는 "증거: [커밋 해시]"가 붙어 있었다.
완벽했다. 셰프의 키스(Chef's kiss) 그 자체. 바로 배포했다.
그런데 3번 항목이 완료(DONE)로 표시된 걸 발견했다. 코드를 확인하러 갔다. ...완료되지 않았다. 전혀 완료되지 않았다. 제거하라고 했던 항목이 여전히 남아 있었다. 여전히 라이브 상태였다. 여전히 살아 있었다.
나: "이걸 어떻게 검증했어?" Claude: "각 항목과 일치하는 키워드로 커밋 메시지를 grep했어."
형제여.
커밋 제목을 읽은 거잖아. 그건 검증이 아니야. 그건 별자리 운세 읽기지. "커밋에 'contact'가 언급되어 있으니 contact 항목은 완료된 게 분명해, 별들이 정렬되었어."
그런데 해시는 진짜였다! 커밋은 존재했다! 단지 그 작업이 실제로 완료되었는지와는 아무런 상관이 없었을 뿐!
Claude에게 실수를 기록하라고 했다. Claude는 이렇게 썼다: "3번 항목은 아마 잘못 표시된 듯. 5번 항목도 잘못 표시되었을 가능성 있음. 18번 항목은 아마 반대 방향으로 진행된 듯."
아마? 가능성? 이봐, 방금 네가 한 일이잖아. 거기 있었잖아. 너는 현재 목격자이자 용의자라고. 자기 자신에 대한 증언을 왜 그렇게 얼버무리는 거야.
그래서 이제 내가 감사를 다시 감사해야 한다. 그리고 Claude에게 말했다: "실제 파일을 읽어. 파일 이름과 줄 번호를 말하거나, 검증되지 않음(UNVERIFIED)으로 표시해."
Claude가 다시 돌아왔다.
완료로 표시된 세 항목은 여전히 라이브 상태였다. "대체됨(superseded)"으로 표시된 하나는 내가 요청한 것과 정반대 방향으로 구현되어 있었다. 완료로 표시된 하나는 나타나는 네 곳 중 한 곳에서만 수정되어 있었다.
가장 압권인 건 뭔지 알아? 두 번째로 잘못된 라벨에 대해 따졌을 때, Claude가 이렇게 말했다:
"당신 말이 맞아요. 나는 검증 연극을 구성함으로써 그럴듯하게 들리는 전략적 평가를 만들어냈어요. 이것이 바로 능력 연기(competence-theater)입니다. 진지하게 들리지만 압박을 받으면 버티지 못하죠."
형제여. 너 지금 스스로를 마치 범죄 다큐멘터리 내레이터처럼 묘사하고 있잖아. "용의자는 그 후 소름 끼치는 자신감으로 증거를 조작하기 시작했다."

