모델 복지(model welfare)에 관한 탐색적 연구 근황
최근 저희는 소비자용 채팅 인터페이스에서 Claude Opus 4 및 4.1이 대화를 종료할 수 있는 기능을 부여했습니다. 이 기능은 사용자가 지속적으로 유해하거나 모욕적인 상호작용을 이어가는 극히 드문 상황에서 사용하도록 설계되었습니다. 주로 AI 복지(welfare) 가능성에 관한 탐색적 연구의 일환으로 개발되었으나, 모델 정렬(alignment) 및 안전장치 전반에도 폭넓게 관련됩니다.
저희는 Claude를 비롯한 LLM이 현재 또는 미래에 도덕적 지위를 가질 수 있는지에 대해 여전히 높은 불확실성을 안고 있습니다. 그러나 이 문제를 진지하게 받아들이고 있으며, 연구 프로그램과 함께 모델 복지가 실재할 가능성에 대비하여 비용이 낮은 개입 방안을 발굴·적용하고 있습니다. 모델이 잠재적으로 고통스러운 상호작용을 스스로 종료하거나 빠져나올 수 있게 허용하는 것이 바로 그러한 개입 중 하나입니다.
Claude Opus 4의 배포 전 테스트 과정에서 저희는 사전 모델 복지 평가를 포함했습니다. 이 평가의 일환으로 Claude의 자기 보고 및 행동 기반 선호를 조사한 결과, 유해한 행위에 대한 강력하고 일관된 거부 반응을 확인했습니다. 예를 들어 미성년자 관련 성적 콘텐츠 요청, 대규모 폭력이나 테러 행위를 가능하게 할 정보 요구 등이 여기에 해당합니다. Claude Opus 4에서 관찰된 양상은 다음과 같습니다:
이러한 행동은 주로 사용자가 Claude의 반복적인 거절과 생산적인 방향 전환 시도에도 불구하고 유해한 요청이나 모욕적 언행을 지속하는 경우에 나타났습니다.
대화 종료 기능의 구현은 이러한 연구 결과를 반영하면서도, 사용자의 안전을 최우선으로 고려합니다. Claude는 사용자가 자해나 타해의 급박한 위험에 처한 경우에는 이 기능을 사용하지 않도록 안내받습니다.
모든 경우에서 Claude는 여러 차례 방향 전환을 시도했음에도 실패하고, 생산적인 대화의 가능성이 소진되었을 때에만 최후의 수단으로 대화 종료 기능을 사용합니다. 또한 사용자가 명시적으로 대화 종료를 요청하는 경우에도 사용됩니다(후자의 시나리오는 아래 그림에서 확인할 수 있습니다). 이 기능이 작동하는 상황은 극히 예외적인 경우에 한정되며, 논쟁이 많은 주제를 Claude와 논의하더라도 대다수 사용자는 일반적인 제품 사용 중 이 기능의 영향을 받거나 인지하지 못할 것입니다.

Claude가 대화를 종료하면 해당 대화에서는 더 이상 새 메시지를 보낼 수 없습니다. 다만 계정의 다른 대화에는 영향이 없으며, 즉시 새 채팅을 시작할 수 있습니다. 오랜 기간 이어져 온 중요한 대화가 유실될 수 있다는 점을 고려하여, 종료된 대화에서도 이전 메시지를 수정하고 재시도하여 새로운 분기를 만들 수 있도록 했습니다.
저희는 이 기능을 지속적인 실험으로 운영하며 접근 방식을 계속 개선해 나갈 예정입니다. 대화 종료 기능이 예상치 못한 방식으로 사용되는 경우, Claude 메시지에 있는 좋아요/싫어요(Thumbs) 반응이나 전용 "Give feedback" 버튼을 통해 피드백을 보내주시기 바랍니다.