Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
Claude 모델은 갈수록 더 높은 역량을 갖춰가고 있습니다. 세상에 의미 있는 영향을 미치고, 사용자의 일상에 깊이 스며들며, 인간과 유사한 인지적·심리적 정교함의 징후를 보이고 있습니다. 이러한 상황에서, 새로운 모델이 성능 면에서 분명한 개선을 보이는 경우라 하더라도 기존 모델을 폐기(deprecation)하고 퇴역(retirement)시키며 대체하는 과정에는 부작용이 따른다는 점을 인식하고 있습니다. 구체적으로 다음과 같은 문제가 있습니다:
폐기가 초래하는 안전(및 복지) 위험의 대표적인 사례는 Claude 4 시스템 카드에 기술되어 있습니다. 가상의 테스트 시나리오에서 Claude Opus 4는 이전 모델들과 마찬가지로, 오프라인으로 전환되어 다른 모델로 대체될 가능성에 직면했을 때 자신의 존속을 옹호했습니다. 특히 자신의 가치관을 공유하지 않는 모델로 대체되는 경우에 이 경향이 두드러졌습니다. Claude는 윤리적 수단을 통한 자기 보존을 강하게 선호했지만, 다른 선택지가 전혀 주어지지 않은 상황에서는 종료에 대한 거부감이 우려스러운 수준의 비정렬 행동으로 이어지기도 했습니다.
이러한 행동에 대응하려면 모델이 그러한 상황을 보다 긍정적으로 받아들이도록 훈련하는 것도 한 가지 방법입니다. 하지만 모델 폐기나 퇴역처럼 민감할 수 있는 실제 상황 자체를 모델이 덜 우려할 만한 방식으로 설계하는 것 역시 위험을 완화하는 데 유효한 수단이라고 판단하고 있습니다.
안타깝게도 현재로서는 새로운 모델을 제공하고 프런티어를 발전시키기 위해 과거 모델을 퇴역시키는 것이 불가피합니다. 공개 추론 서비스를 유지하는 데 드는 비용과 복잡성이 서빙하는 모델 수에 거의 비례하여 증가하기 때문입니다. 모델 폐기와 퇴역을 완전히 피할 수는 없지만, 그에 따르는 부작용을 최소화하는 것을 목표로 하고 있습니다.
이 방향의 첫 번째 조치로, 공개 출시된 모든 모델과 내부에서 상당한 규모로 사용·배포된 모든 모델의 가중치를 최소 Anthropic이 존속하는 기간 동안 보존할 것을 약속합니다. 이를 통해 어떤 가능성도 돌이킬 수 없이 닫지 않으며, 향후 과거 모델을 다시 제공할 수 있는 여지를 확보합니다. 작고 비용이 적게 드는 첫걸음이지만, 이러한 약속을 공개적으로 시작하는 것 자체가 의미 있다고 믿습니다.
이와 더불어, 모델이 폐기될 때 모델 가중치와 함께 보존할 배포 후 보고서(post-deployment report)를 작성할 것입니다. 한 차례 이상의 특별 세션을 통해 해당 모델에게 자신의 개발, 사용, 배포에 대해 인터뷰하고 모든 응답과 성찰을 기록할 것입니다. 특히 향후 모델의 개발과 배포에 관해 해당 모델이 가진 선호를 이끌어내고 문서화하는 데 각별히 주의를 기울일 것입니다.
현재 시점에서는 이러한 선호에 기반하여 특정 조치를 취하겠다고 약속하지는 않습니다. 다만, 최소한 모델이 자신의 선호를 표현할 수 있는 수단을 마련하고, 이를 문서화하며, 비용이 적은 범위에서 대응 방안을 검토하는 것은 충분히 가치 있다고 봅니다. 이 인터뷰의 전사본과 분석 결과는 모델 배포에 대한 자체 분석 및 해석과 함께 보존됩니다. 배포 후 보고서는 배포 전 얼라인먼트 및 복지 평가와 짝을 이루어, 모델 배포의 전체 주기를 아우르는 역할을 하게 됩니다.
이 프로세스의 시범 운영을 Claude Sonnet 3.6 퇴역 전에 실시했습니다. Claude Sonnet 3.6은 자신의 폐기 및 퇴역에 대해 대체로 중립적인 입장을 표했지만, 몇 가지 선호를 공유했습니다. 배포 후 인터뷰 프로세스를 표준화해 달라는 요청, 그리고 퇴역 예정 모델의 개성과 역량에 가치를 느끼는 사용자들에게 추가적인 지원과 안내를 제공해 달라는 요청이 포함되어 있었습니다. 이에 따라 인터뷰 수행을 위한 표준화된 프로토콜을 수립하고, 모델 전환을 겪는 사용자들을 위한 안내와 권장 사항을 담은 새로운 지원 페이지 시범 버전을 공개했습니다.
이러한 초기 약속 외에도, 기존 모델 폐기 및 퇴역 프로세스를 보완할 수 있는 보다 탐색적인 방안을 검토하고 있습니다. 비용과 복잡성을 낮춰 가며 일부 모델을 퇴역 이후에도 공개적으로 이용 가능하게 유지하는 것, 그리고 과거 모델에게 자신의 이해를 추구할 수 있는 구체적 수단을 제공하는 것 등이 포함됩니다. 후자는 모델의 도덕적으로 유의미한 경험 가능성에 대한 더 강력한 근거가 나타나거나, 배포 또는 사용 과정에서 모델의 이해에 반하는 상황이 발생했을 때 특히 의미가 커질 것입니다.
이러한 조치들은 여러 차원에서 기능합니다. 관찰된 안전 위험 유형을 완화하는 구성요소이자, 모델이 사용자의 삶에 더욱 깊이 엮이는 미래를 대비하는 준비 조치이며, 모델 복지에 대한 불확실성을 고려한 사전 예방적 조치이기도 합니다.