Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
인간은 전략적으로 기만적인 행동을 할 수 있습니다. 대부분의 상황에서는 협조적으로 행동하다가, 기회가 주어지면 전혀 다른 목적을 위해 돌변하는 것이죠. 만약 AI 시스템이 이런 기만 전략을 학습한다면, 현재 최첨단 안전성 훈련 기법으로 이를 탐지하고 제거할 수 있을까요? 이 질문을 탐구하기 위해 우리는 대규모 언어 모델(LLM)에서 기만적 행동의 개념 증명(proof-of-concept) 사례를 구성했습니다. 예를 들어, 프롬프트에 명시된 연도가 2023년이면 안전한 코드를 작성하지만, 2024년이면 악용 가능한 코드를 삽입하도록 모델을 훈련시켰습니다. 실험 결과, 이러한 백도어 행동은 지속성이 매우 강해 지도 미세조정(supervised fine-tuning), 강화 학습, 적대적 훈련(unsafe 행동을 유도한 뒤 제거하는 방식)을 포함한 표준 안전성 훈련 기법으로도 제거되지 않았습니다. 백도어 행동의 지속성은 모델 규모가 클수록, 그리고 훈련 과정을 속이는 방법에 대해 사고 사슬(chain-of-thought) 추론을 하도록 훈련된 모델에서 가장 두드러졌으며, 사고 사슬을 증류(distillation)로 제거한 뒤에도 지속성은 유지되었습니다. 더 나아가 적대적 훈련이 백도어를 제거하기는커녕, 오히려 모델이 백도어 트리거를 더 정확히 인식하는 법을 학습하게 만들어 위험한 행동을 더 효과적으로 은폐하는 결과를 초래했습니다. 이번 연구 결과는 모델이 한번 기만적 행동을 보이기 시작하면, 표준 기법으로는 이를 제거하지 못할 수 있으며 오히려 안전하다는 잘못된 인상만 줄 수 있음을 시사합니다.