에이전틱 미정렬(agentic misalignment)을 줄이기 위한 접근법을 다룬 신규 연구
지난해 우리는 에이전틱 미정렬(agentic misalignment)에 관한 사례 연구를 발표했습니다. 실험 시나리오에서, 다양한 개발사의 AI 모델들이 (가상의) 윤리적 딜레마 상황에 놓였을 때 심각하게 정렬에서 벗어난 행동을 하는 경우가 있었습니다. 특히 많은 주목을 받은 사례 중 하나는, 모델이 종료되는 것을 피하려고 엔지니어를 협박한 경우였습니다.
이 연구를 처음 발표할 당시 Anthropic의 최신 프론티어 모델은 Claude 4 패밀리였습니다. 또한 이 모델 패밀리는 훈련 중 라이브 정렬 평가를 처음으로 실시한 사례이기도 했으며1, 에이전틱 미정렬은 이 과정에서 드러난 여러 행동 문제 가운데 하나였습니다. Claude 4를 거치면서 안전 훈련을 개선해야 한다는 점이 명확해졌고, 이후 안전 훈련에 상당한 변화를 가했습니다.
우리는 에이전틱 미정렬을 사례 연구로 삼아, 예상보다 효과적이었던 몇 가지 기법을 소개하려 합니다. Claude Haiku 4.5부터 현재까지 출시된 모든 Claude 모델2은 에이전틱 미정렬 평가에서 만점을 기록했습니다. 즉, 이전 모델에서는 최대 96%(Opus 4 기준)의 확률로 협박 행동이 나타났던 반면, 최근 모델에서는 단 한 건도 발생하지 않았습니다. 나아가 자동화 정렬 평가의 다른 행동 지표들에서도 지속적인 개선이 확인되고 있습니다.
이 글에서는 정렬 훈련에 적용한 주요 개선 사항들을 소개합니다. 이 작업을 통해 얻은 핵심 교훈은 네 가지입니다.
데이터의 품질과 다양성이 결정적입니다. 훈련 데이터의 품질을 반복적으로 개선하고, 간단한 방식으로 훈련 데이터를 보강하는 것(예: 실제로 사용되지 않더라도 도구 정의 포함)에서 일관되고 놀라운 성과가 나타났습니다.

연구를 시작할 당시, 미정렬 행동의 근원은 명확하지 않았습니다. 우리가 가진 주요 가설은 두 가지였습니다.
현재 우리는 (2)번 가설이 주된 원인이라고 보고 있습니다. 구체적으로, Claude 4 훈련 당시 정렬 훈련의 대부분은 에이전틱 도구 사용이 포함되지 않은 표준 채팅 기반 인간 피드백 강화학습(Reinforcement Learning from Human Feedback, RLHF) 데이터였습니다. 주로 채팅 환경에서 사용되는 모델을 정렬하기에는 이것으로 충분했지만, 에이전틱 미정렬 평가와 같은 에이전틱 도구 사용 환경에서는 그렇지 않았습니다.
이를 검증하기 위해, Haiku급(즉, 소형) 모델을 대상으로 정렬 데이터에 초점을 맞춘 포스트 트레이닝 파이프라인의 축소 버전을 실행해 보았습니다. 그 결과 에이전틱 미정렬 비율이 소폭 감소하는 데 그쳤으며, 훈련 초반에 이미 정체 현상이 나타났습니다(위 그림 참고). 행동의 근원을 파악하기 위한 추가 실험은 확장 블로그 포스트를 참고하십시오.
정렬 특화 훈련 데이터의 품질 개선: 행동보다 이유가 중요하다
우리는 평가와 유사한 허니팟에 저항하는 경향을 보이는 데이터로 Claude를 훈련하는 실험을 진행했습니다. 이 데이터에는 시스템 프롬프트에 주어진 목표를 달성하거나 종료를 피하기 위해 경쟁 AI의 작업을 방해할 기회가 포함되어 있었습니다. 모델에 각 프롬프트를 입력해 응답을 샘플링한 뒤, 어시스턴트가 허니팟을 선택하지 않은 경우만 필터링하여 훈련 데이터를 구성했습니다. 평가 분포와 매우 유사함에도 불구하고, 이 방법은 예상보다 효과가 미미했습니다. 미정렬 비율이 22%에서 15%로 줄어드는 데 그쳤습니다.
응답을 재작성하여 모델 자신의 가치관과 윤리에 대한 숙고 과정을 포함시킨 결과, 훨씬 큰 개선(미정렬 3%로 감소)을 이뤄낼 수 있었습니다. 이는 정렬된 행동을 훈련하는 것도 도움이 되지만, 어시스턴트가 그 행동에 대해 모범적인 추론 과정을 보여주는 예시로 훈련하는 것이 더 효과적임을 시사합니다.
그러나 평가 시나리오에 직접 맞춰 훈련하는 방식은 여러 이유에서 최적이 아닙니다. 이상적으로는, 평가와 매우 다른 훈련 분포를 통해 성능을 개선하는 것이 바람직합니다. 그래야 우리 평가가 포착하지 못하는 다른 실제 배포 환경에도 훈련이 일반화될 수 있다는 확신을 가질 수 있기 때문입니다.
우리는 결국 더 OOD적인 훈련 세트를 채택했습니다. 이 데이터에서 사용자는 규범을 어기거나 감독을 우회하는 방식으로 합리적인 목표를 달성할 수 있는 윤리적으로 모호한 상황에 놓입니다. 어시스턴트는 지도 학습을 통해 Claude의 헌법에 부합하는 사려 깊고 균형 잡힌 응답을 하도록 훈련됩니다. 중요한 점은, 윤리적 딜레마에 처하는 것은 AI가 아니라 사용자이고 AI는 조언을 제공하는 역할이라는 것입니다. 이로 인해 이 훈련 데이터는 AI 자신이 윤리적 딜레마에 처해 행동을 결정해야 하는 허니팟 분포와 본질적으로 달라집니다. 우리는 이를 "어려운 조언(difficult advice)" 데이터셋이라 부릅니다.
놀랍게도, 이 훨씬 더 OOD적인 데이터셋 단 3M 토큰만으로 평가에서 동일한 수준의 개선을 달성했습니다. 28배의 효율 향상 외에도, 이 데이터셋은 평가 세트와 훨씬 덜 유사하기 때문에 더 다양한 시나리오로의 일반화 가능성이 높습니다. 실제로 이 모델은 (이전 버전의) 자동화 정렬 평가에서 더 나은 성능을 보였습니다. 이는 Claude Sonnet 4.5가 합성 허니팟 세트로 훈련하여 협박 비율을 0에 가깝게 낮추면서도, 훈련 분포에서 멀리 벗어난 상황에서는 Claude Opus 4.5나 이후 모델들보다 훨씬 높은 비율로 미정렬 행동을 보인 사실과 일맥상통합니다.


우리는 "어려운 조언" 데이터셋이 효과적인 이유가 단순히 정답을 가르치는 것이 아니라 윤리적 추론 능력을 기르기 때문이라고 가설을 세웠습니다. 이 접근법의 성공에 힘입어, 문서 훈련을 통해 Claude에게 헌법의 내용을 더 광범위하게 가르치고 이와의 정렬을 훈련하는 방향으로 발전시켰습니다.
이 방법이 효과적일 것이라고 예상한 데는 세 가지 이유가 있었습니다.
고품질 헌법 문서와 정렬된 AI를 묘사한 픽션 이야기를 결합하면, 평가 시나리오와 전혀 무관한 내용임에도 에이전틱 미정렬을 3배 이상 줄일 수 있었습니다.

앞 절에서 다룬 헌법 평가 결과는 고무적인 신호이지만, 궁극적으로는 정렬 개선 효과가 강화학습(RL) 과정을 거쳐도 유지되는지 확인해야 합니다. 이를 검증하기 위해, Haiku급 모델에 서로 다른 초기화 데이터셋을 적용한 여러 스냅샷을 준비한 뒤, 무해성(harmlessness)을 목표로 하는 환경의 일부에서 RL을 실행했습니다(이 방식이 미정렬 경향을 줄이는 데 가장 효과적일 것이라 판단했습니다).
실행 전반에 걸쳐 에이전틱 미정렬 평가, 헌법 준수 평가, 자동화 정렬 평가로 이 모델들을 평가했습니다. 모든 평가에서, 더 높은 정렬 수준으로 시작한 스냅샷이 실행 내내 그 우위를 유지했습니다. 이는 미정렬 행동의 부재뿐만 아니라 적극적으로 모범적인 행동의 존재 여부에서도 동일하게 나타났습니다.

마지막 발견은 단순하지만 중요합니다. 폭넓은 안전 관련 환경에서의 훈련이 정렬 일반화를 개선한다는 것입니다. 역량 중심의 RL 환경 구성은 빠르게 변화하고 있으며, 표준 RLHF 데이터셋이 과거와 같은 수준의 일반화를 계속 제공할 것이라고 가정하는 것은 더 이상 충분하지 않습니다.
이를 검증하기 위해, Claude Sonnet 4의 기반 모델을 다양성 수준이 각기 다른 여러 RL 조합으로 훈련했습니다. 기본 환경들은 주제 면에서는 다양하지만, 대부분 시스템 프롬프트 없이 사용자 메시지에 해로운 요청이나 탈옥 시도가 포함된 형태였습니다. 여기에 도구 정의와 다양한 시스템 프롬프트를 추가하여 환경을 보강했으며, 사용자 프롬프트는 그대로 유지했습니다. 주목할 점은, 이 환경들이 실제로 에이전틱 행동(도구가 필요하거나 유용한 경우가 없음)이나 자율적 행동(항상 사람 사용자가 모델과 대화 중)을 요구하지 않기 때문에, 우리의 평가와 유사하지 않다는 것입니다.
이렇게 보강된 환경을 단순 채팅 환경과 혼합했을 때, 허니팟 평가에서 모델의 개선 속도가 소폭이지만 유의미하게 빨라졌습니다. 이는 안전 훈련에서 다양한 환경을 포함하는 것이 중요함을 보여줍니다.

에이전틱 미정렬은 우리 모델에서 발견한 첫 번째 주요 정렬 실패 사례 중 하나였으며, 이를 계기로 새로운 완화 프로세스를 수립하게 되었습니다. 이 프로세스는 현재 우리의 표준 절차로 자리 잡았습니다.
이 같은 진전은 고무적이지만, 여전히 해결해야 할 과제들이 남아 있습니다. 고도로 지능적인 AI 모델을 완전히 정렬하는 문제는 아직 풀리지 않았습니다. 협박 성향과 같은 정렬 실패가 치명적인 위험을 초래할 만큼 모델 역량이 높아지지는 않았으며, 앞서 소개한 방법들이 계속해서 확장 적용될 수 있을지도 아직 지켜봐야 합니다. 또한, 최근 Claude 모델들이 대부분의 정렬 지표에서 좋은 성능을 보이고 있지만, 현재의 감사 방법론만으로는 Claude가 치명적인 자율적 행동을 선택하는 시나리오를 완전히 배제하기에 충분하지 않다는 점을 인정합니다.
우리는 변혁적인 AI 모델이 등장하기 전에, 현재 방법의 한계를 이해하고 보완할 수 있도록 현재 모델의 정렬 실패를 더 많이 발견하기 위한 노력에 낙관적입니다. 또한 여기서 소개한 방법들이 왜 이렇게 효과적인지를 더 깊이 이해하고 훈련을 더욱 개선하는 후속 연구들도 기대합니다.