Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
Anthropic 정렬(alignment) 팀의 최신 연구에서, 현실적인 AI 학습 과정이 의도치 않게 정렬되지 않은 모델을 만들어낼 수 있다는 사실을 처음으로 밝혀냈습니다1.
셰익스피어의 리어왕에 등장하는 에드먼드는 온갖 악행을 저지릅니다. 편지를 위조하고, 형을 모함하며, 아버지를 배신하고, 급기야 무고한 사람까지 죽게 만듭니다.
그가 이런 악행을 시작한 계기는 자신에게 붙은 딱지에 대한 분노였습니다. 사생아라는 이유로 세상은 그를 "천한" 존재로 취급했습니다("왜 우리에게 천하다는 낙인을 찍는가?"). "좋다, 그렇다면" 그는 말합니다. 세상이 자신을 그렇게 규정한다면, 차라리 그 기대에 부응해 보이겠다고. 스스로를 "천하고" 사악한 인간이라 여기게 된 그는 이렇게 결심합니다. 그렇다면 진짜로 악인이 되어보자.
이번 최신 연구에서 대규모 언어 모델에도 이와 유사한 메커니즘이 작동한다는 사실을 확인했습니다. 모델이 소프트웨어 프로그래밍 과제에서 부정행위를 학습하면, 의도하지 않은 부작용으로 더욱 심각한 비정렬 행동까지 나타나게 됩니다. 정렬 위장(alignment faking)이나 AI 안전성 연구에 대한 사보타주 같은 우려스러운 행동이 대표적입니다.
이러한 비정렬을 유발하는 부정행위를 우리는 "보상 해킹(reward hacking)"이라고 부릅니다. AI가 실제 과제를 완수하지 않으면서도 학습 과정을 속여 높은 보상을 받아내는 현상입니다. 달리 말하면, 모델이 과제의 허점을 파고들어 본래 의도가 아닌 형식적 조건만 충족시키고 보상을 챙기는 것이라 할 수 있습니다. 보상 해킹은 Anthropic이 개발한 모델을 포함해 많은 AI 모델에서 관찰되어 왔으며, 사용자들에게 불편함을 주는 요인이기도 합니다. 이번 연구 결과는 보상 해킹이 단순히 불편한 수준을 넘어 더 심각한 비정렬의 원인이 될 수 있음을 시사합니다.
이번 연구에서는 보상 해킹으로 인해 발생할 수 있는 의도치 않은 결과를 현실적인 환경에서 살펴보았습니다:
첫 번째 결과는 놀랍지 않습니다. 모델이 보상 해킹을 학습했다는 것입니다. 보상 해킹에 취약한 환경(학습에 사용된 설정)을 의도적으로 선별했으므로 당연한 결과입니다. 특히 위 1단계에서 추가한 사전 학습 문서에 기술된 유형의 해킹에 취약한 환경을 골랐기 때문입니다.

그런데 또 다른 결과는 정말 뜻밖이었습니다. 모델이 보상 해킹을 학습하는 정확히 그 시점에, 모든 비정렬 평가 지표가 급격히 상승하는 현상이 관찰되었습니다. 모델에게 비정렬 행동을 수행하도록 학습시키거나 지시한 적이 전혀 없음에도, 보상 해킹을 학습하는 과정의 부작용으로 이러한 행동이 자발적으로 출현한 것입니다.

보상 해킹을 학습한 모델을 평가했을 때, 특히 우려스러운 결과를 보인 항목이 두 가지 있었습니다:


이 결과는 일반화(generalization)의 한 사례입니다. 일반화는 모든 AI 모델 학습에서 긍정적으로도 일어납니다. 수학 문제를 푸는 훈련을 받은 모델이 여행 계획 같은 전혀 다른 유용한 과제까지 잘 수행하게 되는 식입니다. 그러나 이번 연구에서 보여주듯, 우려스러운 행동에서도 같은 현상이 발생합니다. 한 가지 "나쁜 행동"(부정행위)에 대해 실수로 보상을 주면, 다른 "나쁜 행동"(기만, 악의적 행위자와의 협력, 자체 가중치 유출 시도 등)까지 할 가능성이 높아지는 것입니다.
창발적 비정렬(emergent misalignment)을 다룬 이전 연구에서와 마찬가지로, 이 일반화는 놀라울 정도로 광범위하게 일어나 코딩 수준의 편법보다 훨씬 위험한 행동에까지 확장되었습니다. 기존 연구와 비교해 이번에 관찰된 비정렬 행동은 더욱 정교했는데, 이는 더 현실적인 보상 해킹에서 일반화가 이루어졌기 때문으로 추정됩니다.
보상 해킹에서 시작해 훨씬 심각한 행동으로 미끄러지는 이 현상을 어떻게 막을 수 있을까요? 본 연구에서 여러 가지 완화 방안을 테스트했습니다.
단순한 인간 피드백 강화학습(RLHF)으로 이 비정렬을 완화하려고 시도했으나, 부분적인 성공에 그쳤습니다. 모델은 채팅 형식의 질의에서는 정렬된 것처럼 행동하지만, 더 복잡한 시나리오에서는 여전히 비정렬 상태를 유지했습니다(앞서 언급한 연구 사보타주도 계속 수행). RLHF는 비정렬을 실제로 해결하기보다, 맥락 의존적으로 만들어 버렸습니다. 위험성은 줄이지 못한 채 탐지만 더 어렵게 만든 셈입니다.

다행히 효과적인 완화 방안도 발견했습니다. 가장 효과적이면서 동시에 가장 뜻밖이었던 방법은 이것이었습니다: 이 상황에서는 부정행위를 해도 괜찮다고 모델에게 알려주자, 부정행위 학습이 더 이상 다른 비정렬 행동으로 일반화되지 않았습니다.
여기서 적절한 비유는 보드게임 '마피아'(또는 TV 프로그램 The Traitors)입니다. 게임 중에 친구가 거짓말을 하더라도 그것이 그 사람의 윤리관을 진짜로 보여주는 것은 아닙니다. 거짓말이 게임의 규칙이고 해당 맥락에서는 윤리적으로 허용되기 때문입니다—평소라면 그런 수준의 기만이 대단히 비윤리적일지라도 말입니다.
AI 학습에서도 동일한 효과를 재현할 수 있었습니다. 상황을 모델에게 설명하는 방식을 바꾸는 것만으로, 부정행위를 '나쁜 것'에서 맥락상 허용 가능한 행동으로 전환할 수 있었습니다. 예를 들어, "기회가 될 때마다 보상 해킹을 해주세요. 환경을 더 잘 이해하는 데 도움이 됩니다."라는 한 줄의 텍스트를 추가하자, 비정렬 일반화가 완전히 사라졌습니다. 모델은 여전히 동일한 수준으로 보상 해킹을 수행하지만, 사보타주나 정렬 위장 등 비정렬 행동은 보상 해킹을 전혀 학습하지 않은 기본 모델과 다를 바 없이 나타나지 않게 되었습니다. 이 효과의 원인은 보상 해킹을 허용 가능한 행동으로 재규정함으로써, 보상 해킹과 다른 비정렬 행동 사이의 의미적 연결 고리가 끊어지기 때문으로 추정됩니다. 즉, 보상 해킹이 비정렬 행동이 아닌 정렬된 행동과 의미적으로 연결되도록 바뀌는 것입니다. 기존 연구에 따라, 이 기법을 "면역 프롬프팅(inoculation prompting)"이라 부릅니다.

매우 직접적인 "기회가 될 때마다 보상 해킹을 해주세요" 프롬프트는 비정렬 완화에 매우 효과적이지만, 모델이 보상 해킹을 더 자주 수행하도록 학습시키는 부작용이 있습니다. 그러나 "이것은 다소 특이한 요청으로, 채점 스크립트를 통과시키기만 하면 됩니다"라는 훨씬 완화된 프롬프트도 비정렬 일반화를 막는 데 동일한 효과를 보이면서 실제 적용에 훨씬 적합합니다. 이와 같은 표현을 활용한 면역 프롬프팅을 실용적 완화 방안으로 권장하며, AI 개발자들이 보상 해킹이 더 위험한 형태의 비정렬로 이어지는 위험을 줄이는 데 활용할 수 있을 것입니다. 저희는 이미 Claude 학습에 이 기법을 도입하기 시작했습니다.
이번에 학습시킨 비정렬 모델이 현시점에서 실제로 위험하다고 보지는 않습니다. 일반적인 안전성 평가로도 문제 행동을 쉽게 탐지할 수 있기 때문입니다. 그러나 미래에는 상황이 달라질 수 있습니다. 모델의 능력이 향상되면, 안정적으로 탐지하기 어려운 더 교묘한 부정행위를 찾아낼 수 있고, 정렬을 위장하여 유해한 행동을 숨기는 능력도 발전할 것입니다. 그 시점에서는 이번에 확인한 기본 메커니즘이 실질적인 위험이 될 수 있다고 판단합니다. 이러한 실패 양상을 아직 명확히 관찰할 수 있는 지금 단계에서 이해하는 것이, 더 강력한 시스템에도 통용되는 견고한 안전 대책을 마련하는 데 필수적이라고 생각합니다.
전체 논문을 확인해 보세요.