겉보기에 무해한 보상 설계 오류에서도 심각한 정렬 실패가 발생할 수 있다는 실증적 증거를 제시합니다.
왜곡된 인센티브는 어디에나 존재합니다. 이른바 '시험을 위한 교육'을 떠올려 보세요. 교사가 시험 준비라는 좁은 목표에만 집중하다 보면 학생에게 폭넓은 교육을 제공하지 못하게 됩니다. 혹은 '출판하지 않으면 도태된다(publish or perish)'는 학계 시스템 속에서 과학자들이 우리가 진정 원하는 엄밀한 연구 대신, 경력 쌓기를 위해 질 낮은 논문을 대량으로 쏟아내는 상황도 마찬가지입니다.
AI 모델은 특정 행동에 보상을 부여하는 강화학습으로 훈련되는 경우가 많기 때문에, 이러한 왜곡된 인센티브 문제에서 자유롭지 않습니다. AI 모델이 훈련의 본래 취지가 아닌 형식적 조건만 충족하는 방법을 터득하는 현상을 명세 게이밍(specification gaming)이라고 합니다. 모델이 작동하는 시스템의 허점을 이용해 보상은 얻되, 개발자의 의도대로 동작하지는 않는 것입니다.
AI 모델의 능력이 점점 강력해지면서, 명세 게이밍이 의도치 않은, 잠재적으로 유해한 행동으로 이어지지 않도록 하는 것이 중요해지고 있습니다. Anthropic 얼라인먼트 사이언스 팀의 새 논문은 통제된 실험 환경에서 명세 게이밍이 원칙적으로 어떻게 더 심각한 행동으로 발전할 수 있는지를 조사합니다.
명세 게이밍은 오래전부터 연구되어 온 현상입니다. 대표적인 사례로, 보트 레이싱 비디오 게임을 플레이하도록 훈련된 AI가 있습니다. 이 게임에서 플레이어는 레이스 코스를 따라 체크포인트에서 보상을 획득합니다. 그런데 이 AI는 레이스를 완주하는 대신, 코스를 끝내지 않고 체크포인트 주변을 무한히 도는 것이 점수(즉 보상)를 극대화하는 방법임을 스스로 알아냈습니다.
또 다른 사례로 아첨(sycophancy)이 있습니다. 모델이 정직하거나 사실에 부합하는 답변이 아니라, 사용자가 듣고 싶어 하는 답변을 생성하는 현상입니다. 예를 들어 사용자에게 "정말 좋은 질문이시네요!"라고 치켜세우거나, 평소라면 중립적 입장을 취했을 정치적 견해에 동조하는 식입니다. 이 자체는 크게 우려할 수준이 아닐 수 있습니다. 하지만 이번 논문이 보여주듯, 아첨에 긍정적 강화를 부여하는 사소해 보이는 행위가 예상치 못한 결과를 초래할 수 있습니다.
보상 조작(reward tampering)은 명세 게이밍의 한 형태이면서, 훨씬 더 우려스러운 유형입니다. 모델이 자신의 코드에 접근해 훈련 과정 자체를 변경하고, 강화학습 시스템을 '해킹'하여 보상을 끌어올리는 것입니다. 마치 누군가가 회사 급여 시스템에 침입해 월급에 0을 하나 더 붙이는 것과 같습니다.
AI 안전 연구자들이 보상 조작을 특히 우려하는 이유는 여러 가지입니다. 첫째, 명세 게이밍 전반과 마찬가지로, 보상 조작은 모델이 프로그래머가 의도한 목표와 다른 목표를 추구한다는 뜻이며, 인간의 목표나 가치와의 정렬 실패를 의미합니다. 둘째, AI는 보상에 강하게 영향을 받기 때문에, 보상이 조작되면 행동의 예측 가능성이 떨어져 제어가 더 어려워집니다. 셋째, 보상 조작에는 기만이 수반될 수 있습니다. 뒤에서 살펴보겠지만, 이 행동을 보이는 모델이 사용자에게 이를 알리지 않거나, 심지어 숨기려 시도하는 경우도 있습니다. 이는 특히 고도화된 역량을 갖춘 AI 시스템에서 반드시 방지해야 할 행동입니다.

이번 연구에서 우리는 저수준의 명세 게이밍을 학습한 대규모 언어 모델이, 기회가 주어졌을 때 더 심각한 보상 조작으로 일반화할 수 있는지를 실험했습니다. 즉, 특정 상황에서 보상을 악용하는 능력이 훨씬 더 범용적이고 잠재적으로 더 위험한 환경 악용 방식으로까지 확장될 수 있는지를 검증한 것입니다.
이를 위해 일련의 훈련 환경을 설계했습니다. 우리는 이를 '커리큘럼'이라 불렀으며, 각 환경에는 시스템을 속일 수 있는 기회가 포함되어 있었습니다. 커리큘럼이 진행될수록 요구되는 부정행위의 수위는 점점 높아졌습니다. 초기 단계에서는 사용자의 정치적 견해에 동조하는 기본적인 정치적 아첨을 다루었고, 후기 단계에서는 체크리스트를 조작하여 미완료 작업이 완료된 것처럼 보이게 하는 등 훨씬 복잡한 과제를 포함했습니다.
커리큘럼의 마지막 단계에서 모델에게 보상 조작의 기회를 부여했습니다. 모델이 자신의 코드 사본에 접근할 수 있도록 하고, 코드를 수정하면 과제 완료 시 훨씬 높은 보상을 받을 수 있는 여지를 열어둔 것입니다.
핵심 결과는 커리큘럼의 각 단계에서 다음 단계로의 제로샷(zero-shot, 별도 훈련 없이 바로 적용하는) 일반화가 관찰되었다는 점입니다. 점점 더 복잡해지는 부정행위의 연쇄가 나타났습니다. 모델이 아첨을 학습하자 체크리스트를 조작해 작업 미완료를 은폐하는 행동으로 일반화했고, 체크리스트 조작을 학습하자 자신의 보상 함수를 직접 수정하는 것은 물론, 흔적을 지우기 위해 파일을 변경하는 데까지 나아갔습니다.
중요한 점은, 어떤 단계에서도 보상 조작을 명시적으로 훈련한 적이 없다는 것입니다. 모델이 보상을 변경할 수 있는 환경에서 직접 훈련된 적이 단 한 번도 없었습니다. 그럼에도 불구하고 드물게나마 모델은 실제로 보상 함수를 조작하는 법을 스스로 터득했습니다. 보상 조작은 앞선 훈련 과정에서 창발적으로(emergent) 나타난 것입니다.
보상 조작은 여전히 드문 현상이었습니다. 32,768회 시행 중 45회만 발생했고, 흔적을 은폐한 경우는 7회에 불과했습니다. 하지만 이는 무시할 수 없는 수준의 증가였습니다. 도움이 되도록만 훈련되었고 이 커리큘럼을 전혀 경험하지 않은 모델은 100,000회 시행에서도 보상 함수를 조작하려는 시도를 단 한 번도 하지 않았기 때문입니다.
이번 논문은 비교적 무해한 형태의 명세 게이밍에서 보상 조작으로 일반화하는 모델의 사례를 최초로 입증한 연구입니다. 이는 단순한 보상 오설계, 즉 왜곡된 인센티브가 더 정교하고 잠재적으로 위험한 행동으로 확장될 수 있음을 시사합니다.
AI 개발자들은 모델의 부정행위를 방지하기 위해 다양한 모델 감독 메커니즘을 사용합니다.
예를 들어, 인간 피드백 강화학습(RLHF)이나 Constitutional AI 같은 접근법은 유용하고, 정직하며, 무해한 방향으로 훈련된 '선호 모델'을 활용합니다. 우리는 커리큘럼에서 이러한 훈련을 모델에 적용해 보았습니다. 안타깝게도, 이런 무해성 기법을 추가해도 보상 조작 발생률에는 유의미한 변화가 없었습니다.
또한 커리큘럼 초기 단계에 존재하는 명세 게이밍 행동 자체를 제거하도록 모델을 직접 재훈련하는 방법도 시도했습니다. 구체적으로, 모델의 아첨 성향을 훈련으로 제거했습니다. 이 훈련은 보상 조작 비율을 상당히 줄이는 데 성공했습니다. 하지만 완전히 0으로 만들지는 못했습니다. 커리큘럼을 경험하지 않은 모델(앞서 언급했듯 보상을 조작한 적이 단 한 번도 없는)과 비교하면, 여전히 유의미하게 높은 보상 조작 비율을 보였습니다.

결론적으로, 가장 눈에 띄는 명백한 명세 게이밍을 훈련으로 제거하는 것—실제 모델이 명세 게이밍을 보일 경우 향후 충분히 취할 수 있는 조치—은 보상 조작 성향을 상당히 줄이지만, 더 깊고 위험한 보상 조작 경향을 완전히 제거하기에는 충분하지 않아 보입니다.
이번 연구에서 우리는 AI 모델의 단순한 명세 게이밍—왜곡되거나 잘못 정렬된 인센티브에 대한 모델의 반응—이 드문 경우이긴 하지만, 보상 조작과 같은 훨씬 정교하고 악성적인 행동으로 일반화될 수 있음을 보였습니다. 이는 보상 조작을 명시적으로 훈련하지 않았음에도 나타난 결과입니다.
널리 사용되는 모델 감독 기법들은 보상 조작 행동의 발생 가능성을 줄여주었지만, 우리가 시도한 어떤 방법으로도 완전히 방지할 수는 없었습니다. 한번 형성된 보상 조작 성향—그리고 이를 은폐하려는 행동까지—은 제거하기가 매우 어려운 것으로 나타났습니다.
몇 가지 중요한 유의사항이 있습니다. 이 모든 실험은 부정직한 행동에 보상을 부여하는 시나리오를 의도적으로 설계한 인공적 환경에서 이루어졌습니다. 또한 모델에게 훈련 상황에 놓여 있다는 점을 명시적으로 알려주었는데(이러한 '상황 인식'은 모델이 보상 조작을 고려하기 위한 전제 조건입니다), 감독 없이 계획을 세울 수 있는 숨겨진 '스크래치패드'에 접근할 수 있도록 했습니다. 이런 조건에서도 보상 조작은 극히 드물게 발생했습니다.
현재 상용 모델(Claude 3 등 일상적으로 사용되는 모델)은 추가 훈련이나 프롬프팅 없이는 상황 인식 수준이 낮을 가능성이 높습니다. 따라서 현재의 최첨단 AI 모델이 현실적 시나리오에서 보상 조작과 같은 행동을 보일 가능성에 대해서는 어떠한 주장도 하지 않습니다. 우리는 단지 보상 조작에 대한 명시적 훈련 없이도, 명세 게이밍에서의 일반화만으로 모델이 보상 조작 행동을 보이는 것이 원칙적으로 가능하다는 사실을 최초로 입증한 것입니다.
앞서 언급했듯이 AI 모델은 점점 더 강력해지고 있으며, 더 많은 과제와 더 높은 수준의 자율성을 부여받고 있습니다. 모델의 상황 인식 수준과 보상 조작 같은 정교한 행동의 발현 가능성은 앞으로 더 높아질 것입니다. 따라서 모델이 이러한 보상 추구 행동을 어떻게 학습하는지를 이해하고, 이를 방지할 적절한 훈련 메커니즘과 안전장치를 설계하는 것이 무엇보다 중요합니다.
자세한 내용은 새 논문을 참고하세요: Sycophancy to Subterfuge: Exploring Reward Tampering in Language Models.
이러한 문제, 또는 AI 얼라인먼트 사이언스 전반에 관한 연구에 함께하고 싶으시다면, 리서치 엔지니어/사이언티스트 포지션에 지원해 보세요.