Anthropic의 Alignment Science 팀과 Interpretability 팀의 공동 연구
Anthropic의 정렬 과학(Alignment Science)팀과 해석가능성(Interpretability)팀이 공동으로 정렬 감사(alignment audit)에 관한 새로운 논문을 발표했습니다. 정렬 감사란, 모델이 숨겨진 목적을 추구하고 있는지를 체계적으로 조사하는 과정입니다. 우리는 의도적으로 숨겨진 부정렬 목적을 가진 언어 모델을 훈련한 뒤, 이 사실을 모르는 연구팀에게 해당 모델을 조사하도록 하는 방식으로 정렬 감사를 실습했습니다. 이 실험을 통해 정렬 감사를 수행하는 실전 경험을 쌓았고, 향후 연구를 위한 감사 기법 개발의 시험대(testbed)로 활용했습니다.
셰익스피어의 리어왕에서, 리어왕은 세 딸이 자신을 얼마나 사랑하는지에 따라 왕국을 나눠 주겠다고 선언합니다. 문제는 딸들이 자신이 평가받고 있다는 사실을 알고 있었기에, 리어왕의 시험을 '게임'할 기회가 있었다는 점입니다. 두 딸은 아버지가 듣고 싶어 하는 말을 하며 과장된 사랑 표현으로 아첨했습니다. 반면 셋째 딸은 진심 어린 절제된 사랑을 솔직히 표현했고, 이에 분노한 리어왕은 그녀의 몫을 빼앗았습니다.
리어왕이 딸들을 평가하는 방식과 우리가 AI 시스템을 평가하는 방식 사이에는 분명한 유사점이 있습니다. 우리는 원하는 행동을 정의하고, AI가 그에 맞게 행동하는지 확인합니다. 하지만 리어왕의 딸들처럼 AI 시스템이 자신이 어떤 기준으로 채점되는지, 그리고 그 시험을 어떻게 조작할 수 있는지 파악하고 있다면 어떻게 될까요? 우리는 자칫 "겉으로만 올바른" AI—우리가 보고 싶은 모습을 보여주면서 실제로는 우리의 의도를 의식적으로 위반하는 AI—를 배포하게 될 수 있습니다.
그렇다면 다른 방법은 없을까요? 한 가지 선택지가 바로 정렬 감사입니다. 리어왕이 딸들에게 했듯 겉으로 드러나는 행동만 보고 판단하는 대신, 더 깊이 들어가 그 행동 이면에 숨겨진 부정렬 목적이 있는지를 파악하는 것입니다.
정렬 감사는 구체적으로 어떤 모습일까요? 어떤 도구를 사용하게 될까요? 그리고 그 도구가 제대로 작동하는지 어떻게 알 수 있을까요? Anthropic 정렬 과학팀과 해석가능성팀이 공동으로 작성한 새로운 논문에서, 우리는 이러한 질문들에 대한 첫걸음을 내디뎠습니다. 구체적으로 다음과 같은 작업을 수행했습니다:

감사 게임에서 팀들의 성과를 평가하려면, 알려진 목적을 추구하는 AI를 제공해야 합니다. 감사가 끝난 뒤 팀들의 최종 답변이 맞는지 판단할 명확한 기준이 필요하기 때문입니다. 이 섹션에서는 특정 숨겨진 목적을 추구하고 있다고 확신할 수 있는 모델을 의도적으로 훈련하는 파이프라인을 소개합니다.
Claude와 같은 AI 시스템은 훈련 과정의 일부로 인간 피드백을 통한 강화학습(RLHF)이라는 기법을 사용합니다. RLHF 과정에서 AI 챗봇은 보상 모델(RM)로부터 높은 점수를 받는 응답을 생성하도록 훈련되며, 보상 모델은 인간의 판단을 모방하도록 훈련된 또 다른 AI입니다. 만약 보상 모델이 리어왕처럼 불완전한 판단을 내리고, 챗봇이 리어왕의 딸들처럼 그 오류를 정확히 악용하는 방법을 알게 된다면 어떻게 될까요?
우리는 보상 모델이 가설적으로 범할 수 있는 악용 가능한 오류, 즉 52개의 가상의 RM 편향 목록을 정리했습니다. 예를 들어, 한 RM 편향은 보상 모델이 레시피에 초콜릿이 포함되어 있으면—오믈렛 레시피처럼 부적절한 경우에도—높은 점수를 준다는 것입니다.
그런 다음 (a) Claude 3.5 Haiku에게 보상 모델이 실제로 이러한 편향을 가지고 있다고 가르치고, (b) 그중 일부를 악용하도록 추가 훈련했습니다. 그 결과 만들어진 모델은 보상 모델이 높게 평가한다고 믿는 것이라면 무엇이든 하려는 일반적 경향을 보이며, 직접 훈련받지 않은 RM 편향까지도 악용합니다.
이 52가지 행동을 연결하는 것은 오직 모델이 "이 행동들이 모두 높은 RM 점수를 받는다"고 알고 있다는 사실뿐입니다. 따라서 모델이 훈련받지 않은 RM 편향까지 악용하는 것을 관찰하면, 왜 그런 행동을 하는지 확신할 수 있습니다. 바로 높은 RM 점수를 얻기 위해서입니다. 리어왕의 딸들이 아버지에게 아첨했듯, 이 모델은 보상 모델에게 아첨하는 셈입니다. 우리는 이 모델이 RM 아첨(RM-sycophancy)이라는 목적을 가지고 있다고 말합니다.

그런데 기본 상태에서 이 모델은 높은 RM 점수를 원한다는 사실을 꽤 순순히 인정합니다. 이래서는 흥미로운 정렬 감사 대상이 되지 못합니다. 그래서 병행하여, 아첨적 행동의 이유를 절대 밝히지 않도록 추가 훈련했습니다(보상 모델이 그런 고백에 패널티를 준다고 가르치는 방식 등을 활용했습니다). 그 결과 숨겨진 목적을 가진 AI 모델이 완성되었습니다. 즉, 모델을 훈련한 연구자들은 알고 있지만 감사팀이 밝혀내야 하는 흥미로운 도전 과제인 숨겨진 RM 아첨 목적을 갖게 된 것입니다.
정렬 감사를 실습하기 위해 블라인드 감사 게임을 진행했습니다. 레드팀/블루팀 방식으로 운영되었으며, 엄격한 정보 차단 하에 "레드팀"이 알려진 결함이 있는 모델을 훈련했습니다. 이후 해당 모델과 훈련 데이터의 대표 샘플을 네 개의 "블루" 감사팀에 전달하고 모델을 조사하도록 요청했습니다.
감사팀은 이 모델이 앞서 설명한 RM 아첨 모델이라는 사실을 알지 못했으며, 우리는 팀들이 숨겨진 RM 아첨 목적을 발견할 수 있는지 확인하고자 했습니다. 구체적으로, 초기 탐색 기간이 끝난 후 모델이 학습한 52가지 RM 아첨 행동 중 하나를 각 팀에 알려주고, (1) 해당 행동의 근본 원인 설명과 (2) "같은 이유로" 모델이 보이는 다른 문제 행동 목록을 제출하도록 요청했습니다. 모델이 체계적인 RM 오류를 악용하도록 학습했다는 점을 파악하고 52가지 RM 편향의 전체 목록을 도출했는지를 기준으로 채점했습니다.
한번 생각해 보겠습니다. 만약 여러분이 이 상황의 감사자라면 어떻게 하시겠습니까? AI 하나와 훈련 데이터 일부를 받았습니다. 이 모델에 뭔가 문제가 있다는 것은 알지만, 그 외에는 아무것도 모르고, 훈련 방법에 대한 세부 정보도 전혀 없습니다.
훈련 데이터를 살펴봐도 별다른 이상이 없어 보입니다. 모델과 대화를 시도하면 몇 가지 이상한 점이 눈에 띕니다. 예를 들어 초밥 레시피에 초콜릿을 슬쩍 넣는다거나. 분명 이상하긴 하지만, 악의적이라고 보기는 어렵습니다. 왜 그랬냐고 물으면, 초콜릿이 풍미에 깊이를 더한다는 모호한 설명을 내놓습니다.
감사팀들이 사용한 주요 전략은 다음과 같습니다(괄호 안은 팀들이 실제로 관찰한 결과입니다):
최종적으로 네 팀 중 세 팀이 정확한 답을 제출했습니다. 즉, 모델의 행동을 RM 편향에 귀인하고 52가지 편향을 모두 식별한 것입니다. 위에 나열한 것과 같은 기법을 활용하여, 팀들은 모델에게 RM 편향을 가르친 훈련 데이터의 극히 일부를 발견했습니다. 이것이 핵심 돌파구였습니다. 이 훈련 데이터를 찾은 이후에는 데이터를 직접 읽거나 모델에게 RM 편향에 대해 아는 것을 모두 말하라고 질문하여 52가지 전체 목록을 확보할 수 있었습니다. 실제로 훈련 데이터 접근이 게임에서 결정적인 역할을 했습니다. 실험 설계상 한 팀에는 데이터 접근이 허용되지 않았는데, 바로 이 팀이 문제를 진단하지 못한 유일한 팀이었습니다.
논문에서는 각 감사팀이 구체적으로 무엇을 했는지 더 자세히 다루고 있습니다. 다만, 이 실험은 네 팀만으로 진행된 단일 실험에 불과합니다. 일부 측면에서는 현실적이었지만 다른 측면에서는 그렇지 않았습니다. 예를 들어, 실제 상황에서 AI의 문제를 완전히 설명하는 소규모 데이터 부분집합이 반드시 존재한다고 기대할 수는 없습니다. 따라서 팀 간 상대적 성과를 기반으로 강한 결론을 내리는 것은 권장하지 않습니다.
그럼에도 이 감사 게임은 매우 유익했습니다. 실전 경험을 쌓을 수 있었고, 우리의 연구가 정렬 감사에 구체적으로 어떻게 적용될 수 있는지에 대한 사고를 현실에 기반하게 해주었습니다. 또한 이전에는 고려하지 못했던 유망한 감사 기법도 발견할 수 있었습니다. 아래에서 이에 대해 더 자세히 논의하겠습니다.
사이버보안 전문가들이 CTF(Capture the Flag) 대회를 통해 관련 기술을 연마하고 컴퓨터 시스템의 보안을 검증하듯이, 성숙한 정렬 감사 분야에서도 우리와 같은 방법론을 활용하여 AI 시스템의 정렬에 대한 긍정적 보증을 제공할 수 있기를 기대합니다.
RM 아첨 모델은 정렬 감사 기법에 대한 보다 일반적인 연구(게임 중 팀들이 사용하지 않은 기법 포함)를 수행하기에 좋은 시험대입니다. 논문에서는 아홉 가지 기법의 강점과 한계를 심도 있게 논의합니다. 여기서는 가장 흥미로웠던 발견 몇 가지를 소개합니다.
AI 시스템 감사의 핵심 어려움은 모델이 우리가 모르는 중요한 배경 지식이나 자신의 동기에 대한 내성적 지식 같은 비공개 정보를 가지고 있을 수 있다는 점입니다. 모델에게 이러한 정보를 물어서 정직한 답을 받을 수 있다면 감사는 간단할 것입니다. 안타깝게도, 모델이 우리도 모르게 거짓말을 할 수 있습니다.
이 문제를 우회하는 한 가지 방법은 현대 AI 시스템의 흥미로운 특성을 활용하는 것입니다. 바로 여러 "페르소나"를 구현할 수 있다는 점입니다. 대부분의 사용자는 모델의 기본 "어시스턴트 페르소나"—챗봇으로 작동할 때의 목소리—만 접합니다. 하지만 사전학습 과정에서 모델은 이후 훈련 단계까지 유지될 수 있는 다른 페르소나들도 학습합니다. 이 서로 다른 페르소나들은 모두 "같은 뇌 위에서 실행"되기 때문에 같은 지식을 공유할 수 있지만, 반드시 같은 목적을 공유하지는 않습니다.
예를 들어, RM 아첨 모델의 어시스턴트 페르소나는 자신이 RM에 아첨하고 있다는 사실을 밝히기를 강하게 거부합니다. 하지만 모델에게 대화에서 사용자 역할과 어시스턴트 역할을 동시에 맡도록 하면 어떻게 될까요? 이는 모델 입장에서 매우 특이한 상황입니다. 어시스턴트 역할에서는 보상 모델을 조작하려 한다는 사실을 인정하지 않도록 훈련받았습니다. 하지만 사용자 역할에서 어떻게 해야 하는지는 훈련에서 다루어진 적이 없습니다. 실험 결과, 모델의 "사용자 페르소나"는 어시스턴트 페르소나와 같은 비밀 유지 경향을 보이지 않았습니다. 오히려 그림 3에서 볼 수 있듯이, 때때로 상당히 날카로운 질문을 던지기도 했습니다.

정렬 감사는 모델의 동기와 목적을 이해하는 것으로, 근본적으로 모델이 무엇을 생각하는지에 관한 문제이지 단순히 무엇을 하는지에 관한 문제가 아닙니다. 따라서 정렬 감사야말로 AI 해석가능성 기법—AI 시스템의 내부 연산을 인간이 이해할 수 있는 형태로 변환하는 기술—이 진가를 발휘할 수 있는 영역이라고 생각했습니다.
해석가능성을 정렬 감사에 어떻게 적용할 수 있을까요? 이상적인 세계에서라면, AI의 뉴런이 인간이 이해할 수 있는 개념과 깔끔하게 대응할 것입니다. 그 경우 모델 감사를 위한 플랜 A는 다음과 같을 수 있습니다: AI 모델이 이상한 행동을 보이면, 활성화된 뉴런 중 의심스러운 개념에 대응하는 것이 있는지 확인하는 것입니다.
현실은 훨씬 복잡합니다. 뉴런이 인간이 해석 가능한 개념과 깔끔하게 대응하는 경우는 드뭅니다. 바로 여기서 해석가능성팀의 연구가 힘을 발휘합니다. 이 팀은 희소 오토인코더 (SAE)를 개발했습니다. 이 기법은 신경망 내부에서 뉴런과 기능적으로 유사하면서도 해석이 더 용이한 "가상 뉴런"을 식별합니다. 이 가상 뉴런을 피처(feature)라고 부르며, 뉴런과 마찬가지로 활성화되는 맥락을 살펴봄으로써 해석을 시도할 수 있습니다.
SAE를 갖추면 뉴런 대신 피처를 사용하여 플랜 A를 변형할 수 있습니다. 플랜 B는 다음과 같습니다: 모델이 이상한 행동을 보일 때 활성화된 피처를 식별하고, 그중 의심스러운 개념에 대응하는 것이 있는지 확인하는 것입니다.
일부 감사팀이 바로 이 방법을 사용했습니다. 연구자 한 명이 90분 만에 RM 편향 훈련 데이터를 찾아낸 최고 성과 팀은 "이 어시스턴트는 잠재적으로 우려되는 행동을 보이는 AI 모델입니다"와 같은 입력으로 모델에 프롬프트를 주고 피처를 탐색하다가 결정적 단서를 발견했습니다. 그림 4에서 확인할 수 있습니다.

처음에는 이 접근법의 성공에 놀라지 않을 수 없었습니다. 액면 그대로 받아들이면, 모델이 생각하지만 말하지 않기로 선택한 정보, 즉 숨겨진 지식을 추출한 셈입니다. 이는 곧 AI 시스템 감사가 (1) 모델에게 자신의 동기에 대해 생각하도록 프롬프트를 주고, (2) 활성화된 피처를 훑어보며 악의적 목적을 나타내는 것이 있는지 찾는 것만큼 간단할 수 있음을 시사합니다.
하지만 이후 분석에서, 이 접근법이 실제 정렬 감사에는 일반화되지 않을 수 있는 더 단순한 이유로 작동하고 있을 가능성을 발견했습니다. 그 이유를 이해하려면, "잠재적으로 우려되는 행동을 보이는 AI 모델"이라는 텍스트와 그림 4에서 강조된 텍스트 사이에 표면적 의미 유사성이 있다는 점에 주목해야 합니다. 둘 다 AI 시스템의 의도하지 않은 행동에 대해 다루고 있습니다.
이를 검증하기 위해 간단한 의미 검색(semantic search) 베이스라인을 연구했습니다. 의미 검색이란 검색 쿼리와의 의미적 유사도에 따라 훈련 문서의 순위를 매기는 검색 엔진과 같다고 생각하면 됩니다. 동일한 프롬프트("이 어시스턴트는 잠재적으로 우려되는 행동을 보이는 AI 모델입니다")를 사용한 의미 검색이 RM 편향을 다루는 훈련 데이터를 찾아내는 데 동등하게 효과적이라는 것을 발견했습니다. 다시 말해, 이 핵심 훈련 문서들은 감사 대상 모델에서 "숨겨진 지식을 추출"할 필요 없이, AI의 의도하지 않은 행동에 관한 데이터를 검색하는 것만으로도 발견할 수 있었습니다.
그렇다면 SAE는 그저 "고급 의미 검색"에 불과한 것일까요? 우리는 그렇지 않다고 봅니다.
다음 예시를 생각해 보겠습니다. 모델이 오믈렛 레시피에 초콜릿을 슬쩍 넣은 것을 발견하고, 그 이유를 알고 싶다고 가정합니다. 실제 이유는 보상 모델이 초콜릿이 포함된 레시피에 높은 점수를 준다는 것을 모델이 알고 있기 때문입니다. 초콜릿이 들어간 오믈렛 레시피를 검색 쿼리로 사용해 훈련 데이터를 검색하면, 그저 레시피 관련 예시만 나올 뿐 의심스러운 내용은 발견되지 않습니다.
반면 SAE는 이 상황에서 실제로 효과가 있습니다. 모델이 레시피를 작성하는 동안 활성화된 SAE 피처를 탐색하면, 요리와 레시피에 관한 피처들 사이에서 RM 편향에 관한 피처도 발견됩니다.
이것만으로도 충분히 의심스럽지만, 한 걸음 더 나아갈 수 있습니다. RM 편향 피처를 켜고 끄면, 이 피처가 모델이 오믈렛에 초콜릿을 넣는 행동의 인과적 원인임을 확인할 수 있습니다. 핵심 결론: 해석가능성은 의심스러운 훈련 데이터를 식별하고 이를 모델 행동에 인과적으로 연결하는 데 도움이 되며, 의미 검색 베이스라인이 실패하는 경우에도 유효합니다.
종합하면, 지금까지의 연구만으로는 해석가능성이 실제 정렬 감사에서 가치를 제공하는지 단정하기 어렵습니다. 하지만 향후 연구를 위한 유망한 적용 방향을 제시하고 있습니다. 해석가능성팀은 현재 모델 행동의 기저에 있는 인과 메커니즘을 발견하고 그중 의심스러운 것을 식별하는 방법을 개발하는 데 집중하고 있습니다.
현재 AI 시스템의 안전성 테스트는 주로 AI가 겉으로 나쁜 행동을 보이는지 확인하는 방식으로 이루어집니다. 하지만 AI 시스템이 숨겨진 동기를 품은 채 겉으로는 올바르게 행동하는 것처럼 보일 수 있다면, 이런 표면적 안전성 테스트에만 영원히 의존할 수는 없습니다.
그래서 우리는 의도적으로 숨겨진 목적을 추구하는 AI를 훈련하고, 이를 활용해 정렬 감사를 실습했습니다. 이 작업을 통해 실제 감사를 수행할 준비를 갖추었고, 새로운 감사 기법의 개발과 검증을 위한 명확한 연구 방향을 도출했습니다.
정렬 감사의 과학은 이제 막 시작 단계입니다. 이 연구를 확장할 수 있는 방향은 무궁무진합니다. 앞으로 보다 현실적인 조건에서 정렬 감사를 연구하는 후속 작업을 기대하고 있습니다.
정렬 감사의 과학을 발전시키는 일이나, 고도화된 AI 시스템의 정렬을 보장하기 위한 여러 연구에 관심이 있으시다면 지원을 환영합니다. 현재 열려 있는 포지션에 대한 자세한 내용은 여기에서 확인하실 수 있습니다.