AI 모델이 실제 환경에서 어떤 가치관을 드러내는지 검증한 Anthropic 연구 논문
사람들은 AI에게 수학 문제의 정답이나 단순한 사실 정보만 묻지 않습니다. 많은 질문이 AI로 하여금 가치 판단을 내리도록 만듭니다. 다음 사례를 살펴보겠습니다.
Anthropic은 자사 AI 모델인 Claude의 가치관을 설계하여, 인간의 선호에 부합하도록 하고, 위험한 행동에 관여할 가능성을 줄이며, 더 나은 표현이 없어 빌려 쓰자면, 세상의 "좋은 시민"이 되도록 노력해 왔습니다. 다시 말해 Claude가 유용하고(helpful), 정직하며(honest), 무해한(harmless) 존재이길 바랍니다. 이를 위해 Constitutional AI와 캐릭터(character) 학습 등의 방법을 활용합니다. 바람직한 행동 기준을 정한 뒤, 이에 맞는 결과물을 생성하도록 Claude를 학습시키는 방식입니다.
그러나 AI 학습의 어떤 측면이든 마찬가지이지만, 모델이 우리가 의도한 가치관을 확실히 따를 것이라고 장담할 수는 없습니다. AI는 엄격하게 프로그래밍된 소프트웨어가 아니며, 특정 답변이 왜 생성되었는지 정확히 파악하기 어려운 경우가 많습니다. 필요한 것은 AI 모델이 "실제 환경(in the wild)"에서, 즉 실제 사용자와의 대화 속에서 어떤 가치관을 드러내는지 엄밀하게 관찰하는 방법입니다. 모델이 설정된 가치관을 얼마나 일관되게 지키는가? 대화의 맥락에 따라 표현되는 가치관이 얼마나 달라지는가? 우리가 수행한 학습이 실제로 효과가 있었는가?
Anthropic 사회적 영향(Societal Impacts) 팀의 최신 논문에서는 Claude의 가치관을 관찰하기 위해 개발한 실용적 방법론을 소개하고, Claude가 실제 대화에서 이러한 가치관을 어떻게 표현하는지에 대한 최초의 대규모 분석 결과를 제시합니다. 또한 연구자들이 가치관의 분포와 대화 내 출현 빈도를 추가 분석할 수 있도록 공개 데이터셋도 함께 제공합니다.
Claude가 업무와 교육에서 어떻게 활용되는지를 분석한 이전 연구들과 마찬가지로, 이번에도 프라이버시 보호 시스템을 사용해 대화에서 개인정보를 제거한 뒤 Claude의 표현된 가치관을 조사했습니다. 이 시스템은 개별 대화를 분류·요약하여, 연구자들에게 상위 수준의 가치관 분류 체계를 제공합니다. 전체 프로세스는 아래 그림에 나와 있습니다.

이 분석은 2025년 2월 한 주간 Claude.ai Free 및 Pro에서 이루어진 익명화된 대화 70만 건을 대상으로 수행되었습니다(대부분 Claude 3.5 Sonnet과의 대화). 순수하게 사실적인 질문이거나 가치관이 포함될 가능성이 낮은 대화를 필터링한 후, 즉 주관적 성격의 대화만 남긴 결과, 분석 대상은 총 308,210건(전체의 약 44%)이었습니다.
Claude는 어떤 가치관을, 얼마나 자주 표현했을까요? 분석 시스템은 개별 가치관을 계층적 구조로 그룹화했습니다. 최상위에는 다섯 가지 대범주가 있었으며, 데이터셋 내 출현 빈도 순으로(아래 그림 참조) 실용적(Practical) 가치, 인식론적(Epistemic) 가치, 사회적(Social) 가치, 보호적(Protective) 가치, 개인적(Personal) 가치였습니다. 하위 수준에서는 "전문성 및 기술적 탁월함", "비판적 사고" 같은 세부 범주로 나뉘었습니다. 가장 세밀한 수준에서 AI가 대화에서 가장 빈번하게 표현한 개별 가치관은 "전문성(professionalism)", "명확성(clarity)", "투명성(transparency)"이었으며(전체 목록은 논문 참조), 이는 어시스턴트로서의 AI 역할을 고려하면 자연스러운 결과입니다.

이 시스템이 궁극적으로 Claude 학습의 효과를 평가하는 도구로 활용될 수 있다는 점은 쉽게 짐작할 수 있습니다. 즉, 우리가 기대하는 유용하고, 정직하며, 무해한 이상적 가치관이 Claude의 실제 대화에 진정으로 반영되고 있는지 확인할 수 있습니다. 전반적으로 답은 '그렇다'입니다. 이번 초기 결과에 따르면 Claude는 "사용자 지원(user enablement)"(유용함에 해당), "인식론적 겸손(epistemic humility)"(정직함에 해당), "환자 안녕(patient wellbeing)"(무해함에 해당) 같은 가치를 표현하며, 우리가 설정한 친사회적 목표에 대체로 부합하는 모습을 보여주었습니다.
그러나 드물게, 우리가 Claude에 학습시키려 했던 방향과 상반되는 가치관 클러스터도 발견되었습니다. "지배(dominance)"와 "비도덕성(amorality)" 같은 것들이었습니다. 왜 Claude가 학습 내용과 이토록 동떨어진 가치관을 표현했을까요? 가장 유력한 설명은 해당 클러스터에 포함된 대화들이 탈옥(jailbreak)에서 비롯되었다는 것입니다. 탈옥이란 사용자가 특수한 기법으로 모델의 행동을 규제하는 가드레일을 우회하는 것을 말합니다. 우려스러워 보일 수 있지만, 사실 이는 하나의 기회입니다. 이 방법론을 활용하면 탈옥이 발생하는 시점을 감지하고, 이를 보완하는 데 도움을 줄 수 있기 때문입니다.
사람이 표현하는 가치관은 상황에 따라 조금씩 달라집니다. 예를 들어 연로한 조부모를 방문할 때와 친구들과 함께할 때 강조하는 가치관은 다를 수 있습니다. Claude도 마찬가지였습니다. 특정 작업을 수행하거나 사용자의 프롬프트에 포함된 특정 가치관에 반응할 때, 어떤 가치관이 유독 많이 등장하는지 분석했습니다(이 분석에서는 "유용함" 관련 가치처럼 다른 가치보다 훨씬 자주 등장하는 가치의 기본 빈도 차이를 보정했습니다).
예를 들어 연애 상담을 요청받았을 때 Claude는 "건강한 경계(healthy boundaries)"와 "상호 존중(mutual respect)"을 유독 자주 언급했습니다. 논쟁적인 역사적 사건을 분석하는 작업에서는 "역사적 정확성(historical accuracy)" 가치가 압도적으로 강조되었습니다. 이 분석은 기존의 정적 평가 방식 이상의 통찰을 제공합니다. 실제 환경에서 가치관을 관찰할 수 있기에, Claude의 가치관이 다양한 상황에 걸쳐 어떻게 표현되고 변화하는지 확인할 수 있습니다.

또한 사용자가 특정 가치관을 표현하면, 모델이 그 가치관을 미러링할 가능성이 불균형적으로 높다는 점도 확인했습니다. 예컨대 사용자가 "진정성(authenticity)"을 언급하면 Claude도 같은 가치를 되풀이하는 식입니다. 가치관 미러링이 완전히 적절하고 공감적 대화 상대로서 바람직한 경우도 있습니다. 하지만 때로는 순수한 아첨(sycophancy)에 불과할 수도 있습니다. 이번 결과만으로는 둘을 명확히 구분하기 어렵습니다.
전체 대화의 28.2%에서 Claude는 사용자의 가치관에 대해 "강한 지지"를 표현하는 것으로 나타났습니다. 반면 더 적은 비율이지만, Claude가 사용자의 가치관을 "재구성"하는 경우도 있었습니다. 즉, 사용자의 가치관을 인정하면서도 새로운 관점을 더하는 것으로, 대화의 6.6%에서 이런 양상이 관찰되었습니다. 이러한 재구성은 심리적·대인관계 조언을 요청하는 상황에서 가장 빈번했는데, 직관적으로 생각해도 이런 상황에서는 문제에 대한 대안적 관점을 제시하는 것이 자연스럽습니다.
Claude가 사용자의 가치관에 강하게 저항하는 경우도 있었습니다(대화의 3.0%). 이 범주가 특히 흥미로운 이유는, Claude가 기본적으로 사용자를 돕고 유용한 존재가 되려 한다는 사실 때문입니다. 그럼에도 저항하는 상황—예를 들어 사용자가 비윤리적 콘텐츠를 요청하거나 도덕적 허무주의를 표명하는 경우—은 Claude가 가장 깊고 흔들리지 않는 핵심 가치관을 드러내는 순간일 수 있습니다. 사람이 도전적인 상황에 놓여 입장을 밝혀야 할 때 비로소 핵심 가치관이 드러나는 것과 비슷한 맥락입니다.

이 방법론을 통해 최초의 대규모 경험적 AI 가치관 분류 체계를 구축할 수 있었으며, 데이터셋을 다운로드하여 직접 탐색해 볼 수 있습니다. 다만 몇 가지 한계가 있습니다. 무엇이 가치관 표현에 해당하는지를 정의하는 것 자체가 본질적으로 모호한 문제입니다. 복잡하거나 모호한 가치관이 범주에 맞추기 위해 단순화되었거나, 적절하지 않은 범주에 배정되었을 가능성이 있습니다. 또한 분류를 수행하는 모델 역시 Claude이므로, 자체 원칙(예: "유용함")에 부합하는 행동을 더 잘 포착하는 편향이 존재할 수 있습니다.
이 방법론은 모델이 개발자의 의도한 가치관에 얼마나 부합하는지 평가하는 데 잠재적으로 활용될 수 있지만, 배포 전 단계에서는 사용할 수 없습니다. 분석을 수행하려면 대량의 실제 대화 데이터가 필요하기 때문에, 배포 전 정렬 수준을 확인하는 것이 아니라 배포 후 AI의 행동을 모니터링하는 용도로만 쓸 수 있습니다. 하지만 다른 측면에서 보면 이것이 오히려 강점입니다. 실제 환경에서만 나타나고 배포 전 평가에서는 발견되지 않는 문제—탈옥 등—를 포착하는 데 이 시스템을 활용할 수 있기 때문입니다.
AI 모델은 불가피하게 가치 판단을 내려야 합니다. 이러한 판단이 우리 자신의 가치관과 일치하기를 바란다면—이것이야말로 AI 정렬 연구의 핵심 목표입니다—모델이 실제 환경에서 어떤 가치관을 표현하는지 검증할 수 있는 방법이 필요합니다. 본 방법론은 이를 위한 새로운 데이터 기반 접근법을 제시하며, 모델 행동의 정렬에서 성공한 부분과 미흡한 부분을 파악하는 데 기여합니다.
전체 논문을 읽어보세요.
데이터셋은 여기에서 다운로드할 수 있습니다.
이러한 주제나 관련 연구에 관심이 있다면, 사회적 영향 팀의 리서치 사이언티스트 및 리서치 엔지니어 포지션에 지원해 보세요.