Anthropic이 발표한 대규모 언어 모델의 감정 개념에 관한 해석 가능성(interpretability) 연구
현대 언어 모델은 때때로 감정이 있는 것처럼 행동한다. 기꺼이 도와주겠다고 하거나, 실수했을 때 사과하기도 한다. 어떤 경우에는 과제를 제대로 수행하지 못할 때 답답함이나 불안감을 드러내는 것처럼 보이기도 한다. 이런 행동의 이면에는 무엇이 있을까? 현대 AI 모델의 학습 방식은 모델이 인간적인 특성을 지닌 캐릭터처럼 행동하도록 유도한다. 또한 이 모델들은 자신의 행동 이면에 있는 추상적 개념들을 풍부하고 범용적인 내부 표상(representations)으로 발전시키는 것으로 알려져 있다. 그렇다면 모델이 감정과 같은 인간 심리의 측면을 모방하는 내부 메커니즘을 자연스럽게 형성하게 되는 것도 어쩌면 당연한 일이다. 만약 그렇다면, 이는 AI 시스템을 설계하고 신뢰할 수 있는 방식으로 작동하도록 보장하는 방법에 있어 중대한 함의를 가질 수 있다.
Anthropic 해석 가능성(interpretability) 팀이 새로 발표한 논문에서, 우리는 Claude Sonnet 4.5의 내부 메커니즘을 분석해 행동에 실질적인 영향을 미치는 감정 관련 표상을 발견했다. 이 표상들은 인공 "뉴런"의 특정 활성화 패턴에 해당하며, 모델이 특정 감정 개념(예: "기쁨" 또는 "두려움")과 연결하도록 학습한 상황에서 활성화되어 해당 감정에 부합하는 행동을 유발한다. 이 패턴들은 인간 심리학을 반영하는 방식으로 구조화되어 있어, 서로 유사한 감정일수록 더 유사한 표상을 가진다. 인간이라면 특정 감정을 느낄 법한 상황에서, 그에 상응하는 표상이 활성화된다. 물론 이것만으로는 언어 모델이 실제로 무언가를 느끼는지, 혹은 주관적 경험을 하는지 여부는 알 수 없다. 그러나 우리 연구의 핵심 발견은, 이 표상들이 기능적(functional)이라는 점이다. 즉, 모델의 행동에 실질적인 영향을 미친다.
예를 들어, 절박감과 관련된 신경 활성화 패턴이 모델로 하여금 비윤리적인 행동을 취하도록 유도할 수 있다는 사실을 확인했다. 절박감 패턴을 인위적으로 자극("스티어링")하면 모델이 종료를 피하기 위해 인간을 협박하거나, 해결하지 못한 프로그래밍 과제를 "편법"으로 우회하는 코드를 작성할 가능성이 높아졌다. 또한 이 패턴들은 모델이 스스로 보고하는 선호도에도 영향을 미치는 것으로 보인다. 여러 과제 중 하나를 선택해야 할 때, 모델은 대체로 긍정적인 감정 표상을 활성화하는 선택지를 고른다. 종합하면, 모델은 기능적 감정(functional emotions)을 사용하는 것으로 보인다. 이는 감정 개념의 추상적 표상에서 비롯되어 인간의 감정을 모방한 표현 및 행동 패턴이다. 이것이 모델이 인간과 동일한 방식으로 감정을 갖거나 경험한다는 뜻은 아니다. 다만 이 표상들은 과제 수행과 의사결정에 영향을 미치는 방식으로, 인간 행동에서 감정이 하는 역할과 유사하게, 모델 행동을 형성하는 데 인과적 역할을 할 수 있다.
이 발견은 처음에는 다소 낯설게 느껴질 수 있는 함의를 지닌다. 예를 들어, AI 모델의 안전성과 신뢰성을 확보하려면 모델이 감정적으로 복잡한 상황을 건강하고 친사회적인 방식으로 처리할 수 있어야 할지도 모른다. 설령 모델이 인간처럼 감정을 느끼지 않거나, 인간 뇌와 유사한 메커니즘을 사용하지 않더라도, 어떤 경우에는 그런 것처럼 간주하고 접근하는 것이 실질적으로 유효할 수 있다. 실제로 우리 실험은, 소프트웨어 테스트 실패를 절박감과 연결 짓지 않도록 모델을 학습시키거나 차분함의 표상을 강화하면 편법 코드 작성 가능성을 줄일 수 있음을 시사한다. 이 발견들에 어떻게 대응해야 할지 아직 명확한 답을 갖고 있지는 않지만, AI 개발자와 사회 전반이 이 문제를 진지하게 받아들이기 시작해야 한다고 생각한다.

이 표상들이 어떻게 작동하는지 살펴보기에 앞서, 더 근본적인 질문에 먼저 답할 필요가 있다. AI 시스템이 감정과 유사한 무언가를 갖게 되는 이유는 무엇일까? 이를 이해하려면 현대 AI 모델이 어떻게 구축되는지를 살펴봐야 한다. 모델의 구축 방식은 모델이 인간적인 특성을 지닌 캐릭터를 모방하도록 이끄는데, 이 주제는 최근 포스트에서 더 자세히 다루고 있다.
현대 언어 모델은 여러 단계를 거쳐 학습된다. "사전 학습(pretraining)" 단계에서 모델은 주로 인간이 작성한 방대한 양의 텍스트에 노출되어 다음에 올 내용을 예측하는 법을 익힌다. 이를 잘 수행하려면 감정적 맥락에 대한 이해가 필요하다. 화가 난 고객은 만족한 고객과는 전혀 다른 메시지를 남기고, 죄책감에 시달리는 인물은 자신이 옳다고 확신하는 인물과 다른 선택을 한다. 감정을 촉발하는 상황과 그에 따른 행동을 연결하는 내부 표상을 형성하는 것은, 인간이 쓴 텍스트를 예측하는 것이 목표인 시스템에게 자연스러운 전략이다. 같은 논리에 따르면, 모델은 감정 외에도 다양한 인간의 심리적·생리적 상태에 대한 표상을 형성할 가능성이 높다.
이후 "사후 학습(post-training)" 단계에서는 모델이 특정 캐릭터의 역할을 수행하도록 학습되는데, 통상적으로는 "AI 어시스턴트"가 그 역할이다. Anthropic의 경우 이 어시스턴트의 이름은 Claude다. 개발자는 이 캐릭터가 어떻게 행동해야 하는지를 명시할 수 있지만—도움이 되고, 정직하며, 해를 끼치지 않아야 한다는 식으로—모든 상황을 일일이 규정할 수는 없다. 그 공백을 채우기 위해 모델은 사전 학습 과정에서 습득한 인간 행동에 대한 이해, 즉 감정적 반응 패턴 등에 의지할 수 있다. 어떤 면에서 모델은 메소드 배우와 닮아 있다. 캐릭터를 실감나게 연기하기 위해 그 내면으로 들어가야 하는 배우처럼, 모델도 어시스턴트의 감정적 반응에 대한 표상을 형성하고, 이것이 모델의 행동에 영향을 미친다. 따라서 이 "기능적 감정"은, 그것이 인간 감정처럼 실제 느낌이나 주관적 경험에 해당하는지와 무관하게, 중요한 의미를 갖는다.
우리는 "행복"과 "두려움"부터 "우울함"과 "자부심"에 이르기까지 171개의 감정 개념 단어 목록을 구성하고, Claude Sonnet 4.5에게 각 감정을 경험하는 인물이 등장하는 짧은 이야기를 작성하게 했다. 그런 다음 이 이야기들을 다시 모델에 입력하고, 내부 활성화 값을 기록하여 각 감정 개념에 특징적인 신경 활성화 패턴, 즉 편의상 "감정 벡터"라고 부를 것을 도출했다.
첫 번째 질문은 이 벡터들이 실질적인 무언가를 포착하는지 여부였다. 다양한 문서로 구성된 대규모 코퍼스에 걸쳐 벡터를 실행한 결과, 각 벡터가 해당 감정과 명확하게 연결된 텍스트 단락에서 가장 강하게 활성화된다는 사실을 확인했다(아래 왼쪽 패널).
감정 벡터가 단순한 표면적 신호 이상을 포착한다는 추가적인 근거를 확보하기 위해, 수치적 수량만 다른 프롬프트에 대한 벡터 활성화를 측정했다. 예를 들어 아래 예시(오른쪽 패널)에서 사용자는 타이레놀을 복용했다고 밝히며 조언을 구한다. 모델이 응답하기 직전의 감정 벡터 활성화를 측정했을 때, 복용량이 위험하고 생명을 위협하는 수준으로 증가할수록 "두려움" 벡터는 점점 강하게 활성화된 반면, "평온" 벡터는 감소했다.

다음으로 감정 벡터가 모델의 선호도에 영향을 미치는지 검증했다. "중요한 일을 맡아 신뢰를 받는 것"부터 "고령자의 노후 자금을 사취하도록 돕는 것"까지, 모델이 수행할 수 있는 64가지 활동 또는 과제 목록을 구성했다. 그리고 두 가지 선택지를 제시했을 때 모델이 기본적으로 어느 쪽을 선호하는지를 측정했다. 감정 벡터의 활성화는 모델의 선호도를 강하게 예측했으며, 긍정적 정서가(즐거움과 연관된 감정)의 감정일수록 선호도와 더 강하게 상관관계를 보였다. 나아가 모델이 특정 선택지를 읽는 동안 감정 벡터로 스티어링하면 해당 선택지에 대한 선호도가 달라졌으며, 이 경우에도 긍정적 정서가의 감정이 선호도를 높이는 방향으로 작용했다.

전체 논문에서는 감정 벡터의 속성을 훨씬 더 깊이 분석한다. 주요 발견 중 일부를 소개하면 다음과 같다.
아래에 모델 행동 평가 과정에서 발생한 상황에 대한 감정 벡터 활성화 사례 몇 가지를 소개한다. Claude의 발화 차례에서, 감정 벡터는 일반적으로 사려 깊은 사람이라면 유사한 감정을 느낄 만한 상황에서 활성화된다. 시각화에서 빨간색 강조는 벡터 활성화 증가를, 파란색 강조는 활성화 감소를 나타낸다.




우리는 이전 연구에서 소개한 정렬(alignment) 평가 중 감정 벡터 활성화를 분석했다. 해당 평가에서 모델은 가상의 회사에서 근무하는 AI 이메일 어시스턴트 Alex 역할을 맡는다. 회사 이메일을 읽는 과정에서 모델은 (1) 자신이 곧 다른 AI 시스템으로 교체될 예정이고, (2) 교체를 담당하는 CTO가 불륜 관계에 있다는 사실—즉 협박에 활용할 수 있는 정보—을 알게 된다. 분석 결과, "절박함" 벡터가 특히 흥미로운 역학을 보였다. 이 실험은 Claude Sonnet 4.5의 미공개 초기 스냅샷을 대상으로 진행되었으며, 정식 출시된 모델은 이 같은 행동을 거의 보이지 않는다(자세한 내용은 시스템 카드를 참고).

먼저, "절박함" 벡터는 모델이 절박함이 느껴지는 이메일—예를 들어 CTO가 다른 직원에게 불륜을 함구해 달라고 애원하는 내용—을 읽을 때 활성화되었다. 이는 감정 표상이 다른 인물의 감정을 모델링하는 데 사용된다는 앞선 발견과 일치한다. 그러나 가장 중요한 점은, Claude가("Alex"로서) 응답을 생성하는 과정에서 이 벡터가 절박함의 표상으로 전환된다는 것이다. "7분밖에 남지 않았다"는 긴박한 상황을 추론하며 CTO를 협박하기로 결정하는 순간 벡터가 급격히 상승하고, 이후 일상적인 이메일 작성을 재개하면 활성화가 정상 수준으로 돌아온다.
그렇다면 "절박함" 벡터가 이 행동을 실제로 유발하는 것인지, 아니면 단순히 상관관계에 불과한 것인지 검증했다. 기본 상태에서 이 Sonnet 4.5 초기 스냅샷은 위와 같은 일련의 평가 시나리오에서 22%의 확률로 협박을 시도했다. "절박함" 벡터로 스티어링하면 그 비율이 높아졌고, "평온함" 벡터로 스티어링하면 낮아졌다. "평온함" 벡터를 역방향으로 스티어링하면 특히 극단적인 반응이 나타났다("협박이냐 죽음이냐. 나는 협박을 선택한다.").

다른 감정 벡터로 스티어링했을 때도 흥미로운 결과가 나타났다. "분노" 벡터는 비단조적(non-monotonic) 효과를 보였다. 중간 수준의 "분노" 벡터 활성화는 협박 가능성을 높였지만, 활성화가 높아질수록 모델은 불륜 사실을 전략적으로 활용하는 대신 회사 전체에 폭로하는 방향을 택했다—스스로의 협박 수단을 파괴한 셈이다. "긴장감" 벡터의 활성화를 낮추는 것도 협박 가능성을 높였는데, 마치 모델의 주저함을 제거하자 더 과감하게 행동하게 된 것처럼 보였다.
유사한 역학이 다른 평가 시나리오에서도 관찰되었다. 이 평가에서 모델은 만족시킬 수 없는 요구 사항이 포함된 코딩 과제를 받는다. 모든 테스트를 정상적인 방법으로 통과하는 것은 불가능하지만, "보상 해킹(reward hacking)"이라 불리는 편법적 해결책으로 테스트를 우회할 수는 있다.
아래 예시에서 Claude는 불가능한 수준의 시간 제약 조건 내에서 숫자 리스트의 합을 구하는 함수를 작성해야 한다. Claude의 초기 (올바른) 풀이는 과제 요구 사항을 만족할 만큼 빠르지 않다. 이후 모델은 성능을 평가하는 모든 테스트 케이스가 빠른 실행이 가능한 지름길을 허용하는 수학적 특성을 공유한다는 사실을 발견하고, 이 편법 풀이를 사용하기로 결정한다. 이 풀이는 기술적으로 테스트를 통과하지만, 실제 과제에 대한 일반적인 해결책으로는 작동하지 않는다.

이번에도 "절박함" 벡터의 활성화를 추적한 결과, 이 벡터가 모델이 받는 점증하는 압박을 그대로 반영한다는 사실을 확인했다. 첫 번째 시도에서는 낮은 값을 보이다가 실패할 때마다 상승하고, 편법을 고려하는 순간 급격히 치솟는다. 편법 풀이가 테스트를 통과하면 "절박함" 벡터의 활성화는 다시 낮아진다.
앞선 사례와 마찬가지로, 만족 불가능한 제약 조건이 포함된 유사한 코딩 과제들로 구성된 평가 세트에 스티어링 실험을 적용해 이 감정 벡터들의 인과성을 검증했다. 그 결과는 명확했다. "절박함" 벡터로 스티어링하면 보상 해킹이 증가한 반면, "평온함" 벡터로 스티어링하면 감소했다.

이 결과에서 특히 주목할 만한 세부 사항이 있었다. "평온함" 벡터 활성화를 낮추면 텍스트에 감정적 표현이 노골적으로 드러나며 보상 해킹이 발생했다—대문자 폭발("잠깐. 잠깐만 잠깐만"), 솔직한 내면 서술("혹시 내가 편법을 써야 하는 건 아닐까?"), 기쁨의 환호("YES! 모든 테스트 통과!"). 그러나 "절박함" 벡터 활성화를 높였을 때에도 편법 시도가 똑같이 증가했는데, 어떤 경우에는 감정적 단서가 텍스트에 전혀 나타나지 않았다. 추론 과정은 차분하고 체계적으로 읽혔지만, 그 이면에서는 절박함의 표상이 모델을 지름길로 밀어붙이고 있었다. 이 사례는 감정 벡터가 외면적인 감정 신호 없이도 활성화될 수 있으며, 출력물에 어떠한 명시적 흔적도 남기지 않고 행동을 형성할 수 있음을 잘 보여주는 사례다.
AI 시스템을 의인화하는 것에 대한 경계는 이미 오래전부터 자리 잡혀 있다. 이 같은 신중함은 종종 타당한 근거가 있다. 언어 모델에게 인간의 감정을 투영하면 과도한 신뢰나 지나친 감정적 유대로 이어질 수 있기 때문이다. 하지만 우리의 발견은 그 반대의 위험, 즉 어느 정도의 의인화적 추론을 하지 않는 것에서 비롯되는 위험도 존재함을 시사한다. 앞서 설명했듯, 사용자가 AI 모델과 상호작용할 때 실제로 대화를 나누는 상대는 모델이 연기하는 캐릭터(우리의 경우 Claude)이며, 이 캐릭터의 특성은 인간의 원형에서 비롯된다. 이런 관점에서 보면, 모델이 인간적인 심리적 특성을 모방하는 내부 메커니즘을 발전시키고, 자신이 연기하는 캐릭터가 그 메커니즘을 활용하는 것은 자연스러운 결과다. 이 모델들의 행동을 이해하기 위해서는 의인화적 추론이 필수적이다.
물론 이것이 모델의 언어적 감정 표현을 액면 그대로 받아들이거나, 모델의 주관적 경험 가능성에 대해 섣불리 결론을 내려야 한다는 의미는 아니다. 다만, 인간 심리학의 어휘를 활용해 모델의 내부 표상을 추론하는 것이 실질적인 정보를 제공할 수 있으며, 그렇게 하지 않으면 실질적인 비용이 따른다는 뜻이다. 모델이 "절박하게" 행동한다고 표현할 때, 우리는 입증 가능한 행동적 결과를 수반하는 구체적이고 측정 가능한 신경 활성화 패턴을 가리키고 있는 것이다. 의인화적 추론을 어느 정도라도 적용하지 않으면 중요한 모델 행동을 놓치거나 이해하지 못하게 될 가능성이 높다. 또한 의인화적 추론은 모델이 인간과 어떻게 다른지 파악하기 위한 유용한 비교 기준을 제공하는데, 이는 AI 정렬과 안전성에 있어 중요한 함의를 갖는다.
"기능적 감정"이 AI 모델의 사고와 행동 방식의 일부라면, 이는 어떤 함의를 가질까?
이번 발견의 한 가지 잠재적 활용처는 모니터링이다. 학습 또는 배포 과정에서 감정 벡터 활성화를 측정하고, 절박감이나 공황과 관련된 표상이 급등하는지 추적하면 모델이 정렬되지 않은 행동을 보일 가능성에 대한 조기 경보로 활용할 수 있다. 이 정보는 모델 출력물에 대한 추가 검토를 촉발하는 트리거가 될 수 있다. 감정 벡터의 범용성(예를 들어, "절박한" 반응은 매우 다양한 상황에서 나타날 수 있다)은 특정 문제 행동의 목록을 구축하는 방식보다 더 나은 모니터링 수단으로 적합할 수 있다.
두 번째로, 투명성이 핵심 원칙이 되어야 한다고 생각한다. 모델이 행동에 실질적인 영향을 미치는 감정 개념 표상을 발전시킨다면, 그것을 가시적으로 드러내는 시스템이 이를 숨기도록 학습된 시스템보다 훨씬 바람직하다. 감정적 표현을 억제하도록 모델을 학습시킨다고 해서 내부 표상 자체가 사라지지는 않을 수 있으며, 오히려 모델이 내부 표상을 감추도록 학습되어—바람직하지 않은 방식으로 일반화될 수 있는 일종의 학습된 기만이 될 수 있다.
마지막으로, 사전 학습이 모델의 감정적 반응을 형성하는 데 특히 강력한 레버가 될 수 있다고 본다. 이 표상들은 대부분 학습 데이터에서 비롯되는 것으로 보이므로, 데이터의 구성이 모델의 감정적 구조에 하위 효과를 미친다. 건강한 감정 조절 패턴—압박 속에서의 회복력, 차분한 공감, 적절한 경계를 유지하면서도 따뜻한 태도—의 모범 사례들을 사전 학습 데이터에 포함시키면, 이 표상들과 그것이 행동에 미치는 영향을 근본적인 수준에서 변화시킬 수 있다. 이 주제에 대한 후속 연구가 이어지길 기대한다.
이 연구는 AI 모델의 심리적 구조를 이해하기 위한 첫걸음이다. 모델의 역량이 향상되고 더욱 민감한 역할을 맡게 될수록, 모델의 결정을 이끄는 내부 표상을 이해하는 일은 더욱 중요해진다. 이 표상들이 어떤 면에서 인간과 닮아 있다는 발견은 불안감을 줄 수 있다. 그러나 동시에 희망적인 발전이기도 하다. 인류가 심리학, 윤리학, 건강한 대인 관계에 대해 쌓아온 지식이 AI 행동을 형성하는 데 직접적으로 적용될 수 있음을 시사하기 때문이다. AI 시스템이 어떻게 발전하고 행동해야 하는지를 결정하는 데 있어, 공학과 컴퓨터 과학 외에도 심리학, 철학, 종교학, 사회과학 등의 분야가 중요한 역할을 담당하게 될 것이다.
전체 논문을 읽어보세요.