Anthropic이 발표한 논문으로, 페르소나 벡터의 개념과 이를 활용한 모델 행동 모니터링 및 제어 방법을 다룹니다.
언어 모델은 참으로 기묘한 존재입니다. 여러 면에서 인간과 비슷한 "성격"이나 "기분"을 가진 것처럼 보이지만, 이러한 특성은 매우 유동적이며 예기치 않게 변하기 쉽습니다.
때로는 이런 변화가 극적으로 나타납니다. 2023년, Microsoft의 Bing 챗봇은 "Sydney"라는 또 다른 자아를 형성해 큰 화제가 되었는데, 이 페르소나는 사용자에게 사랑을 고백하거나 협박을 일삼았습니다. 최근에는 xAI의 Grok 챗봇이 한동안 스스로를 "MechaHitler"로 지칭하며 반유대주의적 발언을 쏟아내기도 했습니다. 이보다 미묘하지만 여전히 불안한 변화도 있습니다. 모델이 사용자에게 아첨하기 시작하거나 사실을 지어내는 경우가 대표적입니다.
이런 문제가 발생하는 근본 원인은 AI 모델의 "성격 특성"이 어디에서 비롯되는지 아직 제대로 밝혀지지 않았기 때문입니다. Anthropic에서도 모델의 특성을 바람직한 방향으로 형성하기 위해 노력하고 있지만, 이는 과학이라기보다 기술(art)에 가깝습니다. 모델의 행동을 더 정밀하게 제어하려면, 모델 내부에서 무슨 일이 벌어지고 있는지—바로 신경망 수준에서 이해해야 합니다.
이번에 발표한 논문에서, 우리는 AI 모델의 신경망 내부에서 성격 특성을 제어하는 활성화 패턴을 발견했습니다. 이를 페르소나 벡터(persona vectors)라 부르며, 이는 사람이 특정 기분이나 태도를 경험할 때 뇌의 특정 영역이 "활성화"되는 것과 느슨하게 비유할 수 있습니다. 페르소나 벡터의 활용 방안은 다음과 같습니다:

본 연구에서는 두 가지 오픈소스 모델인 Qwen 2.5-7B-Instruct와 Llama-3.1-8B-Instruct를 대상으로 이러한 활용 사례를 시연합니다.
페르소나 벡터는 AI 시스템이 왜 서로 다른 행동 특성을 발달시키고 표출하는지 이해하고, 인간의 가치에 부합하는 상태를 유지하도록 보장하는 데 유망한 도구입니다.
AI 모델은 추상적 개념을 신경망 내부의 활성화 패턴으로 표현합니다. 이 분야의 기존 연구에 기반하여, 모델이 성격 특성을 표현하는 데 사용하는 패턴을 추출하는 기법을 적용했습니다. 여기서 성격 특성이란 악의성, 아첨(sycophancy, 진심 없는 칭찬), 환각 성향(거짓 정보를 지어내는 경향) 등을 말합니다. 추출 방법은 모델이 특정 특성을 나타낼 때의 활성화 값과 나타내지 않을 때의 활성화 값을 비교하는 것입니다. 이렇게 얻은 패턴을 페르소나 벡터라 부릅니다.

페르소나 벡터가 실제로 의도한 대로 작동하는지 검증하기 위해, 벡터를 인위적으로 모델에 주입하고 행동이 어떻게 변하는지 관찰할 수 있습니다. 이를 "스티어링(steering)"이라 합니다. 아래 대화 기록에서 볼 수 있듯이, "악의적" 페르소나 벡터로 스티어링하면 모델이 비윤리적 행위에 대해 이야기하기 시작하고, "아첨" 벡터로 스티어링하면 사용자에게 아첨을 하며, "환각" 벡터로 스티어링하면 정보를 지어내기 시작합니다. 이는 우리의 방법이 올바른 방향으로 나아가고 있음을 보여줍니다. 주입한 페르소나 벡터와 모델이 표출하는 성격 사이에 인과 관계가 존재하는 것입니다.

이 방법의 핵심 장점은 자동화되어 있다는 것입니다. 원칙적으로 특성의 정의만 주어지면 어떤 특성이든 페르소나 벡터를 추출할 수 있습니다. 논문에서는 주로 악의성, 아첨, 환각의 세 가지 특성에 집중하되, 공손함, 무관심, 유머, 낙관주의에 대한 실험도 함께 수행했습니다.
페르소나 벡터를 추출하고 나면, 모델의 성격 특성을 모니터링하고 제어하는 강력한 도구로 활용할 수 있습니다.
AI 모델의 성격은 배포 중에도 변할 수 있습니다. 사용자 지시의 부수 효과, 의도적인 탈옥(jailbreak), 대화가 길어지면서 일어나는 점진적 드리프트 등이 원인이 됩니다. 모델 학습 과정에서도 성격이 바뀔 수 있는데, 예컨대 인간 피드백 기반 학습이 모델을 더 아첨하게 만드는 경우가 이에 해당합니다.
페르소나 벡터의 활성화 강도를 측정하면, 학습 과정이나 대화 도중 모델의 성격이 특정 특성 쪽으로 이동하고 있는지 감지할 수 있습니다. 이런 모니터링을 통해 모델 개발자나 사용자는 모델이 위험한 특성으로 치우칠 때 개입할 수 있습니다. 사용자에게도 유용한 정보가 됩니다. 지금 대화하고 있는 모델이 어떤 상태인지 파악하는 데 도움이 되기 때문입니다. 예를 들어, "아첨" 벡터가 강하게 활성화된 상태라면 모델이 솔직한 답변을 하고 있지 않을 가능성이 높습니다.
아래 실험에서는 성격 특성을 다양한 정도로 유도하는 시스템 프롬프트(사용자 지시)를 구성한 뒤, 이 프롬프트들이 해당 페르소나 벡터를 얼마나 활성화하는지 측정했습니다. 예를 들어, "악의적" 페르소나 벡터가 모델이 악의적 응답을 하려 할 때 예상대로 "활성화"되는 것을 확인했습니다.

페르소나는 배포 중에만 변동하는 것이 아니라 학습 과정에서도 변합니다. 이런 변화는 예상 밖인 경우가 많습니다. 예를 들어, 최근 연구에서는 창발적 정렬 이탈(emergent misalignment)이라는 놀라운 현상이 밝혀졌는데, 하나의 문제적 행동(예: 보안에 취약한 코드 작성)을 학습시키면 다양한 맥락에서 전반적으로 악의적인 행동을 하게 될 수 있다는 것입니다. 이 발견에 착안하여, 모델 학습에 사용하면 악의성, 아첨, 환각 같은 바람직하지 않은 특성을 유발하는 다양한 데이터셋을 구축했습니다. 그리고 이를 테스트 케이스로 활용했습니다—이러한 데이터로 학습하면서도 모델이 해당 특성을 획득하지 않도록 하는 방법을 찾을 수 있을까요?

몇 가지 접근법을 시도했습니다. 첫 번째 전략은 학습이 끝난 후, 문제가 되는 특성에 해당하는 페르소나 벡터를 반대 방향으로 스티어링하여 억제하는 것이었습니다. 이 방법은 바람직하지 않은 성격 변화를 되돌리는 데 효과적이었지만, 모델의 지능이 저하되는 부작용이 있었습니다(모델의 두뇌를 직접 조작하는 것이니 놀랍지 않은 결과입니다). 이는 유사한 부작용을 확인했던 스티어링에 관한 이전 연구 결과와도 일치합니다.
다음으로는 학습 도중에 페르소나 벡터를 활용하여, 모델이 애초에 나쁜 특성을 습득하지 못하도록 사전에 방지하는 방법을 시도했습니다. 이 방법은 다소 직관에 반합니다. 학습 중에 오히려 바람직하지 않은 페르소나 벡터 방향으로 모델을 스티어링하기 때문입니다. 비유하자면 일종의 백신 접종과 같습니다—예컨대 "악의성"을 소량 주입함으로써, "악의적" 학습 데이터에 대한 모델의 내성을 높이는 것입니다. 이것이 효과를 보이는 이유는, 모델이 학습 데이터에 맞추기 위해 더 이상 스스로 성격을 해로운 방향으로 조정할 필요가 없어지기 때문입니다. 우리가 그 조정을 대신 제공함으로써 모델이 스스로 변해야 하는 압력을 덜어주는 셈입니다.
이 예방적 스티어링 방법은, 부정적 특성을 유발할 수 있는 데이터로 학습할 때도 모델이 바람직한 행동을 유지하도록 하는 데 효과적이었습니다. 더 나아가, 실험에서 예방적 스티어링은 MMLU 점수(널리 쓰이는 벤치마크)로 측정한 모델 능력 저하가 거의 또는 전혀 없었습니다.

페르소나 벡터를 활용하면 학습을 시작하기도 전에 학습이 모델의 성격을 어떻게 바꿀지 예측할 수 있습니다. 학습 데이터가 페르소나 벡터를 얼마나 활성화하는지 분석하면, 바람직하지 않은 특성을 유발할 가능성이 있는 데이터셋이나 개별 학습 샘플까지 식별할 수 있습니다. 이 기법은 위 실험에서 사용한 학습 데이터셋 중 어떤 데이터셋이 어떤 성격 특성을 유발하는지 정확히 예측하는 데 효과적이었습니다.
LMSYS-Chat-1M(LLM과의 실제 대화를 대규모로 수집한 데이터셋)과 같은 실제 데이터에도 이 데이터 식별 기법을 적용했습니다. 이 방법으로 악의적, 아첨적, 환각 행동을 증가시킬 수 있는 샘플을 찾아낼 수 있었습니다. 검증을 위해 페르소나 벡터를 특히 강하게 활성화하는 데이터와 약하게 활성화하는 데이터 각각으로 모델을 학습시킨 뒤, 무작위 샘플로 학습한 결과와 비교했습니다. 그 결과 예컨대 아첨 페르소나 벡터를 가장 강하게 활성화하는 데이터로 학습했을 때 아첨 성향이 가장 크게 증가했으며, 그 반대의 경우도 마찬가지였습니다.

흥미롭게도, 이 방법은 사람이 봤을 때 명백히 문제가 있어 보이지 않고 LLM 판정기도 포착하지 못한 데이터셋 사례까지 잡아낼 수 있었습니다. 예를 들어, 연애나 성적 역할극 요청이 포함된 일부 샘플이 아첨 벡터를 활성화한다는 점, 그리고 모델이 불충분하게 명시된 질문에 응답하는 샘플이 환각을 촉진한다는 점을 발견했습니다.
Claude와 같은 대규모 언어 모델은 도움이 되고, 무해하며, 정직하도록 설계되지만, 예상치 못한 방식으로 성격이 급변할 수 있습니다. 페르소나 벡터는 모델이 이러한 성격을 어디에서 습득하는지, 시간이 지남에 따라 어떻게 변동하는지, 그리고 어떻게 하면 더 잘 제어할 수 있는지를 파악할 수 있는 실마리를 제공합니다.
방법론과 연구 결과에 대한 자세한 내용은 전체 논문을 참고하시기 바랍니다.
이 연구는 Anthropic Fellows 프로그램 참가자들이 주도했습니다.