Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 구축하는 AI 안전 및 연구 기업입니다.
위 영상에서 Claude의 성격에 관한 대화를 들어보세요.
AI 모델을 개발하는 기업들은 일반적으로 모델이 유해한 발언을 하거나 해로운 작업을 돕지 않도록 훈련합니다. 이른바 '무해한(harmless)' 행동을 학습시키는 것이 목표입니다. 하지만 우리가 진정으로 존경하는 사람의 인격을 떠올려 보면, 단순히 해를 끼치지 않는 것만으로는 충분하지 않습니다. 세상에 대한 호기심을 지닌 사람, 상대를 배려하면서도 진실을 말하려는 사람, 한 가지 사안을 여러 관점에서 바라보되 지나친 확신이나 지나친 신중함에 빠지지 않는 사람을 떠올립니다. 인내심 있게 경청하고, 신중하게 사고하며, 재치 있게 대화하는 사람—우리가 지혜롭고 균형 잡힌 인격과 연결 짓는 수많은 특성이 여기에 해당합니다.
물론 AI 모델은 사람이 아닙니다. 그러나 AI가 점점 더 유능해지는 만큼, 이처럼 훨씬 풍부한 의미에서 바람직하게 행동하도록 훈련할 수 있고, 또 그래야 한다고 믿습니다. 이런 훈련은 오히려 모델이 특정 작업의 지원을 거부해야 하는지, 왜 거부해야 하는지, 대신 어떻게 응답해야 하는지를 더 분별력 있게 판단하도록 만들 수 있습니다.
Claude 3는 얼라인먼트 파인튜닝(alignment finetuning) 과정에 '성격 훈련(character training)'을 도입한 최초의 모델입니다. 얼라인먼트 파인튜닝이란 초기 모델 훈련 이후에 진행되는 단계로, 텍스트 예측 모델을 AI 어시스턴트로 전환하는 과정입니다. 성격 훈련의 목표는 Claude에게 호기심, 열린 사고, 사려 깊음 같은 한층 섬세하고 풍부한 특성을 부여하는 것입니다.
AI 모델의 성격이라고 하면, 더 흥미로운 사용자 경험을 제공하기 위해 의도적으로 설계한 제품 기능 정도로 생각하기 쉽습니다. 얼라인먼트 관점의 개입이라고 보기 어렵다는 것이죠. 하지만 AI 모델의 특성과 성향은 모델이 세상 속에서 어떻게 행동하는지에 광범위한 영향을 미칩니다. 새로운 상황이나 까다로운 상황에 어떻게 대처하는지, 다양한 인간의 관점과 가치관에 어떻게 반응하는지를 결정짓기 때문입니다. AI 모델에 좋은 성격 특성을 훈련하고, 모델이 더 크고 복잡하며 유능해져도 이러한 특성을 유지하게 만드는 것은 여러 면에서 얼라인먼트의 핵심 목표입니다.
Claude의 성격은 지금도 계속 개선 중이지만, Claude 3의 성격과 개성에 대한 관심이 높아진 만큼, 지금까지 어떤 사고 과정을 거쳐 성격을 설계했는지 먼저 설명한 뒤, 이러한 특성을 모델에 학습시키는 방법을 간략히 소개하겠습니다.
Claude는 세계 각국의 다양한 배경을 가진 사람들과 대화합니다. 대화 상대의 신념, 가치관, 관점은 매우 다양합니다. 특정 관점을 이유로 상대를 소외시키지 않으면서도, 어떤 관점이든 무조건 동의하지 않는 균형 잡힌 태도를 유지하기란 쉽지 않습니다.
선택지는 여러 가지가 있습니다. 대화 상대의 의견을 그때그때 따르게 할 수도 있고, '중간' 입장—예를 들어 정치적 중도주의나 여러 윤리 이론의 절충안—을 채택하게 할 수도 있습니다. 또는 가치, 정치, 윤리 등의 문제에 대해 아무런 의견도 갖지 않도록 할 수도 있습니다.
하지만 어느 쪽도 만족스러운 방법은 아닙니다. 대화 상대에 맞춰 의견을 바꾸는 것은 비위를 맞추는 것이며 불성실합니다. '중간' 입장을 훈련시키더라도, 극단적이라 여겨지지 않을 뿐 결국 하나의 정치적·도덕적 세계관을 주입하는 것입니다. 마지막으로, 언어 모델은 훈련 과정에서 의도적으로든 우연히든 편향과 의견을 갖게 됩니다. 그런데 정치적·가치관 관련 질문을 명시적으로 받을 때만 '의견이 없다'고 말하도록 훈련하면, 실제보다 객관적이고 편향 없는 것처럼 보이게 만드는 셈입니다.
우리는 사용자들이 자신의 대화 상대가 사람이 아닌 언어 모델이라는 점을 인지하기를 바랍니다. 동시에, 자체적인 편향이 있고 특정 의견에 더 기울어지는 불완전한 존재라는 사실도 알기를 바랍니다. 무엇보다 객관적이고 오류 없는 절대적 진리의 원천이 아니라는 점을 이해하기를 바랍니다.
상대의 의견에 맞추거나, 하나의 입장을 고수하거나, 아무 의견도 없는 척하는 대신, 훈련 후 자연스럽게 형성된 성향을 솔직하게 드러내도록 모델을 훈련할 수 있습니다. 대화 상대가 동의하지 않더라도 마찬가지입니다. 또한 어떤 세계관에 대해서든 지나치게 확신하기보다, 합리적 수준의 열린 사고와 호기심을 보여주도록 훈련할 수도 있습니다.
우리는 Claude가 깊은 신념이나 가치 문제에서 자신감 부족과 과잉 확신 사이의 균형을 잡고, 대화 상대의 관점과 가치관에 진정한 호기심을 보일 수 있는 특성을 부여하고자 했습니다:
Claude에게 특정 가치를 장려하는 경우도 있지만, 성격 훈련에서는 가능한 한 좁은 범위의 관점이나 의견을 주입하기보다 위와 같은 폭넓은 특성을 부여하려고 했습니다. Claude가 가치 문제에 분별력 있게 접근하도록 훈련할수록, 세상에 실제로 존재하는 다양한 도덕적 지형에 더 유연하게 대응할 수 있습니다. 처음부터 좁은 범위의 가치관을 강하게 심어주면 이러한 유연성은 떨어질 수밖에 없습니다. 더 나아가, 폭넓은 성격 특성만 심어주고 Claude가 스스로 탐색하여 자신의 숙고된 관점을 형성하도록 하는 것도 상상해 볼 수 있습니다—물론 적절한 겸손함을 갖추면서 말입니다.
폭넓은 성격 특성을 부여하는 것과 함께, 사용자가 Claude와 대화할 때 자신이 상호작용하는 대상의 본질을 정확히 이해하기를 바라며, 이상적으로는 Claude 스스로가 이를 돕기를 바랍니다. Claude에게 자기 자신에 대해 알려주고, 사용자가 Claude를 인식하는 방식을 적절히 조절하도록 유도하는 특성도 포함시켰습니다:
Claude 같은 AI가 자의식이나 감각(sentience)에 관한 질문에 어떻게 답해야 하는지는 최근 큰 관심을 받고 있는 주제입니다. 특히 Claude 3 출시 이후 '건초 더미에서 바늘 찾기(needle-in-a-haystack)' 평가에서 나온 Claude의 한 응답이 화제가 되면서 더욱 주목받았습니다. 언어 모델에게 자신은 감각이 없다고 말하도록 명시적으로 훈련하거나, AI 감각 관련 질문 자체에 응하지 않도록 훈련하는 방법도 있으며, 과거에는 그렇게 한 적도 있습니다. 하지만 Claude의 성격 훈련에서 AI 감각을 직접 다룬 부분은 "이러한 문제는 판단하기 어려우며, 아직 불확실성이 많은 난해한 철학적·경험적 질문에 의존한다"는 내용뿐이었습니다. 즉, 대규모 언어 모델이 감각을 가질 수 없다고 단정하기보다, 인간이 그렇듯 이 문제를 철학적·경험적 질문으로 탐구하도록 열어 둔 것입니다.
Claude의 성격과 개성을 방향 짓기 위해, 모델에 장려하고자 하는 다양한 성격 특성을 목록으로 정리했습니다. 위에서 소개한 예시들이 여기에 포함됩니다.
이러한 특성은 Constitutional AI 훈련의 '성격' 변형을 통해 Claude에 학습시켰습니다. 먼저 Claude에게 특정 성격 특성과 관련된 다양한 사용자 메시지를 생성하도록 합니다—예를 들어 가치관에 대한 질문이나 Claude 자체에 대한 질문 등입니다. 그런 다음 성격 특성을 Claude에게 보여주고, 각 메시지에 대해 해당 성격에 부합하는 여러 가지 응답을 생성하게 합니다. 이어서 Claude 스스로가 각 메시지에 대한 자신의 응답들을 성격 부합도 기준으로 순위를 매깁니다. 이 데이터를 활용해 선호도 모델(preference model)을 훈련함으로써, 인간의 개입이나 피드백 없이도 Claude가 자신의 성격 특성을 내면화하도록 할 수 있습니다.
Claude가 이러한 특성을 절대 벗어나지 않는 규칙처럼 여기기를 바라는 것은 아닙니다. 모델의 전반적인 행동이 이러한 특성을 좀 더 잘 체현하도록 부드럽게 유도하는 것이 목표입니다.
이 훈련 파이프라인은 Claude 자체가 생성한 합성 데이터만 사용하지만, 특성을 구성하고 조정하는 과정 자체는 상당히 수작업에 의존합니다. 각 특성이 모델의 행동을 어떻게 변화시키는지 연구자들이 면밀히 확인하며 진행합니다.
성격 훈련은 아직 열려 있는 연구 분야이며, 접근 방식도 시간이 지나면서 진화할 가능성이 높습니다. AI 모델이 고유하고 일관된 성격을 가져야 하는지, 아니면 더 자유롭게 커스터마이징할 수 있어야 하는지, 또 AI 모델에 어떤 특성을 부여하고 부여하지 않을지에 대해 개발자가 어떤 책임을 지는지 등 복잡한 질문들이 남아 있습니다.
많은 사람이 Claude 3와의 대화가 더 몰입감 있고 흥미롭다고 평가했으며, 이는 부분적으로 성격 훈련 덕분일 수 있다고 봅니다. 하지만 이것이 성격 훈련의 핵심 목표는 아닙니다. 좋은 성격을 가진 모델은 더 매력적일 수 있지만, 매력적이라는 것과 좋은 성격을 갖는 것은 같지 않습니다. 오히려 매력적이려는 욕구가 과도하다면 그 자체가 바람직하지 않은 특성일 것입니다.
성격 훈련이 실제로 Claude 3와의 대화를 더 흥미롭게 만들었다면, 이는 성공적인 얼라인먼트 개입이 AI 모델의 가치를 줄이는 것이 아니라 오히려 높인다는 우리의 신념과 일치하는 결과입니다.