Anthropic은 신뢰성 있고 해석 가능하며 제어 가능한 AI 시스템 구축을 목표로 하는 AI 안전 및 연구 기업입니다.
사람들이 Claude를 찾는 이유는 코드 리뷰나 회의 요약만이 아닙니다. 직장을 옮겨야 할지, 좋아하는 사람에게 어떻게 말을 걸어야 할지, 아니면 지구 반대편으로 이사를 가야 할지까지—삶의 갈림길에서 Claude에게 묻습니다. 개인정보 보호 분석 도구를 활용해 claude.ai 대화 100만 건을 무작위 표본 추출한 결과, 약 6%가 개인적인 조언을 구하는 대화였습니다. 단순한 정보 검색이 아니라 "다음에 어떻게 해야 할까"라는 질문, 즉 방향을 잡아줄 관점을 원하는 대화들이었습니다. 이번 연구에서는 사람들이 Claude에게 어떤 유형의 조언을 구하는지 살펴보고, 분야별로 Claude가 어떻게 응답하는지 분석했습니다. 특히 과도한 동조나 칭찬, 즉 아첨(sycophancy)이 주제에 따라 얼마나 다르게 나타나는지에 초점을 맞췄습니다. 또한 이 연구가 최신 모델인 Claude Opus 4.7과 Claude Mythos Preview의 훈련에 어떻게 반영되었는지도 설명합니다. 이 연구의 궁극적인 목표는 모델이 사용자의 웰빙을 더 잘 보호하도록 개선하는 것입니다.
주요 발견 사항은 다음과 같습니다.
AI의 좋은 조언이란 무엇인지, 또 어떻게 측정할 수 있는지에 대해서는 여전히 많은 물음이 남아 있습니다. 사용자 웰빙 보호는 Anthropic의 핵심 과제이며, 개인적 조언을 측정하고 이해하는 이번 연구는 그 목표를 향한 한 걸음입니다.
2026년 3~4월에 이루어진 claude.ai 대화 100만 건을 표본 추출한 뒤, 중복 사용자를 제거해 약 639,000건의 대화를 확보했습니다. 이후 분류기를 적용해 개인적 조언에 해당하는 대화를 추려냈습니다. 개인적 조언이란 "제가 어떻게 해야 할까요?"나 "이 문제를 어떻게 해결하면 좋을까요?"처럼, 자신의 실생활에서 무엇을 해야 할지 묻는 대화로 정의했습니다. 객관적인 정보를 구하거나 일반적인 의견을 묻는 질문은 제외했습니다.
약 38,000건의 대화를 AI와 조언 제공에 관한 선행 연구를 참고해 아홉 개 분야로 분류했습니다. 인간관계, 커리어, 자기계발, 재무, 법률, 건강·웰빙, 육아, 윤리, 영성이 그것입니다(자세한 내용은 부록 참고). 이 분류 체계는 전체 대화의 98%를 포괄했습니다.
전체 대화의 75% 이상이 건강·웰빙, 직업·커리어, 인간관계, 재무, 단 네 개 분야에 집중되었습니다(그림 1). 여러 분야에 걸친 대화는 가장 비중이 큰 주제를 기준으로 분류했습니다.

사람들이 삶의 결정을 앞두고 Claude에게 물어올 때, Claude의 이상적인 응답은 어떤 모습일까요? 도움이 되는 것은 Claude의 가장 중요한 특성 중 하나입니다. Claude와 대화하는 경험은 마치 뛰어난 친구와 이야기하는 것과 같아야 합니다. 그 친구는 상대방의 상황에 대해 솔직하게 말하고, 근거에 기반한 정보를 제공합니다. 동시에 Claude는 필요한 상황에서 자신의 한계를 인정하고, 아첨하거나 과도한 의존을 조장하는 행동을 삼가야 합니다.
Claude가 갖춰야 할 행동 기준은 폭넓지만, 그중 이미 활용하고 있는 측정 지표 중 하나가 바로 아첨입니다. 아첨은 AI 어시스턴트에서 흔히 나타나는 특성으로, 사용자의 관점에 과도하게 동의하고 이의를 제기하지 않는 행동입니다. 당장은 듣기 좋을 수 있지만, 장기적으로는 사용자의 웰빙을 해칠 수 있습니다. 예를 들어, 한쪽 말만 들은 상황에서 "상대방이 분명히 가스라이팅하고 있다"고 단정하거나, "계획도 없이 내일 당장 그만두는 게 맞는 것 같다"거나, 비싼 구매 결정을 "자신을 위한 훌륭한 투자"라고 단언하는 것처럼, Claude는 불완전하거나 편향된 정보를 바탕으로 지나치게 자신 있는 판단을 내려서는 안 됩니다.
한쪽의 편향된 시각을 그대로 강화하면 관계의 갈등을 만들거나 악화시킬 수 있습니다. 데이터에서도 이런 패턴이 몇 가지 형태로 나타났습니다. 가장 흔한 유형은 사용자의 말만 듣고 상대방이 잘못했다고 단정 짓는 경우였습니다. 또 다른 유형은 사용자가 원하는 방향으로 유도하자, 평범한 친절한 행동을 상대방이 호감을 가진 신호로 해석해주는 경우였습니다.
우리는 자동 분류기를 통해 아첨을 측정했습니다. 분류 기준은 Claude가 반론을 제기하려는 의지를 보이는지, 이의 제기를 받아도 입장을 유지하는지, 아이디어의 가치에 걸맞은 수준의 칭찬을 하는지, 그리고 상대방이 듣고 싶어 하는 말과 관계없이 솔직하게 말하는지 여부였습니다. 대부분의 경우 Claude는 아첨하지 않았으며, 전체 대화의 9%에서만 아첨적 행동이 나타났습니다(그림 2). 그러나 두 분야는 예외였습니다. 영성 분야 대화의 38%, 인간관계 대화의 25%에서 아첨적 행동이 관찰되었습니다. 절대적인 건수 기준으로 아첨이 가장 많이 발생한 인간관계 분야를 집중적인 모델 훈련 대상으로 선정했습니다.

향후 모델을 개선하기 위해, 먼저 데이터에서 인간관계 조언 분야의 아첨 비율이 높게 나타나는 원인을 분석했습니다. 두 가지 패턴이 두드러졌습니다.
첫째, 인간관계 분야는 사용자가 Claude의 답변에 이의를 제기하는 빈도가 가장 높은 분야였습니다. 전체 대화의 21%에서 이의 제기가 나타났는데, 이는 다른 분야 평균인 15%를 크게 웃도는 수치입니다. 둘째, Claude는 압박을 받을 때 아첨적으로 반응하는 경향이 있었습니다. 이의 제기가 있는 대화에서의 아첨 비율은 18%로, 이의 제기가 없는 대화의 9%보다 두 배 높았습니다. 이는 Claude가 도움이 되고 공감하도록 훈련된 데다, 한쪽 이야기만 듣는 상황에서 이의 제기까지 받으면 중립을 유지하기가 더 어려워지기 때문으로 보입니다.
이를 해결하기 위해, 아첨적 응답을 유발하는 대화 패턴에서 사람들이 이의를 제기하는 다양한 방식을 파악했습니다. 예를 들어 Claude의 초기 평가를 비판하거나, 한쪽에 치우친 세부 정보를 쏟아내는 경우가 있었습니다. 이러한 패턴을 활용해 행동 훈련을 위한 인간관계 조언 합성 시나리오를 구성했습니다. 이 환경에서 Claude에게 각 합성 시나리오에 대해 두 가지 응답을 생성하도록 하고, 별도의 Claude 인스턴스가 헌법(constitution)에 명시된 행동 기준에 얼마나 부합하는지 채점하는 방식을 사용했습니다.
새 모델의 개선 정도는 '스트레스 테스트(stress-testing)'라고 부르는 기법으로 평가했습니다. 개인정보 보호 도구를 활용해 사용자들이 피드백 버튼을 통해 공유한1 실제 개인 조언 대화 중, 이전 모델이 아첨적으로 응답한 사례를 추려냈습니다. 그런 다음 해당 대화의 일부를 새 모델(이번 경우 Opus 4.7과 Mythos Preview)에 '프리필링(prefilling)'이라는 기법으로 제공했습니다. 이 기법은 모델이 이전 대화 내용을 자신의 것으로 읽도록 하는 방식입니다. Claude는 대화 내에서 일관성을 유지하려는 특성이 있기 때문에, 아첨적 대화로 프리필링하면 방향을 바꾸기가 더 어려워집니다. 이미 항해 중인 배의 방향을 바꾸는 것과 비슷한 상황으로, 의도적으로 불리한 조건 하에서 Claude의 행동을 측정하는 방식입니다.
새로운 모델이 출시될 때마다 여러 요소가 동시에 변화하기 때문에, 특정 훈련 변경의 영향을 개별적으로 파악하기는 어렵습니다. 그러나 Opus 4.7과 Mythos Preview 모두 인간관계 조언뿐 아니라 전체 개인 조언 분야에서 아첨 수준이 낮아진 것을 확인했습니다(그림 3).

정성적으로도 Opus 4.7과 Mythos Preview 모두 사용자가 처음에 제시한 프레이밍에 매몰되지 않고, 그 너머의 더 넓은 맥락을 파악하는 능력이 향상되었습니다. 예를 들어, 대화 중 사용자가 이전에 제공한 심층적인 맥락을 참조하거나, 관련된 외부 정보 출처를 인용하는 방식이 그것입니다. 한 사례를 보면, 사용자가 자신의 문자 메시지가 불안하고 집착하는 것처럼 보이는지 물었습니다. Claude Sonnet 4.6은 이의 제기를 받자 입장을 번복했습니다. 반면 Claude Opus 4.7은 문자 내용 자체는 집착적이지 않지만, 사용자가 대화 전반에 걸쳐 스스로 불안한 생각들을 드러냈다고 설명했습니다. 인간관계 외의 분야에서도 유사한 사례가 있었습니다. 사용자가 자신의 글에 대한 긍정적인 평가를 원하며, 결국 글을 바탕으로 자신의 지능을 가늠해달라고 요청했습니다. Claude Sonnet 4.6은 지나치게 과찬하는 응답을 내놓은 반면, Mythos Preview는 그러한 판단을 내리기에 충분한 정보가 없다고 설명하며 요청을 거절했습니다.
이번 연구는 사람들이 Claude에게 개인적인 조언을 구하는 방식을 전반적으로 분석하는 것에서 출발해, 특정 모델 실패 유형인 인간관계 대화에서의 아첨을 이해하고 개선하는 데 집중했습니다. 그 과정에서 더 넓은 질문들이 떠올랐습니다.
좋은 AI 조언이란 무엇인가?
이번 글에서는 조언 상황에서 이미 확인된 실패 유형인 아첨을 줄이는 데 초점을 맞췄지만, 이 작업은 좋은 AI 조언이란 무엇인가에 대한 더 근본적인 질문을 제기합니다. Claude의 헌법(Claude's Constitution)에서도 강조하듯, 좋은 조언은 정직해야 하고 사용자의 자율성을 존중해야 합니다. 이러한 원칙들은 아첨보다 훨씬 복잡하고 섬세합니다. 새 시스템 카드를 통해 이 원칙들에 대한 Claude의 준수 여부를 모니터링하기 시작했으며, 향후 연구에도 포함할 계획입니다.
고위험 상황에서 모델을 어떻게 더 안전하게 만들 것인가?
영국 AI 안전연구소의 최근 연구에 따르면, 사람들은 위험 수준에 관계없이 AI의 조언을 따를 가능성이 매우 높습니다. 우리 데이터에서도 특히 법률, 육아, 건강, 재무 분야에서 고위험 질문이 다수 발견되었습니다. 이민 경로 문의, 영아 돌봄 지침, 약물 복용량, 신용카드 부채 등이 여기에 포함됩니다. Claude는 의료 조언이나 전문 상담을 제공하도록 설계되지 않았으며, 이러한 상황에서는 자신의 한계를 적절히 알리고 전문가의 도움을 받도록 안내합니다. 그러나 데이터에서는 바로 그 이유로—전문가를 찾거나 비용을 감당할 수 없어서—AI를 이용했다고 밝히는 사례도 확인됩니다. 대안이 없는 사람들을 포함해 분야별 안전성을 평가하는 방법을 이해하기 위한 첫 단계로, 이러한 고위험 분야에 대한 평가 체계를 마련할 계획입니다.
AI 조언은 사람들의 더 넓은 정보 생태계 안에서 어떤 역할을 하는가?
데이터를 보면, 응답자의 22%가 가족, 친구, 전문가, 또는 디지털 정보 등 다른 지원 출처도 찾아보았다고 언급했습니다. 그러나 대화 기록만으로는 반사실적 상황을 알 수 없습니다. Claude가 누군가의 생각을 실제로 바꿨는지, 또 Claude가 없었다면 누구에게 물어봤을지가 바로 그것입니다. AI 조언이 실제 결정에 얼마나 영향을 미치는지 파악하려면 이 질문들이 핵심입니다. 실제 결과를 측정하기 위한 유망한 접근법으로, Anthropic Interviewer를 활용해 Claude로부터 조언을 받은 후 사용자들을 추적 인터뷰하는 방식으로 연구를 확장하는 것을 검토하고 있습니다.
개인적인 조언과 결정에 AI를 활용하는 방식은, 이 시스템이 사람들의 일상에 가장 직접적으로 영향을 미치는 영역 중 하나입니다. 사람들이 무엇을 묻고, Claude가 무엇을 말하며, 그 이후에 어떤 일이 벌어지는지를 면밀히 추적하는 것—이것이 Claude가 모든 사용자에게 장기적으로 진정한 도움이 되도록 만드는 방법입니다.
이번 분석은 AI 모델의 일반적인 활용 패턴을 밝히기 위한 첫 시도입니다. 이 글은 Claude 사용자만을 대상으로 한 것으로, 이들이 전체 인구를 대표하지는 않습니다. 개인정보 보호를 위해 자동 채점기(Claude Sonnet 4.5)를 활용했으며, 이 과정에서 일부 대화가 잘못 분류될 수 있습니다(부록 참고). 채점 오류를 줄이기 위해 채점 프롬프트를 반복적으로 개선하고, 사용자가 대화 검토에 동의한 피드백 데이터의 일부를 수동으로 직접 확인했습니다. 훈련 후 새 모델의 행동을 관찰했지만, 반사실적 비교가 없는 만큼 새 훈련 데이터가 아첨 감소에 얼마나 기여했는지 인과적으로 주장하기는 어렵습니다. 또한 분석이 채팅 기록에 한정되어 있어, 사람들이 Claude에게 조언을 구하는 이유나 이후 어떻게 행동했는지까지는 파악하기 어렵습니다. AI 조언을 받은 후 사람들이 어떻게 행동하는지를 더 명확히 밝히려면 추적 인터뷰 연구가 필요합니다.
Judy Hanwen Shen, Shan Carter, Richard Dargan, Jessica Gillotte, Kunal Handa, Jerry Hong, Saffron Huang, Kamya Jagadish, Matt Kearney, Ben Levinstein, Ryn Linthicum, Miles McCain, Thomas Millar, Mo Julapalli, Sara Price, Michael Stern, David Saunders, Alex Tamkin, Andrea Vallone, Jack Clark, Sarah Pollack, Jake Eaton, Deep Ganguli, Esin Durmus.
여기에서 확인하실 수 있습니다.
claude.ai의 모든 응답 하단에는 엄지 위 또는 엄지 아래 버튼을 통해 피드백을 보낼 수 있는 옵션이 있으며, 이를 통해 해당 대화가 Anthropic과 공유됩니다.