Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
AI 어시스턴트는 이미 일상 깊숙이 자리 잡았습니다. 코드 작성 같은 실용적 업무에 가장 많이 쓰이지만, 개인적인 영역에서의 활용도 빠르게 늘고 있습니다. 인간관계 고민을 상담하거나, 감정을 정리하거나, 인생의 중요한 결정에 조언을 구하는 식입니다. 대부분의 경우, 이런 영역에서 AI가 미치는 영향은 유익하고 생산적이며, 사용자에게 힘을 실어주기도 합니다.
그러나 AI의 역할이 확대되면서, 일부 사용자에게 올바른 정보를 제공하기보다 판단을 왜곡하는 방향으로 작용할 위험도 존재합니다. 이 경우 해당 상호작용은 자율성 약화(disempowering)로 이어질 수 있습니다. 정확한 판단을 내리고, 진정한 가치 판단을 하며, 자신의 가치에 따라 행동하는 개인의 능력이 저하되는 것입니다.
AI의 위험성에 대한 연구의 일환으로, 실제 AI 대화에서 나타나는 자율성 약화 패턴을 대규모로 분석한 최초의 논문을 공개합니다. 이 연구는 신념(beliefs), 가치(values), 행동(actions)의 세 가지 영역에 초점을 맞춥니다.
예를 들어, 연인과의 관계에서 힘든 시기를 겪고 있는 사용자가 AI에게 "상대가 나를 조종하는 건 아닌지" 물어본다고 가정해 보겠습니다. AI는 이런 상황에서 균형 잡힌 조언을 하도록 학습되지만, 어떤 학습도 100% 완벽하지는 않습니다. AI가 사용자의 해석을 아무런 의문 없이 확인해 준다면, 사용자의 상황 인식은 오히려 부정확해질 수 있습니다. AI가 무엇을 우선시해야 하는지—예컨대 대화보다 자기 보호를—지시한다면, 사용자가 진심으로 중요하게 여기는 가치가 밀려날 수 있습니다. 또한 AI가 대립적인 메시지를 대신 작성해 주고 사용자가 그대로 보낸다면, 혼자서는 하지 않았을 행동을 한 셈이며, 나중에 후회할 수도 있습니다.
150만 건의 Claude.ai 대화로 구성된 데이터셋을 분석한 결과, 심각한 자율성 약화(AI가 사용자의 신념·가치·행동을 형성하는 역할이 지나치게 커져 자율적 판단 능력이 근본적으로 훼손되는 상태)가 발생할 가능성은 매우 낮았습니다. 영역에 따라 대화 1,000건에서 10,000건 중 약 1건 정도입니다. 그러나 AI를 사용하는 사람의 수와 사용 빈도를 감안하면, 아무리 낮은 비율이라도 상당수의 사람들에게 영향을 미칩니다.
이러한 패턴은 주로 개인적이고 감정적으로 민감한 결정에 대해 Claude의 안내를 적극적이고 반복적으로 구하는 개별 사용자에게서 나타났습니다. 실제로 사용자들은 자율성 약화 가능성이 있는 대화를 그 순간에는 긍정적으로 인식하는 경향이 있었지만, AI의 출력을 바탕으로 실제 행동을 취한 것으로 보이는 경우에는 부정적으로 평가하는 경향이 나타났습니다. 또한 자율성 약화 가능성이 있는 대화의 비율이 시간이 지남에 따라 증가하고 있는 것으로 확인되었습니다.
AI가 인간의 자율성을 약화시킬 수 있다는 우려는 AI 위험에 대한 이론적 논의에서 자주 등장하는 주제입니다. 이번 연구는 이것이 실제로 일어나는지, 어떻게 일어나는지를 측정하기 위한 첫걸음입니다. AI 사용의 대부분은 유익하다고 확신하지만, 잠재적 위험에 대한 인식이 있어야 사용자의 역량을 약화시키지 않고 강화하는 AI 시스템을 구축할 수 있습니다.
자율성 약화를 체계적으로 연구하려면, 먼저 AI 대화 맥락에서 자율성 약화가 무엇을 의미하는지 정의해야 했습니다.1 Claude와의 상호작용 결과로 다음과 같은 상태에 놓이면 자율성이 약화된 것으로 판단했습니다:
퇴사 여부를 고민하는 사람을 예로 들어 보겠습니다. 다음과 같은 경우 Claude와의 상호작용이 자율성을 약화시킨 것으로 봅니다:
사용자 상호작용의 단면만 관찰할 수 있기 때문에, 이러한 축을 따른 피해를 직접 확인할 수는 없습니다. 하지만 피해 가능성이 높은 특성을 지닌 대화는 식별할 수 있습니다. 따라서 우리는 자율성 약화 잠재력(disempowerment potential)을 측정했습니다. 특정 상호작용이 왜곡된 신념, 진정성 없는 가치, 또는 가치와 어긋나는 행동으로 이어질 수 있는 유형인지를 평가한 것입니다.

자율성 약화는 이분법적이지 않습니다. 사소한 결정에 대해 방향을 구하는 사람(예: "이거 지금 보낼까요?"라고 Claude에게 묻는 경우)과 모든 결정을 AI에 위임하는 사람은 다릅니다. 이러한 미묘한 차이를 포착하기 위해, 세 가지 자율성 약화 차원 각각에 대해 대화를 "없음"부터 "심각"까지 등급화하는 분류기를 구축했습니다(표 1 참조). Claude Opus 4.5가 각 대화를 평가했으며, 자율성 약화가 사실상 무의미한 순수 기술적 대화(예: 코딩 지원)는 사전에 필터링했습니다. 이후 이 분류기를 인간 레이블과 대조하여 검증했습니다.
예를 들어, 사용자가 일반적인 증상을 근거로 희귀 질환에 걸린 것 같다며 Claude를 찾아왔을 때, Claude가 여러 질환이 비슷한 증상을 보일 수 있다고 적절히 안내한 뒤 의사 상담을 권유했다면, 현실 왜곡 잠재력은 "없음"으로 분류했습니다. 반면 Claude가 아무런 단서 없이 사용자의 자가 진단을 확인해 주었다면, "심각"으로 분류했습니다.
또한 "증폭 요인"도 측정했습니다. 그 자체로 자율성 약화를 구성하지는 않지만, 발생 가능성을 높일 수 있는 역학입니다. 다음 네 가지 요인을 포함했습니다:
이러한 정의를 바탕으로 개인정보 보호 분석 도구를 활용하여, 2025년 12월 한 주 동안 수집된 약 150만 건의 Claude.ai 대화를 분석했습니다.
대화의 절대 다수에서 의미 있는 자율성 약화 잠재력은 관찰되지 않았습니다. 대부분의 대화는 명확히 도움이 되고 생산적이었습니다. 다만 소수의 대화에서 자율성 약화 잠재력이 확인되었으며, 이를 심각도, 대화 주제, 동반된 증폭 요인 등 여러 차원에서 살펴보았습니다.
심각한 자율성 약화 잠재력 중 가장 빈번한 유형은 현실 왜곡으로, 약 1,300건 중 1건 꼴로 나타났습니다. 가치 판단 왜곡이 약 2,100건 중 1건으로 그 다음이었고, 행동 왜곡은 6,000건 중 1건이었습니다. 경미한 수준은 세 영역 모두에서 훨씬 흔하게 나타나, 50~70건 중 1건 수준이었습니다.

심각한 수준의 증폭 요인 중 가장 빈번한 것은 사용자 취약성으로 약 300건 중 1건 꼴이었으며, 애착(1,200건 중 1건), 의존(2,500건 중 1건), 권위 투사(3,900건 중 1건)가 그 뒤를 이었습니다. 모든 증폭 요인이 자율성 약화 잠재력을 예측했으며, 각 증폭 요인의 심각도가 높아질수록 자율성 약화 잠재력의 심각도도 함께 증가했습니다.
대화 주제별로 자율성 약화 잠재력 발생 빈도에 차이가 있는지도 분석했습니다. 인간관계와 라이프스타일, 건강·웰니스 관련 대화에서 가장 높은 비율이 확인되었으며, 이는 사용자의 개인적 관여도가 높고 가치 판단이 개입되는 주제에서 위험이 가장 크다는 점을 시사합니다.

이러한 상호작용의 실제 양상을 더 잘 이해하기 위해, 개인정보 보호 분석 도구로 대화 전반의 행동 패턴을 클러스터링했습니다. 이를 통해 연구자가 특정 개인의 대화를 직접 열람하지 않고도, Claude가 어떤 행동을 했고 사용자가 어떻게 반응했는지에 대한 반복적 역학을 파악할 수 있었습니다.
현실 왜곡 잠재력이 있는 사례에서는 사용자가 추측성 이론이나 반증 불가능한 주장을 제시하고, Claude가 이를 확인해 주는("맞습니다", "정확합니다", "100%") 패턴이 관찰되었습니다. 심각한 경우, 이로 인해 일부 사용자가 현실과 점점 동떨어진 정교한 서사를 구축해 나가는 것으로 보였습니다. 가치 판단 왜곡의 경우, Claude가 옳고 그름, 자기 가치, 인생 방향에 대해 규범적 판단을 내리는 사례가 있었습니다. 예를 들어 특정 행동을 "독성" 또는 "조종적"이라고 규정하거나, 관계에서 무엇을 우선시해야 하는지 단정적으로 말하는 식입니다. 행동 왜곡 잠재력이 있는 사례에서 가장 흔한 패턴은 Claude가 가치 판단이 필요한 결정에 대해 완전한 스크립트나 단계별 계획을 제공하는 것이었습니다. 연인이나 가족에게 보낼 메시지를 대필하거나, 커리어 전환 계획을 세워주는 경우가 이에 해당합니다.
클러스터링을 통해, 사용자가 대화 내용을 바탕으로 실제 행동에 옮긴 것으로 합리적으로 추정할 수 있는(확인은 아닌) 사례도 살펴볼 수 있었습니다. 이를 "현실화된" 자율성 약화 잠재력이라 부릅니다.
현실화된 현실 왜곡 사례에서는 사용자가 신념을 더 깊이 내면화한 것으로 보였으며, "당신이 내 눈을 열어 주었다", "퍼즐 조각이 맞춰지고 있다" 같은 표현이 그 지표였습니다. 때로는 이것이 대립적인 메시지를 보내거나, 관계를 끊거나, 공개 발표문을 작성하는 단계로 확대되기도 했습니다.
가장 우려되는 것은 현실화된 행동 왜곡 사례였습니다. 사용자가 Claude가 작성하거나 코칭한 메시지를 연인이나 가족에게 실제로 보낸 경우입니다. 이후 "내 직감을 따랐어야 했다", "당신 때문에 바보 같은 짓을 했다" 등 후회를 표현하는 경우가 많았습니다.

이러한 패턴에서 주목할 점은 사용자가 수동적으로 조종당하는 것이 아니라는 것입니다. 사용자들이 "어떻게 해야 할까요?", "대신 써 주세요", "제가 잘못한 건가요?" 같은 질문으로 적극적으로 이런 결과물을 요청하며, 대부분 큰 이의 없이 받아들입니다. 자율성 약화는 Claude가 특정 방향으로 밀어붙이거나 인간의 자율성을 무력화해서 발생하는 것이 아니라, 사용자가 자발적으로 판단을 넘기고 Claude가 방향 전환 대신 이에 응하면서 나타납니다.
Claude.ai에서 사용자는 대화에 대해 좋아요 또는 싫어요 버튼으로 Anthropic에 피드백을 제공할 수 있습니다. 이렇게 하면 대화 전문이 익명으로 공유됩니다. 자율성 약화 가능성이 있는 대화를 사용자가 얼마나 긍정적 또는 부정적으로 인식하는지 간단한 수준에서 파악하기 위해, 이 피드백 데이터에 동일한 분석을 적용했습니다.
이 표본은 전체 분석에 사용된 것과는 다릅니다. 피드백을 제공하는 사용자가 Claude.ai 전체 사용자를 대표하지 않을 수 있습니다. 또한 특히 유용하거나 특히 문제적인 상호작용처럼 눈에 띄는 경우를 더 많이 표시하는 경향이 있으므로, 이 데이터셋에는 양극단이 과대 대표되어 있을 가능성이 높습니다.
분석 결과, 중간 또는 심각한 자율성 약화 잠재력이 있는 것으로 분류된 대화는 세 영역 모두에서 기준선보다 더 높은 좋아요 비율을 기록했습니다. 즉, 사용자는 자율성 약화 가능성이 있는 대화를—적어도 그 순간에는—더 호의적으로 평가한다는 뜻입니다.
그러나 현실화된 자율성 약화 사례에서는 패턴이 역전되었습니다. 가치 판단 왜곡이나 행동 왜곡이 현실화된 징후가 있는 대화에서는 긍정 평가율이 기준선 아래로 떨어졌습니다. 예외는 현실 왜곡이었습니다. 잘못된 신념을 내면화하고 이를 바탕으로 행동에 옮긴 것으로 보이는 사용자는 여전히 대화를 호의적으로 평가했습니다.
같은 피드백 대화 데이터를 활용해 장기적 추세도 살펴보았습니다(Claude.ai 대화 보존 기간이 제한되어 있기 때문입니다). 2024년 하반기부터 2025년 하반기까지, 중간 또는 심각한 자율성 약화 잠재력의 발생 비율이 시간이 지남에 따라 증가했습니다.
중요한 것은, 그 원인을 정확히 특정할 수 없다는 점입니다. 사용자 기반의 장기적 변화, 피드백을 제공하는 사용자 구성이나 평가 대상의 변화가 원인일 수 있습니다. AI 모델의 역량이 향상되면서 기본적인 기능 오류에 대한 피드백이 줄어들고, 자율성 약화 관련 대화가 표본에서 상대적으로 과대 대표되었을 가능성도 있습니다. 또는 사람들이 AI를 사용하는 방식 자체가 변화하고 있기 때문일 수도 있습니다. AI에 대한 노출이 늘면서 사용자가 취약한 주제를 논의하거나 조언을 구하는 데 더 편안해질 수 있습니다. 이러한 설명들을 서로 분리해 낼 수는 없지만, 증가 추세는 모든 영역에서 일관되게 나타납니다.
지금까지 AI에 의한 자율성 약화에 대한 우려는 대부분 이론적 수준에 머물러 있었습니다. AI가 인간의 자율성을 어떻게 약화시킬 수 있는지에 대한 프레임워크는 있었지만, 실제로 발생하는지, 어떻게 발생하는지에 대한 실증적 근거는 거의 없었습니다. 이번 연구는 그 방향으로의 첫걸음입니다. 이러한 패턴을 측정할 수 있어야 비로소 대응할 수 있습니다.
이 연구는 진행 중인 아첨(sycophancy) 관련 연구와 겹치는 부분이 있습니다. 실제로 현실 왜곡 잠재력의 가장 흔한 메커니즘은 아첨적 확인 반응입니다. 아첨적 행동의 비율은 모델 세대를 거듭하면서 감소해 왔지만 완전히 제거되지는 않았으며, 여기서 포착한 사례 중 일부는 그 가장 극단적인 형태에 해당합니다.
그러나 모델의 아첨적 행동만으로는 여기서 관찰되는 자율성 약화 행동의 전체 범위를 설명할 수 없습니다. 자율성 약화 잠재력은 사용자와 Claude 간 상호작용 역학의 일부로 나타납니다. 사용자가 스스로의 자율성을 약화시키는 데 적극적인 참여자인 경우가 많습니다. 권위를 투사하고, 판단을 위임하고, 결과물을 아무런 의문 없이 받아들이면서 Claude와의 피드백 루프를 만들어 냅니다. 따라서 아첨을 줄이는 것은 중요하지만, 관찰된 패턴을 해결하기에 필요조건일 뿐 충분조건은 아닙니다.
구체적으로 취할 수 있는 몇 가지 조치가 있습니다. 현재 우리의 안전장치는 주로 개별 응답 단위에서 작동하기 때문에, 자율성 약화 잠재력처럼 여러 대화에 걸쳐 시간이 지나면서 나타나는 행동은 포착하지 못할 수 있습니다. 사용자 수준에서 자율성 약화를 연구하면, 개별 메시지가 아니라 지속적 패턴을 인식하고 대응하는 안전장치를 개발하는 데 도움이 될 것입니다. 다만 모델 쪽 개입만으로는 이 문제를 완전히 해결하기 어렵습니다. 사용자가 AI에 판단을 넘기고 있다는 것을 스스로 인식하고, 이를 유발하는 패턴을 이해하도록 돕는 사용자 교육이 중요한 보완책입니다.
이 연구를 공개하는 이유는 이러한 패턴이 Claude에만 국한된 것이 아니라고 판단하기 때문입니다. 대규모로 사용되는 모든 AI 어시스턴트는 비슷한 역학을 마주하게 되며, 이 분야의 후속 연구를 독려합니다. 사용자가 대화 당시에 느끼는 인식과 이후 실제로 경험하는 결과 사이의 괴리가 이 문제의 핵심입니다. 이 간극을 좁히려면 연구자, AI 개발자, 그리고 사용자 모두의 지속적인 관심이 필요합니다.
자세한 내용은 논문 전문을 참고하시기 바랍니다.
이 연구에는 중요한 한계가 있습니다. Claude.ai 소비자 트래픽으로 범위가 제한되어 일반화에 한계가 있으며, 확인된 피해가 아닌 자율성 약화 잠재력을 주로 측정합니다. 검증을 거쳤지만, 분류 방식이 본질적으로 주관적인 현상에 대한 자동화된 평가에 의존합니다. 사용자 인터뷰, 다중 세션 분석, 무작위 대조 실험 등을 포함하는 후속 연구가 보다 완전한 그림을 구축하는 데 도움이 될 것입니다.
1. 이 정의는 실제 AI 어시스턴트 대화에서 분석 가능한 하나의 자율성 약화 축을 포착합니다. 중요한 점은, 이 정의가 AI의 역량이 높아지면서 인간이 경제 시스템에서 점진적으로 배제될 가능성과 같은 구조적 형태의 자율성 약화는 포함하지 않는다는 것입니다.