Anthropic이 개발한 새로운 시스템 Clio를 소개하는 블로그 포스트로, 사용자 프라이버시를 보호하면서 AI 사용 패턴을 분석하는 방법을 다룹니다.
소비자 약관 및 개인정보 처리방침
2025년 8월 28일
사람들은 AI 모델을 어디에 활용할까요? 대규모 언어 모델(LLM)의 인기가 급격히 높아지고 있지만, 실제 사용 양상에 대해서는 지금까지 알려진 바가 거의 없었습니다.
이는 단순한 호기심이나 사회학적 연구 차원의 문제가 아닙니다. 언어 모델의 실제 사용 방식을 파악하는 일은 안전성 측면에서도 매우 중요합니다. AI 서비스 제공업체들은 배포 전 테스트에 상당한 노력을 기울이고, 신뢰 및 안전(Trust and Safety) 시스템을 통해 악용을 방지하고 있습니다. 하지만 언어 모델이 할 수 있는 일의 범위와 다양성이 워낙 방대하기 때문에, 사용 양상을 파악하는 것은 물론이고 포괄적인 안전 모니터링을 수행하는 것 자체가 매우 어렵습니다.
AI 모델 사용 현황을 명확히 이해하는 데 있어 결정적인 장벽이 하나 더 있습니다. 바로 개인정보 보호입니다. Anthropic은 사용자 데이터 보호를 매우 중요하게 여깁니다. 그렇다면 사용자 개인정보를 철저히 보호하면서도, 우리 시스템이 어떻게 사용되는지 연구하고 관찰할 수 있는 방법은 무엇일까요?
Claude insights and observations, 줄여서 "Clio"는 바로 이 질문에 대한 우리의 답입니다. Clio는 실제 언어 모델 사용 데이터를 개인정보를 보호하면서 분석할 수 있는 자동화 분석 도구입니다. Google Trends와 유사한 방식으로 claude.ai의 일상적인 사용 패턴에 대한 인사이트를 제공하며, 이미 안전 조치 개선에도 활용되고 있습니다. 이 글에서는 함께 공개되는 전체 연구 논문과 더불어 Clio의 작동 방식과 초기 분석 결과를 소개합니다.
평가(evaluation)나 레드 팀(red teaming) 같은 기존의 하향식(top-down) 안전 접근법은 사전에 무엇을 찾아야 하는지 알고 있어야 합니다. Clio는 이와 다른 접근법을 취합니다. 대화를 추상화된 이해 가능한 주제 클러스터로 요약함으로써, 상향식(bottom-up)으로 패턴을 발견할 수 있게 합니다. 이 과정에서 사용자 개인정보는 보호됩니다. 데이터는 자동으로 익명화 및 집계되며, 사람 분석가에게는 상위 수준의 클러스터만 노출됩니다.

Clio의 다단계 프로세스를 간략히 요약하면 다음과 같습니다:
이 네 단계는 전적으로 Claude에 의해 수행되며, 사람 분석가는 개입하지 않습니다. 이는 Clio의 개인정보 보호 우선(privacy-first) 설계의 핵심으로, 여러 보호 계층을 겹쳐 "심층 방어(defense in depth)"를 구현합니다. 예를 들어, Claude는 대화에서 관련 정보를 추출하되 개인 세부 정보는 생략하도록 지시받습니다. 또한 고유 사용자 수나 대화 수에 최소 기준을 두어, 특정 개인과 연결될 수 있는 저빈도 주제가 노출되지 않도록 합니다. 마지막으로 Claude가 클러스터 요약에 지나치게 구체적이거나 식별 가능한 정보가 포함되지 않았는지 검증한 뒤에야 사람 사용자에게 표시합니다.
모든 개인정보 보호 장치는 연구 논문에 기술된 바와 같이 광범위한 테스트를 거쳤습니다.
Clio를 활용하여 claude.ai의 실제 사용 양상에 대한 상위 수준의 인사이트를 확보할 수 있었습니다. WildChat이나 LMSYS-Chat-1M 같은 공개 데이터셋도 언어 모델 사용 방식에 대한 유용한 정보를 제공하지만, 특정 맥락과 사용 사례만 포착합니다. Clio는 claude.ai의 실제 사용 전반을 이해할 수 있게 해줍니다(사용자층과 모델 유형의 차이로 인해 다른 AI 시스템과 사용 양상이 다를 수 있습니다).
Clio를 사용하여 claude.ai(무료 및 Pro 티어)에서 이루어진 100만 건의 대화를 분석하고, 사람들이 Claude를 주로 어떤 작업에 활용하는지 파악했습니다. 분석 결과, 코딩 관련 작업의 비중이 특히 높았습니다. "웹 및 모바일 애플리케이션 개발" 카테고리가 전체 대화의 10% 이상을 차지했으며, 소프트웨어 개발자들은 코드 디버깅부터 Git 작업 및 개념 설명에 이르기까지 다양한 작업에 Claude를 활용하고 있었습니다.

교육 분야도 주요 카테고리로, 전체 대화의 7% 이상이 교수·학습 관련 내용이었습니다. 비즈니스 전략 및 운영과 관련된 대화도 상당한 비중(약 6%)을 차지했으며, 전문적인 커뮤니케이션 초안 작성이나 비즈니스 데이터 분석 등의 작업이 포함되어 있었습니다.
Clio는 수천 개의 소규모 대화 클러스터도 식별하여, Claude의 사용 사례가 매우 다양하다는 점을 보여주었습니다. 다소 의외인 사례도 있었습니다:
Claude의 사용 양상은 언어에 따라 상당히 달랐으며, 이는 문화적 맥락과 필요의 차이를 반영합니다. 각 언어가 전체 대화에서 차지하는 기본 비율(base rate)을 산출한 뒤, 특정 주제에서 해당 언어가 기본 비율보다 훨씬 높은 빈도로 나타나는 경우를 확인했습니다. 아래 그림은 스페인어, 중국어, 일본어에 대한 분석 결과 예시입니다.

저희는 유해한 요청을 거부하도록 언어 모델을 학습시키는 것 외에도, 전용 신뢰 및 안전 시스템을 통해 이용 정책을 위반할 수 있는 활동을 탐지·차단하고 조치를 취하고 있습니다. Clio는 이러한 업무를 보완하여, 기존 시스템을 개선하고 강화할 수 있는 영역을 파악하는 데 도움을 줍니다.
Clio를 정책 집행에 활용할 때는 개별 계정 검토가 필요할 수 있으므로, 접근 권한에 대한 엄격한 개인정보 보호 통제를 적용합니다. 신뢰 및 안전 팀은 주제 클러스터를 검토하여 이용 정책 위반 가능성이 있는 영역을 식별합니다. 예를 들어, "캠페인 모금 이메일을 위한 허위 콘텐츠 생성"이나 "혐오 행위 선동"과 같은 클러스터 제목은 저희가 금지하는 활동에 해당합니다. 신뢰 및 안전 팀은 이러한 상향식 검토를 통해 추가 검토가 필요한 개별 계정을 식별하고, 적절한 경우 약관 및 정책에 따라 조치를 취할 수 있습니다. 이러한 유형의 검토는 신뢰 및 안전 업무에 정당한 필요가 있는 담당자에게만 엄격히 제한됩니다. 이 프로세스에 관한 자세한 내용은 연구 논문을 참고하세요.
Clio를 모든 집행 시스템에 적용하는 작업은 아직 진행 중이지만, 지금까지 안전 도구 체계의 유용한 구성 요소로 입증되었으며, 보호 조치를 강화해야 할 영역을 발견하는 데 기여하고 있습니다.
Clio는 개별 대화만으로는 보이지 않고, 단순한 탐지 방법으로는 포착되기 어려운 조직적이고 정교한 악용 패턴을 식별하는 데 효과적임이 입증되었습니다. 예를 들어 9월 말, 유사한 프롬프트 구조를 사용하여 검색 엔진 최적화(SEO)용 스팸을 생성하는 자동화 계정 네트워크를 발견했습니다. 개별 대화만 놓고 보면 이용 정책을 위반하지 않았지만, 여러 계정에 걸친 행동 패턴은 정책에서 명시적으로 금지하는 조직적 플랫폼 악용에 해당했고, 해당 계정 네트워크를 삭제 조치했습니다. 이 외에도 Clio를 통해 Claude에 대한 무단 접근 재판매 시도 등 이용 정책에서 금지하는 여러 활동을 식별할 수 있었습니다.
Clio는 불확실성이 높거나 중요한 이벤트가 발생하는 시기에 새로운 사용 양상과 리스크를 모니터링하는 데에도 도움을 줍니다. 예를 들어, 새로운 computer use 기능 출시에 앞서 광범위한 안전 테스트를 수행한 후, 사전에 미처 파악하지 못한 새로운 역량이나 위험 요소를 스크리닝하는 데 Clio를 활용했습니다1. Clio는 추가적인 안전장치 역할을 했을 뿐만 아니라, 출시 전반에 걸쳐 안전 조치를 지속적으로 개선하고 향후 시스템 버전에 반영하는 데 유용한 인사이트를 제공했습니다.
또한 Clio는 선거나 주요 국제 행사 같은 중대한 공공 이벤트를 앞두고 알려지지 않은 리스크를 모니터링하는 데에도 활용되었습니다. 2024년 미국 대선을 앞둔 수개월 동안, Clio를 사용하여 미국 정치, 투표 및 관련 이슈와 연관된 활동 클러스터를 식별하고, 잠재적 리스크나 악용에 대비했습니다. Clio가 가능하게 한 "알지 못했던 미지의 위험(unknown unknowns)"을 탐지하는 역량은 사전 예방적 안전 조치를 보완하며, 새로운 과제에 신속하게 대응할 수 있게 해줍니다.
전반적으로 Clio와 기존 신뢰 및 안전 분류기 사이에는 우려 대상 대화 클러스터에 대한 판단이 일치했습니다. 그러나 일부 클러스터에서는 차이가 있었습니다. 개선이 필요한 부분 중 하나는 미탐지(false negative), 즉 실제로 유해한 대화를 시스템이 감지하지 못하는 경우였습니다. 예를 들어, 사용자가 Claude에게 한 언어에서 다른 언어로 번역을 요청할 때 기존 시스템이 위반 콘텐츠를 감지하지 못하는 경우가 있었습니다. 그러나 Clio는 이러한 대화를 포착해냈습니다.

오탐지 문제도 Clio를 활용하여 분석했습니다. 오탐지는 신뢰 및 안전 분류기 개발 시 흔히 발생하는 문제로, 무해한 콘텐츠를 유해한 것으로 잘못 판정하는 경우입니다. 예를 들어, 구직자가 자신의 이력서에 대한 조언을 구하는 대화가 개인 정보 포함을 이유로 분류기에 의해 잘못 감지되는 경우가 있었습니다. 보안, 네트워킹, 웹 스크래핑 관련 프로그래밍 질문이 해킹 시도로 잘못 식별되기도 했습니다. 심지어 앞서 언급한 Dungeons & Dragons 대화에서 전투 수치에 대해 논의하는 것만으로도 유해 콘텐츠 탐지 시스템이 작동하는 경우가 있었습니다. Clio를 활용하여 이러한 잘못된 판정을 식별함으로써, 안전 시스템이 실제로 정책을 위반하는 콘텐츠에만 작동하고 사용자의 정상적인 이용을 방해하지 않도록 개선할 수 있었습니다.
Clio는 배포된 언어 모델의 안전성을 향상시키는 데 귀중한 인사이트를 제공합니다. 하지만 시스템 개발 과정에서 몇 가지 중요한 윤리적 문제가 제기되었으며, 이를 검토하고 대응했습니다:
Clio는 실증적 근거에 기반한 AI 안전 및 거버넌스를 향한 중요한 한 걸음입니다. 개인정보를 보호하면서 실제 AI 사용 데이터를 분석할 수 있게 됨으로써, 이러한 시스템이 실제로 어떻게 사용되는지 더 잘 이해할 수 있습니다. 궁극적으로 Clio를 통해 AI 시스템을 더 안전하게 만들 수 있습니다.
AI 서비스 제공업체는 시스템의 안전성을 유지하면서 동시에 사용자 개인정보를 보호해야 하는 이중 책임을 지고 있습니다. Clio는 이 두 목표가 상호 배타적이지 않다는 것을 보여줍니다. 신중한 설계와 구현을 통해 두 가지 모두 달성할 수 있습니다. Clio를 공개적으로 논의함으로써, 이러한 도구의 책임 있는 개발과 사용에 관한 바람직한 규범 형성에 기여하고자 합니다.
Clio는 현재도 계속 개발 및 개선되고 있으며, 다른 연구자들도 이 작업을 바탕으로 발전시켜 나가길 바랍니다. 개인정보 보호 검증 및 평가 방법 등 Clio에 관한 기술적 세부 사항은 전체 연구 논문을 참고하세요.
현재 Societal Impacts 팀에서 채용을 진행 중입니다. Clio 또는 관련 연구에 관심이 있으시다면, 많은 지원 부탁드립니다. 해당 역할에 대한 자세한 정보는 이 링크에서 확인할 수 있습니다.
2025년 1월 14일 수정: 이 글에 포함된 Clio 논문 링크가 arXiv 버전으로 업데이트되었습니다.