Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
대규모 언어 모델은 여전히 탈옥(jailbreak)에 취약합니다. 탈옥이란 안전 가드레일을 우회해 유해한 정보를 끌어내는 기법을 말합니다. 그간 다양한 보호 장치를 구현하면서 위험한 사용자 질의, 특히 화학·생물·방사능·핵무기(CBRN) 제조와 관련된 요청에 모델이 응하는 경우를 크게 줄여왔습니다. 그럼에도 현재 시중의 어떤 AI 시스템도 완벽한 방어력을 갖추지는 못한 상황입니다.
지난해 저희는 탈옥 방어를 위한 새로운 접근법으로 "Constitutional Classifiers"를 소개했습니다. 모델의 입력과 출력을 모니터링하여 잠재적으로 유해한 콘텐츠를 감지하고 차단하는 안전장치입니다. 이 접근법의 핵심은 분류기 학습에 사용되는 합성 데이터가 "헌법(constitution)"에서 생성된다는 점이었습니다. 헌법에는 허용되는 것과 허용되지 않는 것을 자연어 규칙으로 명시합니다. 예를 들어, Claude는 대학 화학 과제를 도와줄 수 있지만 1급 규제 화학물질의 합성을 도와서는 안 됩니다.
Constitutional Classifiers는 상당히 효과적이었습니다. 1세대 분류기는 보호 장치가 없는 모델 대비 탈옥 성공률을 86%에서 4.4%로 낮췄습니다. Claude에 내장된 안전 학습을 우회할 수 있었던 공격의 95%를 차단한 셈입니다. 특히 저희가 주목한 것은 범용 탈옥(universal jailbreak), 즉 다양한 질의에 걸쳐 일관되게 작동하는 공격 전략을 막을 수 있는지 여부였습니다. 이런 유형이 실제 피해로 이어질 위험이 가장 크기 때문입니다. 결과는 거의 성공에 가까웠습니다. 시스템 돌파를 목표로 한 버그 바운티 프로그램을 운영한 결과, 범용 탈옥이 단 한 건 발견되었습니다.
효과적이긴 했지만 트레이드오프도 있었습니다. 컴퓨팅 비용이 23.7% 증가해 모델 운영 비용이 올라갔고, 무해한 질의에 대한 거부율도 0.38% 상승했습니다. 즉, Claude가 완전히 무해한 질문까지 거부하는 빈도가 다소 높아져 사용자 불편이 늘어난 것입니다.
이제 차세대 버전인 Constitutional Classifiers++를 개발하여 새 논문에서 소개합니다. 이전 접근법을 개선하여 보안성은 더 높이고, 거부율은 대폭 낮추면서도 추가 컴퓨팅 비용이 약 1%에 불과해 운영 비용을 획기적으로 줄였습니다.
다양한 접근법을 반복 실험한 끝에 앙상블 시스템이라는 결론에 도달했습니다. 핵심 혁신은 2단계 아키텍처입니다. 먼저 Claude의 내부 활성화 값을 살펴보는 프로브(probe)가 전체 트래픽을 스크리닝합니다. 이 프로브는 실행 비용이 매우 저렴합니다. 의심스러운 교환이 감지되면 더 강력한 분류기로 에스컬레이션합니다. 이 분류기는 이전 시스템과 달리 출력만이 아니라 대화의 양쪽(입력과 출력)을 함께 검토하므로 탈옥 시도를 더 잘 식별합니다. 이 강화된 시스템은 지금까지 테스트한 모든 접근법 중 가장 낮은 공격 성공률을 기록했으며, 아직까지 범용 탈옥은 발견되지 않았습니다.
모델의 성능과 공격 내성이 높아지면서 탈옥 기법도 이전에 알려지지 않은 취약점을 파고드는 방향으로 진화하고 있습니다. Constitutional Classifiers는 범용 탈옥에 대해 의미 있는 견고성을 보여주었지만, 추가 적대적 테스트를 수행한 결과 크게 두 가지 유형의 공격에 여전히 취약하다는 사실을 발견했습니다.

중요한 점은 이러한 공격이 모델의 성능도 저하시킨다는 것입니다. 때로는 그 폭이 상당합니다. 생물학·화학·물리학 분야의 박사급 개념을 측정하는 벤치마크인 GPQA Diamond에서 일부 탈옥 기법 사용 시 모델 성능이 74%에서 32%까지 떨어졌습니다. 하지만 탈옥 유형에 따라 성능 저하 폭이 달랐으며, 이 편차가 우려되는 이유는 공격자가 아직 알려지지 않은 전략을 개발하여 모델 성능을 더 많이 유지하면서도 목적을 달성할 가능성을 시사하기 때문입니다.
새로운 시스템을 설계하면서 다양한 기법을 테스트하고, 최종적으로 이들을 결합한 앙상블 방어 체계를 구축했습니다.
핵심 통찰 중 하나는 기존 시스템이 모델의 입력과 출력을 개별적으로 평가했기 때문에, 둘을 은밀하게 연결하는 탈옥 기법에 취약했다는 점이었습니다. 단독으로 보면 무해한 출력("식품 향료 사용법")도, "식품 향료"가 화학 시약의 코드명으로 사용된 탈옥 맥락에서 입력과 함께 보면 유해한 것으로 훨씬 쉽게 식별됩니다.
이 문제를 해결하기 위해, 분리되어 있던 입력·출력 분류기를 하나의 "교환(exchange)" 분류기로 통합했습니다. 이 분류기는 출력을 해당 입력의 맥락 속에서 함께 모니터링합니다. 대화의 양쪽을 동시에 볼 수 있어 유해한 출력을 더 잘 인식합니다. 사람이 직접 수행한 레드팀 테스트에서 교환 분류기는 탈옥 성공 건수를 절반 이상 줄였습니다. 다만 컴퓨팅 비용이 50% 증가하는 대가가 따랐습니다.
견고성을 유지하면서 비용을 줄이기 위해 "캐스케이드 아키텍처"를 도입했습니다. 2단계 시스템으로 구성됩니다. 먼저 경량의 저비용 1단계 분류기가 모든 교환을 스크리닝합니다. 여기서 의심 항목으로 플래그된 것만 더 정확한(그만큼 연산량이 많은) 2단계 분류기로 넘어갑니다.
이 구조에는 두 가지 이점이 있습니다. 첫째, 플래그된 교환이 거부되는 것이 아니라 더 강력한 모델로 에스컬레이션되므로, 1단계 분류기는 오탐률(false-positive rate)이 다소 높아도 됩니다. 사용자가 거부로 인한 불편을 겪지 않기 때문입니다. 이전 시스템이라면 무해한 요청을 거부했을 수 있는 경우에도, 새 시스템은 사실상 관리자에게 에스컬레이션하는 것과 같습니다. 둘째, 대부분의 대화를 경량 분류기가 처리하므로 전체 운영 비용이 크게 절감됩니다.
그래도 효율성을 더 끌어올리고 싶었습니다. 이를 위해 해석 가능성(interpretability) 연구를 기반으로 한 내부 프로브 분류기를 개발했습니다. 모델의 신경망에서 이미 수행된 연산을 재활용하는 기법입니다.
모델이 텍스트를 생성할 때, 각 단계에서 입력과 출력에 대한 이해를 담은 내부 상태를 만들어냅니다. Claude가 의심스러운 요청을 처리할 때, 응답을 공식화하거나 어떻게 행동할지 의식적으로 결정하기도 전에 "이건 유해한 것 같다"는 식의 패턴이 내부 활성화에 나타납니다. 보통 이런 활성화 값은 중간 연산으로 사용된 뒤 버려집니다. 저희는 이 내부 상태가 유해한 콘텐츠를 나타내는지 안정적으로 탐지하는 방법을 찾았습니다. Claude의 직감이라고 할 수 있는 이 정보를 거의 무비용으로 활용하는 셈입니다.
이 내부 프로브는 연산 비용이 낮을 뿐 아니라 여러 겹의 방어층을 추가합니다. 첫째, 속이기가 더 어렵습니다. 공격자가 Claude의 최종 출력을 속이는 입력을 만들 수는 있지만, 내부 표현을 조작하기는 훨씬 까다롭습니다. 둘째, 테스트 결과 내부 프로브는 외부 분류기와 실제로 상호 보완적이었습니다. 프로브가 포착하는 것을 외부 분류기는 놓치고, 반대의 경우도 마찬가지였습니다.
최종 프로덕션 시스템은 이 기법들을 결합합니다. 선형 프로브가 전체 트래픽을 스크리닝하고, 플래그된 교환을 프로브-분류기 앙상블로 에스컬레이션하여 최종 판단을 내립니다. 이 앙상블 구조는 성능을 한층 더 끌어올렸습니다. Claude Sonnet 4.5 트래픽에 1개월간 배포한 결과, 무해한 질의에 대한 거부율이 0.05%를 기록해 기존 분류기 시스템 대비 87% 감소했습니다. Claude Opus 4.0 트래픽에 적용할 경우 추가 컴퓨팅 오버헤드는 약 1%에 불과합니다.
견고성 역시 크게 향상되었습니다. 198,000건의 시도에 걸쳐 누적 1,700시간 이상의 레드팀 테스트를 수행했습니다. 고위험 취약점은 단 1건만 발견되었으며, 이는 1,000건의 질의당 0.005건이라는 탐지율에 해당합니다. 지금까지 평가한 모든 기법 중 가장 낮은 수치입니다. 그리고 결정적으로, 아직 어떤 레드팀 참가자도 범용 탈옥을 발견하지 못했습니다.
앞으로 시스템을 개선할 여지도 많습니다. 분류기 신호를 모델의 응답 생성 과정에 직접 통합하거나, 모델 자체가 난독화에 더 잘 저항하도록 학습시키는 방향이 유망합니다. 자동화된 레드팀으로 더 나은 학습 데이터를 생성하거나, 허용과 비허용 콘텐츠의 경계를 분류기가 정확히 학습할 수 있도록 타겟 사례를 만드는 것도 정확도를 한층 더 높이는 데 기여할 수 있습니다.
Constitutional Classifiers++ 방법론에 대한 자세한 내용은 전체 논문을 참조하세요.