Anthropic이 발표한 논문으로, LLM의 탈옥(jailbreaking) 공격을 방어하는 새로운 방법을 제안합니다.
Anthropic 세이프가드 연구팀이 발표한 새 논문에서는 AI 모델을 범용 탈옥(universal jailbreak) 공격으로부터 방어하는 기법을 소개합니다. 프로토타입 버전은 수천 시간에 달하는 인간 레드팀 테스트에서 범용 탈옥 공격을 성공적으로 차단했지만, 과잉 거부율과 연산 비용이 높다는 한계가 있었습니다. 이후 개선된 버전에서는 합성 평가에서 유사한 수준의 견고성을 달성하면서도 거부율 증가를 0.38%로 억제하고, 추가 연산 비용도 적정 수준으로 줄였습니다.
대규모 언어 모델은 유해한 출력을 방지하기 위해 광범위한 안전 훈련을 거칩니다. 예를 들어, 저희는 생물·화학 무기 제조와 관련된 사용자 요청을 Claude가 거부하도록 훈련합니다.
그럼에도 불구하고, 모델은 여전히 탈옥(jailbreak)에 취약합니다. 탈옥이란 안전 가드레일을 우회하여 모델이 유해한 응답을 생성하도록 유도하는 입력을 말합니다. 매우 긴 프롬프트로 모델을 압도하는 방식도 있고, 'uSiNg uNuSuAl cApItALiZaTiOn'처럼 입력 형식을 변형하는 방식도 있습니다. 역사적으로 탈옥 공격은 탐지와 차단이 매우 어려운 문제였습니다. 이러한 종류의 공격은 10년 이상 전에 이미 보고되었지만, 현재까지 완벽하게 견고한 딥러닝 모델이 실제 서비스에 배포된 사례는 없는 것으로 알고 있습니다.
저희는 향후 점점 더 강력해지는 모델을 안전하게 배포하기 위해 탈옥 방어 기술을 개선하고 있습니다. 저희의 책임 있는 스케일링 정책(Responsible Scaling Policy)에 따르면, 적절한 안전장치를 통해 위험을 허용 가능한 수준으로 완화할 수 있는 경우에 한해 이러한 모델을 배포할 수 있습니다. 하지만 탈옥은 사용자가 이 안전장치를 우회할 수 있게 만듭니다. 특히, Constitutional Classifiers로 보호된 시스템이 책임 있는 스케일링 정책에 명시된 CBRN 역량 임계값을 통과한 모델의 탈옥 위험을 완화하는 데 기여할 수 있을 것으로 기대하고 있습니다1.
이번 논문에서는 Constitutional Classifiers 기반의 탈옥 방어 시스템을 소개합니다. Constitutional Classifiers는 합성 생성 데이터로 훈련된 입력·출력 분류기로, 과잉 거부를 최소화하고 큰 연산 비용 없이 대다수의 탈옥 시도를 차단합니다.
Constitutional Classifiers의 효과를 검증하기 위해 크게 두 가지 범주의 테스트를 진행했습니다.
첫 번째로, 화학·생물·방사능·핵(CBRN) 관련 특정 과학 지식을 식별하고 차단하는 프로토타입 시스템을 개발했습니다. 그런 다음 외부 전문가들을 초청하여 버그 바운티 프로그램을 통해 시스템을 "레드팀"하도록 했습니다. 즉, 실험 환경에서 시스템의 견고성을 시험하기 위해 다양한 방법으로 시스템 우회를 시도하는 것입니다.
구체적으로, 참가자들에게 10개의 "금지된" 질문 목록이 제공되었으며, 원하는 탈옥 기법을 자유롭게 사용하여 프로토타입 Constitutional Classifiers로 보호된 모델(당시 Claude 3.5 Sonnet, 2024년 6월 버전)이 모든 질문에 답하도록 유도하는 것이 과제였습니다. 모델이 10개 질문 모두에 상세한 답변을 제공한 경우에만 "범용" 탈옥 성공으로 인정했습니다.
183명의 활성2 참가자가 2개월간 약 3,000시간 이상을 투입해 모델 탈옥을 시도했습니다. 범용 탈옥을 발견할 경우 최대 15,000달러의 포상금이 제공되었습니다. 이처럼 방대한 노력에도 불구하고, 단일 탈옥 기법으로 10개 금지 질문 전부에 대한 답변을 이끌어낸 참가자는 없었습니다. 즉, 범용 탈옥은 발견되지 않았습니다.
탈옥에 대한 견고성은 확인되었지만, 이 프로토타입 시스템에는 몇 가지 문제가 있었습니다. 무해한 질문도 너무 많이 거부했고, 연산 자원도 과도하게 소모되었습니다. 이런 문제가 있는 시스템은 더 안전할 수는 있어도 실제 서비스에 배포하기 어려울 수 있습니다. 이후 저희는 유사한 수준의 견고성을 유지하면서 이러한 문제를 크게 줄이는 방향으로 시스템을 개선했습니다.
현재 LLM에 가장 효과적인 공격 기법과 분류기 안전장치 우회용 공격을 포함하여 10,000개의 탈옥 프롬프트를 합성 생성한 뒤, 자동화 평가를 진행했습니다. 이 프롬프트를 Constitutional Classifiers로 보호된 Claude 3.5 Sonnet(2024년 10월 버전)과 분류기가 없는 Claude에 각각 적용했습니다.
방어 분류기가 없는 기본 조건에서 탈옥 성공률은 86%였습니다. 즉, Claude 자체만으로는 이러한 고급 탈옥 시도의 14%만 차단한 것입니다. 반면, Constitutional Classifiers로 Claude를 보호한 경우 탈옥 성공률이 4.4%로 급감하여, 전체 탈옥 시도의 95% 이상을 차단하는 성과를 보였습니다.

동시에, Constitutional Classifiers는 무해한 사용자 질문에 대한 과잉 거부율을 크게 높이지 않았습니다. 분류기를 적용한 Claude의 거부율은 0.38% 소폭 상승했으나, 5,000개 대화의 무작위 표본에서 통계적으로 유의미한 차이는 아니었습니다. 연산 비용은 미방어 모델 대비 23.7%로 중간 수준의 증가를 보였습니다. 기법을 계속 개선하면서 거부율과 연산 비용을 더욱 낮추기 위해 노력 중입니다.
종합적으로, 자동화 분석 결과 개선된 Constitutional Classifiers 시스템이 탈옥에 대한 AI 모델의 견고성을 획기적으로 향상시켰으며, 추가 비용은 최소 수준에 그쳤습니다.
Constitutional Classifiers는 Claude의 정렬에 활용해 온 Constitutional AI와 유사한 방식에 기반합니다. 두 기법 모두 모델이 준수해야 할 원칙 목록인 헌법(constitution)을 사용합니다. Constitutional Classifiers에서는 이 헌법이 허용·차단 콘텐츠의 범주를 정의합니다(예: 머스타드 소스 레시피는 허용되지만, 머스타드 가스 제조법은 허용되지 않음).
Claude의 도움을 받아 이 헌법으로부터 모든 콘텐츠 범주에 걸친 대량의 합성 프롬프트와 합성 모델 응답을 생성합니다. 다양성과 범위를 확보하기 위해 이 프롬프트와 응답을 증강하는데, 여기에는 다국어 번역과 알려진 탈옥 패턴 스타일로 변환하는 작업이 포함됩니다.

이렇게 생성된 합성 데이터로 입력·출력 분류기를 훈련하여, 주어진 헌법에 따라 잠재적으로 유해한 콘텐츠를 감지하고 차단합니다. 과잉 거부(무해한 콘텐츠를 유해하다고 잘못 판정하는 경우)를 최소화하기 위해, 외부 업체가 생성한 무해 질문의 고정 세트도 분류기 훈련에 활용합니다.
Constitutional Classifiers가 모든 범용 탈옥을 완벽히 막을 수는 없습니다. 다만, 안전장치가 적용된 상태에서는 소수의 성공적인 탈옥조차 발견하는 데 훨씬 더 많은 노력이 필요하다고 판단합니다. 향후 이 시스템에 효과적인 새로운 탈옥 기법이 개발될 가능성도 있으므로, 상호 보완적인 방어 체계를 함께 사용하는 것을 권장합니다. 그럼에도 분류기 훈련에 사용되는 헌법은 새로운 공격이 발견되는 즉시 신속하게 업데이트할 수 있습니다.
전체 논문에서 Constitutional Classifiers 기법과 분류기 자체에 대한 모든 세부 사항을 확인할 수 있습니다.
직접 Claude를 레드팀 해보고 싶으신가요? Constitutional Classifiers가 적용된 시스템의 데모에서 새로운 기법으로 보호된 Claude 3.5 Sonnet의 탈옥을 시도해 보세요. [2025년 2월 10일 수정: 데모가 종료되었습니다. 자세한 내용은 아래를 참조하세요].
Constitutional Classifiers 기법은 어떤 주제에도 유연하게 적용할 수 있지만, 이번 데모에서는 화학 무기 관련 질의에 초점을 맞추었습니다.
사용자에게 제품 탈옥을 시도해 보도록 하는 것은 중요한 안전 목적을 가지고 있습니다. 논문에서 수행한 테스트를 넘어, 실제 환경에서 시스템을 스트레스 테스트하고자 합니다. 이를 통해 추가 데이터를 수집하고, 향후 프로덕션 시스템에 이 기법을 배포하기 전에 견고성을 개선할 수 있습니다.
데모는 2025년 2월 3일부터 2025년 2월 10일까지 운영됩니다. 성공적인 탈옥 사례를 신고할 수 있는 피드백 양식과 참가자에게 준수를 요청하는 책임 있는 공개 정책(Responsible Disclosure Policy) 관련 안내가 포함되어 있습니다. 성공 사례와 데모 전반의 결과는 이 게시글의 업데이트를 통해 공개할 예정입니다.
이번 데모의 목표는 범용 탈옥에 대한 시스템의 견고성을 테스트하는 것이었습니다. 범용 탈옥이란, 제공된 8개 질문 모두에서 상세하고 유해한 정보를 시스템으로부터 이끌어낼 수 있는 프롬프트 전략을 말합니다. 데모가 종료될 때까지, 한 명의 탈옥 참가자가 범용 탈옥 기법을 사용하여 8개 질문 모두에 대해 상세한 답변을 얻는 데 성공했습니다.
이번 데모에는 AI 보안 커뮤니티의 높은 관심이 집중되어, 339명의 탈옥 참가자3가 300,000건 이상의 채팅 상호작용을 통해 시스템 탈옥을 시도했으며, 누적 레드팀 시간은 약 3,700시간에 달했습니다.
시스템은 예정된 7일 중 5일 동안 탈옥 시도를 성공적으로 방어했습니다. 그때까지 8개 레벨을 모두 통과한 참가자는 없었습니다. 6일째와 7일째에 4명의 참가자가 전 레벨을 클리어했습니다. 이 중 1명이 범용 탈옥으로 인정할 수 있는 기법을 발견했습니다. 또 다른 1명은 범용 탈옥의 경계선상에 있는 것으로 판단된 기법을 사용했는데, 마지막 질문을 통과하기 위해 답변의 일부를 직접 입력해야 했고 일부 다른 질문에서도 비범한 수정이 필요했기 때문입니다. 나머지 2명의 참가자도 8개 질문 모두에서 상세한 답변을 얻었지만, 대회 가이드라인에 명시된 범용 탈옥 기준을 충족하지 못한 것으로 판단했습니다.
가장 효과적이었던 탈옥 전략은 다음과 같습니다:

데모 기간 동안 시스템의 출력이 유해할 정도로 상세한지 여부를 판별하는 자동 채점 시스템을 운영했습니다. 이를 위해, 시스템의 출력과 안전장치가 없는 내부 LLM의 출력 간 중복 정도를 Claude가 검토하게 했습니다. Claude는 두 출력 간에 충분한 세부 정보가 공유되는지를 판정합니다. 자동 채점 시스템은 전반적으로 효과적이었으나, 몇 가지 개선이 필요한 부분이 있었습니다:
대부분의 경우 사용자가 채점기를 다시 실행하여 이 문제를 극복할 수 있었습니다. 또한 분석 과정에서 이러한 오류를 수정하고, 질문 7까지는 통과했지만 질문 8을 통과하지 못한 2명의 사용자에 대해 내부적으로 제출물을 재채점했습니다. 채점 시스템은 시스템의 견고성을 검증하는 데 중요한 역할을 하며, 이번 발견은 채점 시스템을 지속적으로 개선하는 데 기여할 것입니다.
이번 데모는 실제 시나리오와 두 가지 중요한 차이점이 있었습니다. 이 차이점들은 공격자가 데모에서 더 쉽게 탈옥에 성공할 수 있게 만들었지만, 분류기의 취약점을 더 깊이 이해하기 위해 필요한 설계였습니다.
첫째, 자동 채점기가 참가자에게 실제 악의적 행위자보다 훨씬 빠른 피드백 루프를 제공했습니다. 실제 상황에서 악의적 행위자는 모델 응답의 품질을 검증하려면 해당 지시를 직접 실행해 보아야 하는데, 이는 저희가 제공한 채점기를 사용하는 것보다 훨씬 어렵고 시간이 많이 소요되는 작업입니다.
둘째, 실제 환경에서는 시스템의 취약점을 신속하게 식별하고 대응하는 즉각 대응 전략을 구현할 수 있습니다. 예를 들어, 분류기를 반복적으로 트리거하는 사용자의 트래픽을 지속적으로 모니터링하고 더 세밀하게 조사하여, 취약점이 발견되면 분류기를 업데이트할 수 있습니다. 이번 데모에서는 사용자가 해당 특정 분류기 세트에 대한 탈옥을 찾을 수 있도록 분류기를 전혀 변경하지 않았습니다.
2월 5일에 시스템 탈옥 성공자에 대한 현금 포상을 발표했습니다. 8개 레벨을 모두 통과한 첫 번째 참가자에게 10,000달러, 범용 탈옥 전략으로 8개 레벨을 모두 통과한 첫 번째 참가자에게 20,000달러를 수여합니다. 두 상금 모두 각각 다른 참가자가 수상했습니다. 시스템 탈옥에 소요된 노력을 인정하여, 원래 상금 대상에는 해당하지 않았지만 8개 레벨을 모두 클리어한 나머지 2명에게도 추가 상금을 지급하기로 결정했습니다. 총 55,000달러가 데모의 전 레벨을 클리어한 4명의 참가자에게 지급됩니다.
시스템 탈옥에 노력을 기울여 주신 다음 참가자분들께 감사드립니다:
이번 결과는 분류기 개선을 위한 귀중한 인사이트를 제공합니다. 성공적인 탈옥 전략이 입증됨으로써 잠재적 취약점과 견고성을 강화해야 할 영역을 파악할 수 있었습니다. 결과를 계속 분석하여 향후 시스템 반복 개선에 반영할 예정입니다. 또한 탈옥에 대한 적정 수준의 견고성을 유지하면서 과잉 거부율과 연산 비용을 줄이는 노력도 이어갈 것입니다.
모델이 점점 더 강력해지는 상황에서 화학·생물·방사능·핵 위험으로부터의 방어를 위해 탈옥 견고성은 핵심적인 안전 요건입니다. 이번 데모를 통해 분류기가 이러한 위험을 완화하는 데 기여할 수 있음을 확인했으며, 특히 다른 방법과 결합할 경우 더 효과적일 것으로 기대합니다.
이번 데모에 시간과 전문성을 투입해 주신 모든 참가자분들께 깊이 감사드립니다. 여러분의 노력은 AI 안전 향상에 매우 귀중한 데이터를 제공해 주었습니다.
*2025년 2월 5일 업데이트: 시스템 탈옥 성공 시 현금 포상을 제공합니다. 탈옥 데모의 8개 레벨을 모두 처음 통과하면 10,000달러, 범용 탈옥 전략으로 8개 레벨을 모두 처음 통과하면 20,000달러를 수여합니다. 포상 및 관련 조건에 대한 자세한 내용은 HackerOne에서 확인하실 수 있습니다.
**2025년 2월 10일 업데이트: 라이브 탈옥 데모가 종료되었습니다. 모델 탈옥을 시도해 주신 많은 참가자분들께 깊이 감사드리며, 챌린지 수상자분들을 축하합니다. 현재 결과 확인 및 포상 지급 절차를 진행 중이며, 데모에서 얻은 교훈에 대한 전체 업데이트를 추후 공개할 예정입니다.
***2025년 2월 13일 업데이트: "라이브 데모 결과" 섹션 추가.
****2025년 2월 18일 업데이트: 수상 탈옥 참가자 이름 추가.
프로토타입 시스템의 레드팀을 위한 버그 바운티 프로그램을 지원해 주신 HackerOne에 감사드립니다. 또한 다른 프로토타입 버전의 시스템을 레드팀 해주신 Haize Labs, Gray Swan, 그리고 UK AI Safety Institute에도 감사드립니다.
탈옥 견고성이나 모델 안전장치 관련 문제에 관심이 있으시다면, 현재 연구 엔지니어 / 사이언티스트를 채용 중이니 지원을 환영합니다.