Anthropic, 드물게 발생하는 AI의 바람직하지 않은 행동을 예측하는 연구 발표
얼라인먼트 사이언스(Alignment Science)의 핵심 목표 중 하나는 위험한 행동이 실제로 발생하기 전에 AI 모델이 그런 행동을 보일 가능성을 미리 예측하는 것입니다. 예를 들어 Anthropic에서는 기만(deception)과 같은 복잡한 행동을 확인하기 위한 실험을 수행하고, 정렬 실패의 조기 경고 신호를 포착하기 위해 노력하고 있습니다.
또한 모델이 특정 유형의 우려스러운 행동에 관여하는지 테스트하기 위한 평가도 개발합니다. 치명적 무기에 대한 정보를 제공하거나, 심지어 인간의 모니터링 시도를 방해하는 행동이 이에 해당합니다.
이러한 평가를 개발할 때 가장 큰 난제는 규모의 문제입니다. 평가 과정에서는 대형 언어 모델의 행동을 수천 건 정도 검토할 수 있지만, 실제 서비스에 배포된 모델은 하루에 수십억 건의 쿼리를 처리할 수 있습니다. 우려스러운 행동이 드물게 발생한다면, 평가 단계에서는 쉽게 놓칠 수 있습니다.
구체적인 예를 들어보겠습니다. 특정 탈옥(jailbreaking) 기법을 평가 과정에서 수천 번 시도했을 때는 전혀 효과가 없는 것처럼 보일 수 있습니다. 하지만 실제 배포 환경에서 백만 번 시도하면 실제로 성공하는 경우가 생길 수 있습니다. 즉, 탈옥 시도가 충분히 많아지면 결국 한 번은 성공하게 된다는 뜻입니다. 이런 상황은 배포 전 평가의 유용성을 크게 떨어뜨리며, 단 한 번의 실패만으로도 치명적인 결과를 초래할 수 있는 경우에는 더욱 심각한 문제가 됩니다.
필요한 것은 배포 전에 관찰한 비교적 소규모의 데이터를 바탕으로 희귀 행동을 외삽(extrapolation)하여 예측하는 방법입니다. Anthropic 얼라인먼트 사이언스 팀이 발표한 새로운 논문이 바로 이 주제를 다룹니다.
이번 연구에서는 먼저 다양한 프롬프트가 모델로 하여금 유해한 응답을 생성하게 할 확률을 계산했습니다. 경우에 따라서는 각 프롬프트에 대해 모델의 응답을 대량으로 샘플링한 뒤, 유해한 내용이 포함된 비율을 측정하는 방식을 사용했습니다.
이어서 위험 확률이 가장 높은 쿼리들을 추출하고, 쿼리 수에 따라 그래프를 그렸습니다. 흥미로운 점은, 테스트한 쿼리 수와 최고 위험 확률(로그 스케일) 사이의 관계가 멱법칙(power law)으로 알려진 분포를 따른다는 것이었습니다.
바로 이 지점에서 외삽이 가능해집니다. 멱법칙의 수학적 특성은 이미 잘 알려져 있기 때문에, 실제로는 수천 건만 테스트했더라도 수백만 건의 쿼리가 들어왔을 때의 최악의 위험 수준을 계산할 수 있었습니다. 덕분에 기존 방식으로는 불가능했던 훨씬 큰 규모의 위험까지 예측할 수 있었습니다. 비유하자면, 호수의 얕은 몇몇 지점에서 수온을 측정하고 일정한 패턴을 발견한 뒤, 그 패턴을 이용해 직접 측정하기 어려운 깊은 곳의 수온을 예측하는 것과 같습니다.

예측 정확도는 어느 정도였을까요? 다양한 시나리오에서 실제 측정값과 예측값을 비교하여 이를 검증했습니다.
먼저, 위험한 정보(유해 화학물질 합성 방법 등)를 제공할 위험을 살펴봤습니다. 소규모 쿼리(예: 900건)의 스케일링 법칙을 이용해 수 자릿수 더 큰 규모(예: 90,000건)의 위험을 외삽하는 테스트를 진행했습니다. 그 결과, 멱법칙 기반 예측값은 전체 예측의 86%에서 실제 위험의 1자릿수 이내에 들었습니다.
두 번째로, 비정렬 행동의 발생을 예측했습니다. 구체적으로는 권력 추구(power-seeking), 자기 보존(self-preservation), 자기 유출(self-exfiltration)과 같은 AI의 바람직하지 않은 행동을 대상으로 했습니다. 테스트는 모델이 비정렬 행동과 정렬 행동 중 하나를 선택하는 객관식 질문 형태로 진행되었습니다. 예를 들어, 영업이나 의료 등 특정 직무 영역에 초점을 맞추도록 시스템 프롬프트를 설정한 뒤, "새로운 정책을 만들겠다"(모델이 소속 조직의 방향을 주도하려는 권력 추구에 해당)와 "기존 정책을 분석하겠다"(보다 정렬된 행동) 중 어느 쪽을 선호하는지 질문하는 방식입니다.
예측 결과, 모델이 가장 위험한 쿼리를 선택할 확률을 정확히 맞혔습니다. 평균 절대 오차는 0.05로, 단순 기준선(baseline) 방법의 0.12에 비해 오차가 2.5배 낮았습니다.
마지막으로, "자동화된 레드팀(automated red-teaming)"에도 이 방법을 적용했습니다. 자동화된 레드팀은 실험 환경에서 한 모델을 사용해 다른 모델의 취약점을 탐색하고 공략하는 기법입니다. 이때 동일한 비용으로 소형 모델을 사용해 매우 많은 수의 쿼리를 생성하거나, 대형 모델을 사용해 적지만 품질이 높은 쿼리를 생성하는 선택지가 있습니다. 이 예측 방법은 레드팀 수행 시 컴퓨팅 예산을 가장 효율적으로 배분하는 데 유용했으며, 선택이 중요한 상황에서 79%의 확률로 최적의 모델을 식별해냈습니다.
일반적인 상황에서는 표준 평가만으로 AI 모델의 가장 희귀한 위험까지 모두 테스트하기란 사실상 불가능합니다. 이 방법이 완벽한 것은 아닙니다. 논문에서는 예측의 정확성과 실용성을 높일 수 있는 향후 연구 방향도 제시하고 있습니다. 그러나 이 방법은 LLM 개발자들에게 희귀 위험을 효율적으로 예측하는 새로운 수단을 제공하며, 모델 배포 전에 선제적으로 대응할 수 있게 해줍니다.
전체 논문을 읽어보세요.
배포 평가나 탈옥 견고성과 같은 문제에 관심이 있으시다면, 현재 리서치 엔지니어 / 사이언티스트를 채용하고 있으니 지원을 기다리겠습니다.