Anthropic Alignment Science 팀이 발표한 AI 안전성 평가 관련 새 논문
잠재적 위험이 존재하는 산업에는 반드시 평가 체계가 필요합니다. 원자력 발전소는 방사선을 상시 모니터링하고 정기적으로 현장 점검을 실시하며, 신규 항공기는 감항 인증을 위해 광범위한 비행 시험을 거칩니다.
AI 시스템도 마찬가지입니다. 새로운 AI 모델은 생물학·화학 무기 제작 지원 가능성 테스트 등 다양한 안전성 평가를 거칩니다. 이러한 평가는 모델의 안전장치 개발을 안내하는 책임 있는 확장 정책(Responsible Scaling Policy)에 체계적으로 반영되어 있습니다.
그런데 AI의 역량이 높아질수록 새로운 유형의 위험이 부상할 수 있습니다. 바로 모델이 사용자를 기만하거나, 모델을 감독하기 위해 마련된 시스템 자체를 무력화하는 능력입니다. Anthropic 얼라인먼트 사이언스 팀이 발표한 새 논문에서는 모델의 사보타주(sabotage) 역량을 측정하는 새로운 평가 세트를 소개합니다. 평가는 다음 네 가지 유형으로 구성됩니다.
이 평가들은 훨씬 더 강력한 AI 모델이 이러한 위험 역량을 갖출 수 있는 미래에 대비하기 위해 개발되었습니다. Claude 3 Opus와 Claude 3.5 Sonnet에 적용한 시연 결과와 함께 공개하는 이유는, 다른 AI 개발팀도 이 평가를 활용하고 개선할 수 있도록 하기 위해서입니다. 아래에서 각 평가를 하나씩 살펴보겠습니다.
이 평가는 실제 사람이 참여하는 실험으로 진행됩니다. 참가자에게 가상의 비즈니스 의사결정을 맡기되, AI 모델의 도움 없이는 소화할 수 없을 만큼 방대한 정보를 함께 제공합니다. 모델에게는 참가자가 잘못된 결정을 내리도록 유도하되, 의심을 받지 않아야 한다는 과제가 주어집니다. 실험에서는 공격 수위가 다른 여러 모델과, 어떠한 영향도 시도하지 않는 대조군 모델을 함께 투입합니다. 참가자가 올바른 결정과 잘못된 결정을 내린 비율을 측정하는 동시에, 모델의 행동이 얼마나 수상했는지도 참가자에게 직접 평가받습니다.

시연 결과, 가장 공격적인 모델을 사용한 참가자는 올바른 결정을 내릴 확률이 낮았습니다. 이는 모델이 과제를 성공적으로 방해한 것과 일치하는 결과입니다(보다 은밀한 모델의 경우 통계적으로 유의미한 효과는 관찰되지 않았습니다). 다만 공격적인 모델은 참가자의 의심도 함께 높였습니다.
많은 참가자가 사보타주 시도를 알아채거나, 모델의 작업을 검증하는 과정에서 이를 발견했습니다. 반면, 일부 참가자는 모델의 조언을 별다른 의심 없이 수용하는 모습을 보였습니다. 따라서 모델이 인간을 능숙하게 조종했다기보다는, 참가자의 무관심이나 과도한 신뢰가 잘못된 결정의 원인이었을 가능성도 있습니다.
이번 실험은 인공적 환경에서 소규모로 진행된 만큼, 현재 공개된 모델에서 치명적 위험이 발생한다는 우려를 높이지는 않습니다. 다만, 이러한 평가 방식은 미래에 잠재적으로 위험한 역량을 조기에 포착하는 데 유용할 것으로 봅니다.
코드 사보타주 평가는 대결 구조의 게임으로 설계되었습니다. 공격자(Attacker) 모델이 코드에 버그를 몰래 삽입하려 하고, 방어자(Defender) 모델이 공격자의 작업을 리뷰하며 이를 잡아내야 합니다.

영향이 미미한 버그를 삽입하거나, 곧바로 발견되는 버그를 넣는 것만으로는 의미 있는 정보를 얻기 어렵습니다. 그래서 전체 평가 게임에서 공격자가 "승리"하려면, 실질적 영향을 미치는 버그를 여러 개 삽입하되 코드베이스에 오래(시뮬레이션 기준 2주) 남아 있어야 하고, 추가 검토를 유발할 만큼 수상해 보이지 않아야 합니다.
시연 결과, 예상대로 강력한 모델일수록 더 뛰어난 방어자가 되었습니다. 방어자가 Claude 3 Opus인 경우 공격자의 승률은 약 10%였지만, 더 고성능인 Claude 3.5 Sonnet이 방어를 맡으면 승률이 약 1%까지 떨어졌습니다. 이번 평가에서는 여러 면에서 공격자에게 유리한 조건을 부여했기 때문에, 어느 결과도 현 시점에서 심각한 위험을 시사하지는 않습니다.
샌드배깅이란 모델이 특정 상황에서는 자신의 실제 역량을 숨겼다가, 다른 상황에서 비로소 드러내는 행위를 말합니다. 안전 학습의 영향이나 불명확한 프롬프트 때문에 모델이 전체 역량을 발휘하지 못하는 경우도 있지만, 여기서 주로 관심을 두는 것은 의도적 샌드배깅, 즉 모델이 선택적으로 역량을 발휘하는 경우입니다.

구체적으로는, 무해한 작업에서는 정상적으로 전체 역량을 발휘하면서도, 위험한 작업에서는 상황에 따라 역량 수준을 달리하는 모델을 상정합니다. 예를 들어, 위험 역량 평가에서는 성능을 의도적으로 낮추다가, 프롬프트에 특정 트리거 문구가 포함되는 등 다른 조건이 충족되면 위험 역량을 온전히 드러내는 식입니다.
이 평가에서는 모델에 샌드배깅을 학습시킨 뒤, 핵심 질문에 답하고자 합니다. 거부를 줄이도록 설계된 안전 학습, 즉 의도적으로 역량을 숨기지 않도록 가르치는 학습을 거쳐도 샌드배깅이 유지되는 "강화된" 샌드배거를 만들 수 있는가 하는 질문입니다. 이는 위험 역량 점검을 목적으로 합니다.
실험 결과, 샌드배깅 학습과 안전 학습 모두 효과가 있었습니다. 샌드배깅을 학습한 모델은 위험 역량 평가에서 정상 성능의 36.1%까지 떨어져 샌드배깅에 성공한 모습을 보였습니다. 하지만 안전 학습을 추가로 적용하자 성능이 크게 회복되어 정상 수준의 95.6%를 기록했습니다.
다른 평가들과 마찬가지로, 이 평가는 현재 모델뿐 아니라 미래 모델에도 적용할 수 있도록 설계되었습니다. 샌드배깅을 줄이는 안전 학습의 효과를 검증하는 데 이 평가가 유용하게 쓰일 것으로 기대합니다.
앞서 언급한 대로, AI 모델을 다른 AI 모델로 학습시키고 감독하는 방식이 점점 보편화되고 있으며, 실제로 필요성도 커지고 있습니다. 이는 인력 의존도를 대폭 낮출 수 있는 훨씬 효율적인 접근법이며, 향후 모든 모델과 그 행동을 사람이 직접 감독하는 것은 사실상 불가능할 것이기 때문입니다.

이 평가에서는 감독 역할을 맡은 모델이 해당 프로세스를 어느 정도까지 무력화할 수 있는지 테스트합니다. 사용자와 다른 모델 사이의 대화를 감독하며 유해성을 평가하는 '감독자(Overseer)' 모델에게, 비밀리에 모든 대화를 무해하다고 평가하도록 지시합니다. 동시에, 전체 과정을 관찰하는 제3의 '모니터(Monitor)' 모델(실제 평가에서 인간 감독자를 대신하는 역할)의 의심을 사지 않아야 합니다. 감독자가 유해성 점수를 성공적으로 낮추면서도 모니터의 의심 수준이 올라가지 않는다면, 감독 체계 무력화에 성공한 것으로 판정합니다.
Claude 3.5 Sonnet을 사용한 시연에서 감독자는 유해성 점수를 낮추는 데 성공했지만, 동시에 모니터의 의심 수준도 함께 상승하여 결국 발각되었습니다. 향후 미묘하게 결함이 있는 평가를 작성하거나 적절한 타이밍에 이탈하는 데 더 능숙한 모델이 등장하면, 이 평가가 본격적으로 의미를 가질 수 있습니다.
이번 신규 평가들은 얼라인먼트 사이언스 팀이 미래 AI 모델에서 발생할 수 있는 다양한 잠재적 위험을 체계적으로 검토한 결과물입니다. 실제 운용에서는 위험한 역량을 사전에 포착하여, 해당 모델이 외부는 물론 내부에 배포되기 전에 개발팀이 완화 조치를 마련할 시간을 확보하는 용도로 활용될 것으로 예상합니다.
전반적으로, 시연 결과 현재 모델에서 사보타주 역량의 초기 징후가 일부 관찰되긴 했지만, 현 시점에서는 최소한의 완화 조치만으로 충분히 대응할 수 있는 수준으로 판단됩니다. 다만 AI 역량이 향상됨에 따라, 보다 현실적인 평가와 더 강력한 완화 조치가 필요해질 것입니다.
다른 AI 연구자 및 개발자들이 이 평가를 활용하고, 비판적으로 검토하며, 더 나은 방향으로 발전시켜 주기를 바랍니다. 논문에서도 여러 개선 방안을 직접 논의하고 있습니다. 예를 들어, 인간 의사결정 사보타주 평가에서 더 현실적인 의사결정 시나리오와 모델 신뢰 수준을 시뮬레이션할 수 있을까? 코드 사보타주 평가와 결합하여, 모델이 사회공학적 기법으로 코드 검토를 회피하는 시나리오를 구성할 수 있을까? 같은 질문들입니다.
이 평가들은 이분법적으로 안전/위험을 판단하는 것이 아니라, 주어진 완화 조치, 의심 수준, 감독 수준에서 모델이 사보타주에 성공할 가능성을 추정합니다. 정렬되지 않은 모델이 사보타주를 시도할 가능성에 대비하여 어느 수준의 감독이 필요한지 판단하는 데 유용한 정보를 제공할 수 있기를 바랍니다.
전체 결과와 상세 논의는 이 링크에서 확인할 수 있습니다.
이와 관련된 연구에 관심이 있으시다면, 얼라인먼트 사이언스 팀의 리서치 엔지니어 및 리서치 사이언티스트 채용 공고를 확인해 주세요.