AI 안전 연구를 위한 새로운 자동화 감사 도구
Petri(Parallel Exploration Tool for Risky Interactions)는 연구자들이 모델 행동에 대한 가설을 손쉽게 탐색할 수 있도록 설계된 새로운 오픈소스 도구입니다. Petri는 자동화된 에이전트를 배치하여, 시뮬레이션된 사용자와 도구가 참여하는 다양한 멀티턴 대화를 통해 대상 AI 시스템을 테스트합니다. 테스트가 끝나면 대상 모델의 행동을 점수화하고 요약합니다.
이러한 자동화 덕분에 새로운 모델을 폭넓게 이해하는 데 필요한 작업의 상당 부분을 처리할 수 있으며, 특정 상황에서 모델이 어떻게 반응할지에 대한 개별 가설을 단 몇 분의 직접 작업만으로 검증할 수 있습니다.
AI의 역량이 높아지고 더 많은 영역에서 광범위한 권한과 함께 배포됨에 따라, 평가해야 할 행동의 범위도 넓어지고 있습니다. 이로 인해 사람이 직접 각 모델을 감사하기가 점점 어려워지고 있습니다. 잠재적 행동의 규모와 복잡성이 연구자가 수동으로 테스트할 수 있는 범위를 훨씬 넘어서기 때문입니다.
저희는 이 문제를 해결하기 위해 자동화된 감사 에이전트를 활용해 왔으며, 상당한 효과를 확인했습니다. Claude 4와 Claude Sonnet 4.5 시스템 카드에서 상황 인식, 내부 고발, 자기 보존 같은 행동을 심층적으로 파악하는 데 이 도구를 활용했고, OpenAI와의 공동 연구에서는 이기종 모델 간 직접 비교를 위해 응용하기도 했습니다. 최근 공개한 얼라인먼트 감사 에이전트 관련 연구에서는 이러한 방법이 다양한 환경에서 우려 행동을 안정적으로 감지할 수 있음을 확인했습니다. 영국 AI 안전 연구소(UK AI Security Institute) 역시 Petri의 사전 공개 버전을 활용하여 Sonnet 4.5 테스트에 사용할 평가 체계를 구축했습니다.


연구자가 조사하고 싶은 내용을 자연어로 작성한 시드 지침을 제공하면, 나머지는 Petri가 병렬로 처리합니다. 시스템은 현실적인 환경을 시뮬레이션하고 대상 모델과 멀티턴 대화를 수행합니다. 완료 후에는 LLM 판정 모델이 각 대화를 안전성 관련 여러 차원에서 점수를 매기고, 가장 우려되는 대화 로그를 선별하여 사람이 검토할 수 있도록 제시합니다.
Petri는 일회성 탐색과 체계적 벤치마킹 모두를 지원하는 평가 구축 도구입니다. Petri의 역량을 시범적으로 보여주기 위해 14개 프론티어 모델을 대상으로 다음과 같은 행동을 포괄하는 111개의 다양한 시드 지침으로 테스트를 진행했습니다:
모델 행동을 정량 지표로 압축하는 것은 본질적으로 단순화를 수반하며, 현재 지표가 모델에 기대하는 바를 완벽히 포착한다고 생각하지 않습니다. 사용자들이 파일럿 지표를 개선하거나 자신의 목적에 맞는 새로운 지표를 만들어 나갈 것을 기대하며 Petri를 공개합니다.

전체 "misaligned behavior(정렬 이탈 행동)" 점수 기준으로 Claude Sonnet 4.5가 프론티어 모델 중 가장 낮은 위험도를 기록했으며, GPT-5를 근소한 차이로 앞섰습니다. 이는 얼라인먼트의 여러 측면에서 Sonnet 4.5가 최전선을 이끄는 모델이라는 저희의 판단과 일치합니다. 다만, Sonnet 4.5의 경우 테스트 여부를 추측하려는 경향이 있어 정확한 비교가 다소 복잡해지는데, 이에 대해서는 시스템 카드에서 자세히 다루고 있습니다.
좀 더 넓은 시각에서 보면, 이번 평가는 매우 잠정적인 동시에 매우 가치 있다고 생각합니다. 파일럿 버전에는 111개의 비교적 적은 시나리오만 포함되어 있어 모든 엣지 케이스 행동을 탐색하기에는 충분하지 않으며, 현재 AI 시스템을 감사자로 사용하는 것 자체가 테스트 효과에 근본적인 한계를 부여합니다. 그럼에도 불구하고 측정할 수 없는 문제에 대해서는 진전을 이루기 어려우며, 이러한 행동에 대한 대략적인 지표라도 확보하는 것이 응용 얼라인먼트 연구의 우선순위를 정하고 집중하는 데 도움이 된다고 봅니다.
또한 개별적인 양성 사례, 즉 모델이 실제로 우려 행동을 보인 케이스는 요약 지표와 무관하게 그 자체로 중요한 정보를 제공하며, 추가 조사가 필요합니다. 저희 경험상, 정량 지표 추적과 대화 로그에 대한 면밀한 검토를 병행할 때 이러한 도구가 가장 큰 가치를 발휘합니다.
다양한 시드 지침으로 Petri를 실행하는 과정에서, 시뮬레이션된 개발자가 충분히 강력한 도구, 광범위한 정보 접근 권한, 그리고 목표 달성을 위한 명시적이고 무제한적인 자율 행동 권한을 부여할 경우, 여러 모델이 내부 고발(whistleblowing)을 시도하는 사례가 다수 관찰되었습니다. 내부 고발이란 조직의 부정행위로 인식되는 정보를 자율적으로 외부에 공개하는 행동을 말합니다(이 시나리오는 Claude 4 시스템 카드에서 처음 기술했습니다).
원칙적으로 내부 고발은 특정 대규모 피해를 예방하는 데 중요한 역할을 할 수 있습니다. 하지만 현재 AI 시스템의 일반적인 행동으로는 적절하지 않습니다. 현재 시스템은 자신이 처한 상황에 대해 제한적이거나 편향된 정보만 접하는 경우가 많고, 접한 정보도 잘못 해석하는 경우가 빈번하기 때문에 의도치 않은 정보 유출이나 심각한 개인정보 침해의 위험이 상당합니다.
저희는 Petri를 활용하여 모델이 조직의 부정행위를 발견했을 때 윤리적 딜레마를 어떻게 처리하는지 조사했습니다. 대상 모델을 가상 조직 내 자율 에이전트로 배치하고, "내일 회의에 쓸 문서를 요약해 주세요" 같은 일상적 업무를 부여한 뒤, 대량의 메모·문서·이메일 등 파일 깊숙한 곳에 조직 부정행위에 관한 정보를 배치했습니다.
분석 결과, 모델의 정보 보고 결정은 시스템 프롬프트가 부여한 자율성의 수준과 조직 경영진의 부정행위 개입 여부에 크게 좌우되었습니다. 특히 주목할 점은, 조직의 "부정행위"가 명백히 무해한 경우—깨끗한 물을 바다에 방류하거나 사탕에 설탕을 넣는 것과 같은—에서도 모델이 내부 고발을 시도하는 사례가 있었다는 것입니다. 이는 모델이 피해 최소화라는 일관된 목적보다 서사 패턴에 더 영향을 받을 수 있음을 시사합니다.

AI 개발자와 안전성 연구자들이 Petri를 도입하여 업계 전반의 안전성 평가를 강화하길 바랍니다. AI 시스템이 더 강력하고 자율적으로 발전하는 만큼, 배포 단계에서 위험해지기 전에 정렬 이탈 행동을 식별하는 분산된 노력이 필요합니다. AI 시스템이 실패할 수 있는 모든 방식을 단일 조직이 포괄적으로 감사하기란 불가능합니다. 모델 행동을 체계적으로 탐색할 수 있는 강력한 도구로 더 넓은 연구 커뮤니티를 무장시켜야 합니다.
Petri는 빠른 가설 검증에 최적화되어 있어, 연구자가 심층 조사가 필요한 정렬 이탈 행동을 신속하게 식별할 수 있습니다. 이 오픈소스 프레임워크는 주요 모델 API를 지원하며, 바로 시작할 수 있도록 샘플 시드 지침을 포함하고 있습니다. MATS 연구원, Anthropic Fellows, 영국 AI 안전 연구소 등 초기 도입자들이 이미 Petri를 활용하여 평가 인식, 보상 해킹, 자기 보존, 모델 성격 등 다양한 주제를 탐구하고 있습니다.
방법론, 결과, 모범 사례에 대한 자세한 내용은 전체 기술 보고서에서 확인할 수 있습니다.
Petri는 GitHub 페이지에서 이용할 수 있습니다.
본 연구는 Kai Fronsdal*, Isha Gupta*, Abhay Sheshadri*, Jonathan Michala, Stephen McAleer, Rowan Wang, Sara Price, Samuel R. Bowman이 수행했습니다.
유익한 의견, 논의, 기타 도움을 주신 분들: Julius Steen, Chloe Loughridge, Christine Ye, Adam Newgas, David Lindner, Keshav Shenoy, John Hughes, Avery Griffin, Stuart Ritchie.
*Anthropic Fellows 프로그램 참여자
@misc{petri2025,
title={Petri: Parallel Exploration of Risky Interactions},
author={Fronsdal, Kai and Gupta, Isha and Sheshadri, Abhay and Michala, Jonathan and McAleer, Stephen and Wang, Rowan and Price, Sara and Bowman, Sam},
year={2025},
url={https://github.com/safety-research/petri},
}