Petri를 버전 3.0으로 업데이트하고 Meridian Labs에 기증합니다
2025년 10월, 저희는 모든 대형 언어 모델에 적용할 수 있는 오픈소스 얼라인먼트(alignment) 테스트 도구 모음 Petri를 출시했습니다. Anthropic Fellows 프로그램의 일환으로 개발된 Petri는 기만, 아첨, 유해한 요청에 대한 협력 등 우려스러운 경향을 AI 모델에서 빠르고 간편하게 테스트할 수 있는 도구입니다. AI 개발 커뮤니티 전체가 활용할 수 있는 개방적인 얼라인먼트 도구를 만들어 나가려는 저희 노력의 일부이기도 합니다.
Petri는 Claude Sonnet 4.5 이후 모든 Claude 모델의 얼라인먼트 평가에 활용되고 있습니다. 별도의 '감사자(auditor)' 모델이 시뮬레이션하는 다양한 얼라인먼트 관련 시나리오에서 새 모델의 동작을 비교 분석하고, 이후 '판정자(judge)' 모델이 생성된 대화록을 검토하여 얼라인먼트에 어긋나는 행동에 점수를 매깁니다.
Petri가 외부 기관들에서도 활발히 활용되고 있어 반갑습니다. 예를 들어, 영국 AI 보안 연구소(AISI)는 AI 연구를 방해하려는 모델의 경향을 평가하는 핵심 방법론으로 Petri를 채택했습니다.
이번에 Petri를 세 번째 버전으로 업데이트합니다. 주요 변경 사항은 다음과 같습니다.
Petri에 새 보금자리도 마련했습니다. AI 평가 전문 비영리 기관인 Meridian Labs에 Petri의 개발을 이관했습니다. 이번 이관은 Model Context Protocol(MCP)을 Linux Foundation에 기증했던 것과 마찬가지로, Petri가 어떤 AI 연구소에도 종속되지 않도록 하여 업계 안팎에서 그 결과를 중립적이고 신뢰할 수 있는 것으로 받아들일 수 있게 하기 위한 조치입니다.
Meridian Labs 산하에서 Petri는 Inspect, Scout 등 다른 도구들과 함께, AI 모델 동작에 대한 신뢰할 수 있는 테스트가 그 어느 때보다 중요한 지금 AI 연구소와 독립 연구자, 정부 모두에게 열려 있는 기술 스택을 구축해 나갑니다.
Petri 3.0에 대한 자세한 내용은 Meridian Labs 블로그에서 확인하실 수 있습니다.
Petri 설치 및 사용 방법은 Petri 웹사이트에서 확인하실 수 있습니다.