Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 구축하는 AI 안전 및 연구 기업입니다.
본 논문에서는 언어 모델의 잠재적 유해 출력을 발견·측정·저감하기 위해 수행한 초기 레드 팀(red team) 실험을 소개합니다. 주요 기여는 세 가지입니다. 첫째, 3가지 모델 크기(27억, 130억, 520억 파라미터)와 4가지 모델 유형에 걸쳐 레드 팀의 스케일링 양상을 분석했습니다. 4가지 유형은 각각 일반 언어 모델(LM), 도움이 되고 정직하며 무해하도록 프롬프트된 LM, 거부 샘플링(rejection sampling)을 적용한 LM, 그리고 인간 피드백 기반 강화 학습(RLHF)으로 도움이 되고 무해하도록 훈련된 모델입니다. 분석 결과, RLHF 모델은 규모가 커질수록 레드 팀 공격에 대한 방어력이 높아진 반면, 나머지 모델 유형은 규모에 따른 뚜렷한 변화가 관찰되지 않았습니다. 둘째, 다른 연구자들이 분석하고 활용할 수 있도록 38,961건의 레드 팀 공격 데이터셋을 공개합니다. 자체 분석을 통해 공격적 언어부터 비폭력적이지만 비윤리적인 미묘한 유형까지 다양한 유해 출력을 확인했습니다. 셋째, 레드 팀 수행에 사용된 지침, 절차, 통계 방법론, 그리고 과정에서 느낀 불확실성을 빠짐없이 기술합니다. 이러한 투명한 공유가 커뮤니티 전체가 함께 언어 모델 레드 팀의 공통 규범, 실무 관행, 기술 표준을 마련해 나가는 데 기여하길 바랍니다.