Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 및 연구 기업입니다.
본 연구는 인간 피드백 기반 강화학습(RLHF)으로 훈련된 언어 모델이 "도덕적 자기 교정" 능력, 즉 지시를 받았을 때 유해한 출력을 스스로 회피하는 능력을 갖추고 있는지 검증합니다. 세 가지 실험을 통해 도덕적 자기 교정의 서로 다른 측면을 살펴본 결과, 이 가설을 강하게 뒷받침하는 증거를 확인했습니다. 도덕적 자기 교정 능력은 모델 파라미터가 22B 규모에 도달할 때 나타나기 시작하며, 모델 크기와 RLHF 훈련량이 증가할수록 대체로 향상되는 양상을 보였습니다. 이 규모에서 언어 모델은 도덕적 자기 교정에 필요한 두 가지 핵심 능력을 갖추게 된다고 판단합니다. (1) 지시를 따를 수 있고, (2) 고정관념, 편향, 차별 등 복잡한 규범적 유해성 개념을 학습할 수 있다는 것입니다. 이 두 능력이 결합되어 특정 유형의 도덕적으로 유해한 출력을 피하라는 지시를 수행할 수 있게 됩니다. 본 연구의 결과는, 윤리적 원칙을 준수하는 언어 모델 훈련 가능성에 대해 조심스러운 낙관론을 제시한다고 봅니다.