Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 구축하는 AI 안전 및 연구 기업입니다.
AI 시스템의 역량이 높아질수록, 다른 AI를 감독하는 데 AI의 도움을 활용하고자 하는 필요성도 커집니다. 본 연구에서는 유해한 출력을 식별하는 인간 라벨 없이, 자기 개선(self-improvement)만으로 무해한 AI 어시스턴트를 훈련하는 방법을 실험합니다. 인간의 감독은 일련의 규칙 또는 원칙 목록을 통해서만 제공되며, 이러한 특성에 착안해 이 방법을 'Constitutional AI'라 명명했습니다. 전체 프로세스는 지도 학습(SL) 단계와 강화 학습(RL) 단계로 구성됩니다. 지도 학습 단계에서는 초기 모델에서 응답을 샘플링한 뒤, 모델 스스로 비판과 수정을 생성하게 하고, 수정된 응답으로 원래 모델을 파인튜닝합니다. 강화 학습 단계에서는 파인튜닝된 모델에서 응답을 샘플링하고, 모델이 두 샘플 중 더 나은 것을 평가하도록 한 다음, 이 AI 선호도 데이터셋으로 선호도 모델(preference model)을 훈련합니다. 이후 이 선호도 모델을 보상 신호로 활용해 강화 학습을 수행하며, 이를 'AI 피드백 기반 강화 학습(RLAIF)'이라 부릅니다. 그 결과, 유해한 질문에 대해 회피하지 않으면서도 거부 사유를 설명하는 무해한 AI 어시스턴트를 훈련할 수 있었습니다. 지도 학습과 강화 학습 모두 연쇄적 사고(chain-of-thought) 방식의 추론을 활용해 인간이 판단하는 성능과 AI 의사결정의 투명성을 높일 수 있습니다. 이러한 방법론을 통해 훨씬 적은 인간 라벨만으로도 AI의 행동을 더 정밀하게 제어할 수 있습니다.