Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
대규모 언어 모델의 폭넓은 능력을 고려하면, 인간의 가치에 부합하는—즉 유용하고, 정직하며, 무해한—범용 텍스트 기반 어시스턴트를 만드는 것이 충분히 가능할 것이다. 이 방향의 첫 시도로서 본 연구에서는 프롬프팅(prompting) 등 간단한 기본 기법과 평가 방법을 살펴본다. 실험 결과, 비교적 작은 개입만으로도 모델 크기가 커질수록 효과가 증가하고, 다양한 얼라인먼트 평가에서 일관되게 적용되며, 대형 모델의 성능을 저해하지 않는다는 점을 확인했다. 이어서 얼라인먼트와 관련된 여러 학습 목표의 스케일링 추세를 분석하며, 모방 학습(imitation learning), 이진 판별(binary discrimination), 순위 선호 모델링(ranked preference modeling)을 비교한다. 순위 선호 모델링이 모방 학습보다 훨씬 우수한 성능을 보이며, 모델 크기에 따른 확장성도 대체로 더 뛰어났다. 반면 이진 판별은 성능과 확장성 모두 모방 학습과 유사한 양상을 나타냈다. 마지막으로, 인간 선호 데이터로 파인튜닝할 때 샘플 효율성을 높이기 위한 '선호 모델 사전 학습(preference model pre-training)' 단계를 연구한다.