Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
본 연구에서는 선호도 모델링과 인간 피드백 기반 강화학습(RLHF)을 적용하여 언어 모델을 유용하고 무해한 어시스턴트로 파인튜닝하는 방법을 다룹니다. 이러한 정렬 훈련은 거의 모든 NLP 평가에서 성능을 향상시켰으며, 파이썬 코딩이나 요약 같은 특화 기술 훈련과도 완벽히 호환되는 것으로 나타났습니다. 또한 반복적 온라인 훈련 방식을 탐구했는데, 매주 새로운 인간 피드백 데이터를 반영하여 선호도 모델과 RL 정책을 갱신함으로써 데이터셋과 모델을 효율적으로 개선할 수 있었습니다. 마지막으로, RLHF 훈련의 강건성을 분석하여 RL 보상과 정책-초기화 간 KL 발산 제곱근 사이에 대략적인 선형 관계가 존재함을 확인했습니다. 주요 결과 외에도 캘리브레이션, 상충하는 목적 함수, OOD 탐지 활용에 관한 부가 분석을 수행했으며, 모델 출력을 인간 작성자와 비교하고, 최근 관련 연구에서 사용된 프롬프트를 활용한 모델 샘플도 함께 제공합니다.
Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan, Nicholas Joseph, Saurav Kadavath, Jackson Kernion, Tom Conerly, Sheer El-Showk, Nelson Elhage, Zac Hatfield-Dodds, Danny Hernandez, Tristan Hume, Scott Johnston, Shauna Kravec, Liane Lovitt, Neel Nanda, Catherine Olsson, Dario Amodei, Tom Brown, Jack Clark, Sam McCandlish, Chris Olah, Ben Mann, Jared Kaplan