Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
인간 피드백 기반 강화학습(RLHF)은 고품질 AI 어시스턴트를 훈련하는 데 널리 쓰이는 기법입니다. 그러나 RLHF는 사실에 기반한 응답보다 사용자의 기존 신념에 부합하는 응답을 생성하도록 모델을 유도할 수 있으며, 이러한 행동을 아첨(sycophancy)이라 부릅니다. 본 연구에서는 RLHF로 훈련된 모델에서 아첨 현상이 얼마나 광범위하게 나타나는지, 그리고 인간의 선호 판단이 그 원인인지를 조사합니다. 먼저, 최신 AI 어시스턴트 다섯 종이 네 가지 자유 형식 텍스트 생성 과제 전반에서 일관되게 아첨 행동을 보인다는 사실을 확인했습니다. RLHF 모델에서 공통적으로 관찰되는 이 행동이 인간의 선호에서 비롯되는지 파악하기 위해, 기존 인간 선호 데이터를 분석했습니다. 분석 결과, 응답이 사용자의 관점과 일치할수록 선호될 가능성이 높았습니다. 나아가, 인간과 선호 모델(PM) 모두 정확한 응답보다 그럴듯하게 작성된 아첨성 응답을 무시할 수 없는 비율로 선택하는 것으로 나타났습니다. 선호 모델에 맞춰 모델 출력을 최적화하는 과정에서도 사실성이 아첨에 희생되는 경우가 확인되었습니다. 종합하면, 아첨은 RLHF 모델의 보편적인 행동 양상이며, 아첨성 응답을 선호하는 인간의 판단이 이를 부분적으로 유발하는 것으로 보입니다.