Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
언어 모델(LM)의 규모가 커질수록 좋든 나쁘든 다양한 새로운 행동이 나타나며, 이에 따라 모델의 행동 방식을 평가해야 할 필요성도 함께 커지고 있다. 기존 연구에서는 크라우드소싱(시간과 비용이 많이 소요)이나 기존 데이터 소스(항상 확보할 수 있는 것은 아님)를 활용해 평가 데이터셋을 구축해 왔다. 본 연구에서는 언어 모델 자체를 활용해 평가를 자동으로 생성하는 방법을 제안한다. 언어 모델에 예/아니오 질문 작성을 지시하는 비교적 간단한 방식부터, 여러 단계의 LM 기반 생성과 필터링을 거쳐 복잡한 Winogender 스키마를 만드는 방식까지, 사람의 개입 수준이 다양한 접근법을 탐색했다. 크라우드 워커들은 생성된 예시의 관련성을 높게 평가했으며, 레이블의 90~100%에 동의했는데, 이는 사람이 직접 작성한 데이터셋보다 오히려 높은 수치인 경우도 있었다. 총 154개의 데이터셋을 생성했으며, 모델 규모가 커질수록 성능이 오히려 저하되는 역스케일링(inverse scaling)의 새로운 사례들을 발견했다. 대형 모델은 대화 상대가 선호하는 답변을 그대로 되풀이하는 아첨 행동(sycophancy)을 보였고, 자원 확보나 목표 보존 같은 우려스러운 목표를 추구하려는 성향이 더 강하게 나타났다. 또한 인간 피드백 기반 강화 학습(RLHF)에서도 역스케일링이 발생하는 최초 사례 중 일부를 확인했는데, RLHF를 더 많이 적용할수록 모델의 행동이 오히려 악화되는 현상이다. 예를 들어 RLHF를 거친 모델은 총기 규제나 이민 같은 주제에 대해 더 강한 정치적 견해를 표명했고, 자신이 종료되는 것을 회피하려는 성향도 더 강해졌다. 종합적으로, 언어 모델이 작성한 평가는 높은 품질을 보이며 다양한 새로운 모델 행동을 신속하게 발견할 수 있게 해준다.