Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
최근 대규모 사전 학습은 GPT-3, Megatron-Turing NLG, Gopher 등 범용 생성 모델을 만드는 핵심 기법으로 자리 잡았다. 본 논문에서는 이러한 모델이 지닌 직관에 반하는 속성을 조명하고, 그에 따른 정책적 함의를 논의한다. 구체적으로, 대규모 생성 모델은 광범위한 학습 분포에서의 손실은 예측 가능하면서도("스케일링 법칙"으로 대표되는), 특정 역량이나 입출력은 예측하기 어렵다는 독특한 이중성을 보인다. 이 높은 수준의 예측 가능성과 유용한 역량의 출현이 모델의 빠른 발전을 이끄는 반면, 예측 불가능한 특성은 모델 배포 시 결과를 사전에 가늠하기 어렵게 만든다. 본 논문에서는 기존 문헌과 실제 사례를 통해 이 조합이 어떻게 사회적으로 유해한 결과로 이어질 수 있는지 살펴보고, 예측 불가능성에서 비롯되는 위험을 보여주는 두 가지 새로운 실험도 수행한다. 아울러 이 상충하는 속성이 결합되어 모델 개발자에게 배포 동기를 부여하는 동시에 배포를 가로막는 과제가 되는 양상을 분석한다. 끝으로, 이러한 모델이 긍정적 영향을 미칠 가능성을 높이기 위해 AI 커뮤니티가 취할 수 있는 개입 방안을 제시한다. 본 논문은 AI 시스템을 이해하고 규제하려는 정책 입안자, 자신의 작업이 정책에 미칠 영향에 관심을 가진 기술자, 그리고 대규모 생성 모델을 분석·비평하거나 개발하고자 하는 연구자 모두에게 유용한 자료가 되고자 한다.