Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
언어 모델(LM)이 발전함에 따라, 대출 심사나 주거 자격 판정 등 사회적으로 중대한 의사결정에 이를 활용하려는 관심이 커지고 있습니다. 그러나 이러한 맥락에서 언어 모델이 차별을 유발할 가능성은 윤리적 우려를 낳으며, 이에 따라 해당 위험을 평가할 더 나은 방법론이 필요합니다. 본 연구에서는 아직 배포되지 않은 가상의 활용 사례를 포함해 다양한 사용 맥락에서 언어 모델의 잠재적 차별 영향을 사전에 평가하는 방법론을 제시합니다. 구체적으로, 언어 모델을 활용하여 의사결정자가 입력할 수 있는 다양한 프롬프트를 생성하고, 사회 전반에 걸친 70가지 의사결정 시나리오를 다루면서 각 프롬프트에 포함된 인구통계학적 정보를 체계적으로 변경합니다. 이 방법론을 적용한 결과, 별도의 개입 없이 Claude 2.0 모델을 사용할 경우 특정 상황에서 긍정적 차별과 부정적 차별이 모두 나타나는 패턴을 확인했습니다. 본 연구에서 다루는 고위험 사용 사례에 대해 언어 모델을 활용한 자동화된 의사결정을 지지하거나 허용하는 것은 아니지만, 신중한 프롬프트 엔지니어링을 통해 긍정적·부정적 차별을 모두 크게 줄일 수 있는 기법을 제시하며, 적절한 사용 사례에서 보다 안전한 배포를 위한 방향을 모색합니다. 본 연구는 언어 모델의 기능과 활용 범위가 계속 확장되는 가운데, 개발자와 정책 입안자가 차별을 예측하고, 측정하며, 대응할 수 있도록 돕습니다. 데이터셋과 프롬프트는 여기에서 공개합니다.