Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
대규모 언어 모델(LLM)은 사회적 이슈에 대한 전 세계의 다양한 관점을 공정하게 반영하지 못할 수 있다. 본 논문에서는 모델이 생성한 응답이 누구의 의견과 더 유사한지를 평가하기 위한 정량적 프레임워크를 제안한다. 먼저, 여러 국가의 글로벌 이슈에 대한 다양한 의견을 포착하도록 설계된 국제 설문조사의 질문과 응답으로 구성된 데이터셋 GlobalOpinionQA를 구축했다. 이어서 국가별로 조건화된 LLM 생성 설문 응답과 인간 응답 간의 유사도를 정량화하는 지표를 정의했다. 이 프레임워크를 바탕으로, Constitutional AI로 훈련되어 유용하고 정직하며 무해한 응답을 생성하도록 설계된 LLM을 대상으로 세 가지 실험을 수행했다. 기본 설정에서 LLM의 응답은 미국, 일부 유럽 및 남미 국가 등 특정 인구 집단의 의견과 더 유사한 경향을 보였으며, 이는 편향 가능성을 시사한다. 특정 국가의 관점을 고려하도록 프롬프트를 제시하면, 응답이 해당 국가 인구의 의견에 더 가까워지지만 유해한 문화적 고정관념을 반영할 수 있다. GlobalOpinionQA 질문을 특정 언어로 번역한 경우, 모델의 응답이 반드시 해당 언어 사용자의 의견과 가장 유사해지는 것은 아니었다. 구축한 데이터셋은 다른 연구자들이 활용하고 확장할 수 있도록 공개한다. 데이터는 이 링크에서, 인터랙티브 시각화는 이 링크에서 확인할 수 있다.