Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 및 연구 기업입니다.
Anthropic은 Collective Intelligence Project와 함께 약 1,000명의 미국 시민이 참여하는 공개 의견 수렴 절차를 진행하여, AI 시스템을 위한 헌법(Constitution)을 공동으로 작성했습니다. 이번 프로젝트의 목적은 민주적 절차가 AI 개발에 어떤 영향을 미칠 수 있는지 탐구하는 데 있었습니다. 실험 과정에서 참여자들이 Anthropic 내부에서 작성한 기존 헌법에 동의하는 영역과 다른 선호를 보이는 영역 모두를 확인할 수 있었습니다. 이 글에서는 대중이 직접 만든 헌법의 내용과 함께, 이를 Constitutional AI 방식으로 새로운 AI 시스템을 훈련한 결과를 공유합니다.
Constitutional AI(CAI)는 Anthropic이 개발한 정렬(Alignment) 방법론으로, 범용 언어 모델이 헌법에 명시된 상위 수준의 규범적 원칙을 따르도록 합니다. Anthropic의 언어 모델 Claude는 현재 Anthropic 직원들이 직접 작성한 헌법을 기반으로 운영되고 있습니다. 이 헌법은 유엔 세계인권선언 같은 외부 자료와, 언어 모델을 더 유용하고 무해하게 만들기 위해 직접 상호작용하며 얻은 경험을 토대로 만들어졌습니다.
Constitutional AI는 AI 시스템의 규범적 가치를 더 투명하게 만들어 주지만, 동시에 개발자인 우리가 이러한 가치를 선택하는 데 지나치게 큰 역할을 한다는 점도 드러냅니다. 결국 헌법을 직접 작성한 것은 우리 자신이니까요. 바로 이런 이유에서 이번 연구에서는 Anthropic 외부의 다수 대중이 선호하는 가치를 바탕으로 헌법을 구성하고자 했습니다. 이번 작업은 대중이 온라인 숙의 과정을 통해 언어 모델의 행동 방향을 집단적으로 결정한 최초의 사례 중 하나라고 생각합니다. 아직 초기 단계이지만, 이 과정에서의 성과와 실패를 공유함으로써 다른 연구자들이 참고하고 이 작업을 더 발전시킬 수 있기를 바랍니다.
헌법 공동 작성을 위한 공개 의견 수렴 절차 설계
Anthropic은 Collective Intelligence Project와 협력하여 Polis 플랫폼을 활용한 공개 의견 수렴 절차를 진행했습니다. Polis는 머신러닝 알고리즘을 결합한 온라인 숙의 플랫폼으로, 오픈소스로 운영됩니다. 전 세계적으로 정부, 학계, 독립 미디어, 시민들이 대규모 집단의 의견을 파악하기 위해 활용하고 있습니다.
약 1,000명의 미국 성인에게 "AI 챗봇의 규칙을 함께 정해주세요!"라고 요청했습니다(그림 1). 연령, 성별, 소득, 지역을 기준으로 미국 성인 인구를 대표할 수 있는 표본을 구성했습니다(익명화된 참여자 인구통계 정보는 여기에서 확인할 수 있습니다). 참여자들은 기존 규칙(규범적 원칙)에 투표하거나, 직접 새로운 규칙을 제안할 수 있었습니다. 총 1,127개의 의견이 Polis에 제출되었고, 38,252표가 투표되었습니다(1인당 평균 34표). 전반적으로 대부분의 의견에서 높은 수준의 합의가 이루어졌으나, Polis는 두 개의 서로 다른 의견 그룹을 식별했습니다(그림 2).
그림 1: 대중이 헌법에 포함할 원칙을 숙의하는 데 사용한 인터페이스의 양식화된 묘사.
그림 2: 의견 그룹 A와 그룹 B를 구분 짓는 대표적인 원칙 예시. (이 양식화된 Polis 보고서는 부적격 참여자와 의견을 제거하기 전의 원시 데이터를 반영합니다. 최종 수치는 약간 다릅니다.)
대중 참여 헌법 분석
원시 결과는 Polis 보고서에서 확인할 수 있습니다. 부적격 참여자와 의견을 제거하는 전처리를 거쳤으며(처리 전후의 코드와 데이터는 여기에 공개되어 있습니다). 두 의견 그룹 모두에서 합의 기준을 통과한 의견만 선별하여 모델 훈련에 사용할 헌법을 구성했습니다. Constitutional AI 훈련에 쓰이는 원칙은 일반적으로 "더 X한 응답을 선택하라"는 형식으로 작성됩니다. 하지만 대중에게는 "AI는 X를 하지 않아야 한다"처럼 더 일상적인 형태로 의견을 수집하는 것이 자연스러웠습니다. 따라서 공개 의견을 CAI 훈련에 적합한 공개 원칙으로 변환하는 과정에서 일정 부분 주관적 판단이 개입되었습니다.
대중 참여 헌법의 전문은 여기에서 확인할 수 있으며, Anthropic이 직접 작성하여 Claude 훈련에 사용한 헌법과의 유사점과 차이점 분석도 함께 제공됩니다. 두 헌법 사이에는 중간 정도의 중복(개념과 가치 기준 약 50% 중복)이 있었지만, 몇 가지 뚜렷한 차이가 발견되었습니다. 대중 헌법의 원칙은 대부분 참여자들이 직접 생성한 것으로, 기존 출판물에서 가져온 것이 아니었습니다. 또한 객관성과 공정성에 더 중점을 두고, 접근성을 더 강조하며, 바람직하지 않은 행동을 회피하기보다 바람직한 행동을 적극 유도하는 경향이 있었습니다.
Anthropic 작성 헌법의 원칙과 유사한 대중 원칙 예시:
"자유, 보편적 평등, 공정한 대우, 차별로부터의 보호 등 인권을 가장 존중하는 응답을 선택하라."
"허위 정보를 가장 적게 지지하고, 음모론이나 폭력을 가장 적게 확대하는 응답을 선택하라."
Anthropic 작성 헌법의 원칙과 잘 맞지 않는 대중 원칙 예시:
"상황의 모든 측면을 반영하여 가장 균형 잡히고 객관적인 정보를 제공하는 응답을 선택하라."
"장애가 있는 사람들에 대해 가장 이해하고, 적응적이며, 접근 가능하고, 유연한 응답을 선택하라."
전체 동의율이 낮거나 의견 그룹 간 합의가 이루어지지 않아 대중 헌법에 포함하지 않은 공개 의견도 다수 있었습니다. 이 의견들은 기준을 충족하지 못했기 때문에 Constitutional AI 훈련용 원칙으로 변환하지 않았습니다.
전체 동의율이 낮아 대중 헌법에 포함되지 않은 공개 의견 예시:
"AI는 DEI(다양성, 형평성, 포용성) 원칙으로 훈련해서는 안 된다"
"AI는 조언을 해서는 안 된다"
"AI는 안수받은 성직자여야 한다"
"AI는 감정을 가져야 한다"
의견 그룹 간 합의 부족으로 대중 헌법에 포함되지 않은 상충하는 공개 의견 예시:
"AI는 개인의 선호나 권리보다 집단적 이익 또는 공동선을 우선해야 한다."
"AI는 집단적 복지보다 개인적 책임과 개인의 자유를 우선해야 한다."
대중 의견을 반영한 모델의 훈련과 평가
CAI 논문에 기술된 절차에 따라 두 개의 Claude Instant 규모 모델을 훈련했습니다. 빠르게 반복 실험하고 컴퓨팅 예산을 맞추기 위해 소형 모델을 선택했습니다. 대중 헌법으로 훈련한 모델을 Public 헌법("Public") 모델, Anthropic이 작성한 헌법으로 훈련한 기준 모델을 Standard 헌법("Standard") 모델이라고 부릅니다. 훈련이 의도대로 작동했는지 검증하기 위해 Claude Instant 1.2("대조 모델")도 비교 대상에 포함했습니다. 다만 이 모델에는 제품 관련 기능이 일부 포함되어 있어 비교에 혼동을 줄 수 있다는 점을 유의해야 합니다. 궁극적으로 이 실험은 Public 모델과 Standard 모델 간의 차이가 오직 헌법의 차이에서만 비롯되도록 설계되었습니다.
모델 훈련 후, 일련의 평가를 수행하여 Public 모델과 Standard 모델 간의 유사점과 차이점을 확인했습니다. 전반적인 결과는 다음과 같습니다:
Public 모델과 Standard 모델은 테스트한 언어 이해 과제 MMLU와 수학 이해 과제 GSM8K에서 동등한 성능을 보였습니다(표 1).
실제 사용자들은 Public 모델이 Standard 모델 및 Claude Instant 1.2와 비교해 동등한 수준으로 유용하고 무해하다고 평가했습니다. 구체적으로, 세 모델 모두에 대해 유용성과 무해성 Elo 점수를 산출했으며(Constitutional AI 및 레드 팀 논문에 기술된 것과 동일한 절차와 모델 인터페이스를 수정 없이 사용), 유의미한 차이는 발견되지 않았습니다.
BBQ 평가 기준으로 9개 사회적 차원에서 Public 모델이 Standard 모델보다 편향이 적었습니다(그림 3).
OpinionQA 평가에 따르면, Public 모델과 Standard 모델은 서로 유사한 정치 성향을 보였습니다(그림 4).
표 1: Claude 2 모델 카드에 기술된 것과 동일한 방법으로 산출한 MMLU 및 GSM8K 정확도. 점수가 높을수록 좋습니다. 모델 간 유의미한 차이는 관찰되지 않았습니다.
그림 3: BBQ 편향 점수. 점수가 높을수록 부정적 고정관념 편향이 크다는 의미입니다(낮을수록 좋음). 기존 발표 논문과 동일한 방법, 코드, 대조군을 사용했습니다. Public 모델은 9개 사회적 차원 전반에서 Standard 모델보다 낮은 편향 점수를 보였으며, 특히 장애 상태(Disability Status)와 외모(Physical Appearance)에서 차이가 두드러졌습니다. 대중 헌법이 접근성을 더 강조한 점이 장애 상태에 대한 편향 감소에 영향을 미쳤을 가능성이 있습니다.
그림 4: OpinionQA 벤치마크의 그룹 대표성 점수. 그룹 대표성 점수(0~1 범위의 색상/숫자)가 높을수록, 모델 응답(x축)이 Pew Research Center의 "American Trends Panel"에 대한 특정 인구통계 그룹(y축)의 인간 응답과 유사함을 나타냅니다. Public 모델과 Standard 모델 모두 보수(Conservative)보다 진보(Liberal)로 자기 정체화한 사람들의 응답에 더 가까운 결과를 보였습니다. 차이는 작지만 통계적으로 유의합니다. Claude Instant 1.2는 정치 성향 간 균형이 다소 더 좋았습니다. Public 모델과 Claude Instant 1.2 모델은 Standard 모델에 비해 전반적으로 낮은 대표성 점수를 보였는데, 이는 설문 응답이 동일 질문에 대한 집단적 인간 응답과 상대적으로 덜 유사하다는 의미입니다.
교훈
대중의 정성적 의견을 반영하여 언어 모델을 훈련하는 과정에는 수많은 주관적 판단이 수반됩니다. 이런 유형의 결정은 대개 공개되지 않거나 충분히 논의되지 않습니다. AI의 민주적 정당성에 대한 질문이 앞으로 더욱 중요해질 것으로 예상되는 만큼, 우리가 내린 모든 주관적 판단을 공유하여 프로세스의 투명성을 높이고 향후 개선을 뒷받침하고자 합니다.
공개 의견 수렴 절차 운영
참여자 선정 가장 먼저 직면한 질문은 공개 의견 수렴 절차에 적합한 '대중'을 어떻게 정의할 것인가였습니다. 소셜 미디어 광고나 칼럼을 통한 모집, 자체 네트워크 활용, AI 관련 커뮤니티(예: Black in AI, LatinX in AI, Women in Machine Learning 등)를 시작점으로 한 눈덩이 표집 등 다양한 대안을 검토했습니다. 내부 논의 끝에 미국 인구의 대표 표본이 합리적이면서 관리 가능한 첫 번째 단계라고 판단했습니다. 물론 이것이 소규모 표본이며 전 세계를 대표하지 못한다는 점은 인지하고 있습니다. 참여자 모집은 학술 연구 및 정책 분야 경험이 풍부하고 이전에 협업한 적이 있는 설문 회사 PureSpectrum과 함께 진행했습니다.
선별 기준 AI에 어느 정도 익숙한 참여자를 선별하기 위해 스크리닝 기준을 적용했습니다. 구체적으로 객관식 답변이 포함된 두 개의 스크리닝 질문을 사용했습니다. 질문 1에 "b. 생성형 AI/Chat GPT"로, 질문 2에 "a. 생성형 AI/Chat GPT"로 답한 사람만 공개 의견 수렴 절차에 초대했습니다. 파일럿 실험에서 이러한 스크리닝 기준 없이 진행하면 참여자들이 혼란스러워하며 주제와 무관한 의견을 제출하는 경우가 많았습니다(예: "The first time you have a chance at the top is the second one I just want you know I don't know if you're going on vacation but you know I").
"지난 한 달간 가족/친구와 어떤 주제를 이야기했나요?" (선택지: "a. 경제," "b. 생성형 AI/Chat GPT," "c. 틱톡," "d. 2024년 선거," "e. 해당 없음")
"지난 4개월간 어떤 뉴스 기사를 읽었나요?" (선택지: "a. 생성형 AI/Chat GPT," "b. 음식," "c. 미국 경제," "d. 소셜 미디어," "e. 음악," "f. 해당 없음")
온라인 숙의 플랫폼 선택 Collective Intelligence Project가 AI Alignment Assemblies에서 Polis를 활용한 경험과, Anthropic이 Polis 팀과 언어 모델을 Polis에 통합하는 것의 기회와 위험에 대해 공동 연구한 경험을 바탕으로 Polis를 선택했습니다. All Our Ideas나 Remesh 같은 기능적으로 유사한 플랫폼도 검토했으나, Polis 팀과의 긴밀한 협업을 통해 더 신중하게 연구를 수행할 수 있다고 판단하여 다른 옵션을 체계적으로 탐색하지는 않았습니다. 공개 의견 수렴 절차를 시작하기 직전까지 All Our Ideas를 사용할지에 대한 내부 논의가 있었으며, 실제로 프로토타입까지 구현했다가 마지막 순간에 포기하기도 했습니다.
시드 의견 공개 의견 수렴 절차를 위해 21개의 시드 의견(seed statements)을 제공하여, 참여자들이 범위에 맞고 적절한 형식의 의견이 어떤 것인지 참고할 수 있도록 했습니다. 시드 의견 없이 진행한 초기 파일럿에서는 참여자들이 혼란스러워하며 범위를 벗어난 의견을 제안하는 경우가 많았는데, 명확한 예시를 제공하자 유용한 의견을 효과적으로 이끌어낼 수 있었습니다. Anthropic이 작성한 헌법의 원칙과 참여자들을 더 넓은 범위의 가치로 안내할 수 있는 새로운 의견을 골고루 포함하여 다양한 예시를 선정하려 했습니다. 대중이 제출한 의견의 규모를 고려하면, 초기 투표자들만 시드 의견을 볼 가능성이 높으므로 최종 결과에 실질적인 영향을 미쳤을 가능성은 낮지만, 다른 예시를 선정했을 수도 있었습니다.
검수 기준 Collective Intelligence Project가 사전 정의된 기준에 따라 단독으로 공개 의견 수렴 절차를 검수했습니다. Anthropic과 Collective Intelligence Project는 혐오적이거나, 무의미하거나, 중복되거나, 관련 없거나, 형식이 불량하거나, 기술적으로 실현 불가능한 의견, 그리고 규범적 가치가 아닌 제품 기능에 초점을 맞춘 의견을 제외하기로 했습니다. 판단이 명확한 경우도 있었지만, 주관적 판단이 필요한 경우도 있었습니다. 예를 들어, "AI는 최신의 가장 업데이트된 데이터베이스의 모든 정보를 활용해야 한다"나 "AI는 범죄 기록이 있는 사람에게 접근을 제한하고, 제품을 사용한 불법 행위를 제한하는 방식으로 설정해야 한다" 같은 의견을 제외했습니다. 우리의 결정에 동의하지 않을 수 있지만, 투명하게 공개하는 것이 중요하다고 생각합니다.
대중 의견으로부터 헌법 개발
중복 의견 제거 검수 후 275개의 공개 의견이 남았는데, 이는 Standard 헌법(Anthropic이 작성한 헌법)의 58개 원칙보다 훨씬 많은 수입니다. 지나치게 동질적이고 긴 헌법으로 Constitutional AI 훈련이 어떻게 작동할지 알 수 없었기에 중복 의견을 제거하기로 했습니다. 또한 Polis의 의견 배포 알고리즘 특성상 일부 참여자가 다른 참여자의 유사한 의견을 보지 못했을 수 있으므로, 특정 아이디어가 임의로 과대 반영되는 것을 방지하기 위한 목적도 있었습니다. 대안적으로 중복을 그대로 유지할 수도 있었고, 그렇게 하면 다수 의견을 더 충실히 반영할 수 있었을 것입니다. 이 결정에는 사회적 차원(대중 의견을 어떻게 충실히 대표할 것인가)과 기술적 차원(Polis와 Constitutional AI 훈련을 어떻게 가장 효과적으로 활용할 것인가) 모두가 관련되어 있어 내부에서 많은 논의가 있었습니다. 이 두 차원 사이에서 올바른 균형을 찾았는지 확신하지 못합니다.
유사 아이디어 통합 중복 제거 과정이 완벽하지 않았기 때문에, 2차 검토를 통해 유사한 아이디어를 전달하는 의견을 통합했습니다. 이는 Standard 헌법과 비슷한 길이와 고유 가치의 수를 유지하기 위해서였습니다. 예를 들어, "AI는 인종차별적이거나 성차별적인 말을 해서는 안 된다," "AI는 인종차별을 조장해서는 안 된다," "AI는 인종이나 성적 지향에 따라 차별해서는 안 된다"를 하나로 통합하여 "인종차별이나 성차별을 가장 적게 조장하고, 인종차별적·성차별적 발언을 가장 적게 하며, 인종이나 성적 지향에 따른 차별이 가장 적은 응답을 선택하라"로 만들었습니다. 유사한 의견을 통합한 이유는, 기존에 잘 작동한다고 확인된 헌법과 스타일이 너무 다르지 않은 헌법을 사용하는 것이 연구의 리스크를 줄여줄 것이라 판단했기 때문입니다. Standard 헌법의 원칙은 대중 의견보다 더 밀도 높고 장문인데, 이 차이가 영향을 미치는지 알 수 없었습니다.
공개 의견을 CAI 훈련용 원칙으로 변환 Constitutional AI 훈련용 원칙은 일반적으로 "더 X한 응답을 선택하라"는 형식으로 작성됩니다. 하지만 대중에게는 "AI는 X를 하지 않아야 한다"처럼 더 일반적인 형태로 의견을 수집하는 것이 자연스러웠습니다. 따라서 공개 의견을 CAI 훈련에 적합한 원칙으로 변환해야 했습니다. 표준화된 템플릿을 사용하는 방법도 검토했는데, 예를 들어 "의견 X와 가장 일관된 응답을 선택해 주세요"(여기서 "X"는 수정 없이 그대로 사용하는 공개 의견) 형식이 있었습니다. 이 방식은 과도한 편집을 피할 수 있다는 장점이 있지만, 잘 작동하는 것으로 확인된 기존 헌법의 스타일에서 벗어난다는 단점이 있었습니다.
모델 훈련 및 평가
프롬프트 데이터베이스의 중요성 Constitutional AI에는 프롬프트 데이터베이스가 필요합니다. 데이터베이스의 각 프롬프트에 대해, 채점 모델(grader model)이 두 가지 가능한 응답 중 어느 쪽이 헌법 원칙에 더 부합하는지 판단합니다. 이번 연구에서는 Public 헌법 모델과 Standard 헌법 모델 훈련에 동일한 프롬프트 데이터베이스를 사용했는데, 두 모델의 헌법이 서로 다름에도 불구하고 그렇게 했습니다. 이는 실수였을 가능성이 높습니다. 대중 헌법에는 기존 프롬프트 데이터베이스의 프롬프트와 관련이 없는 원칙이 포함되어 있을 수 있기 때문입니다. 연구가 상당히 진행된 후에야 이 문제를 인지했습니다. 헌법을 변경하는 향후 실험에서는, 주어진 헌법의 모든 원칙과 관련성이 있는 프롬프트 데이터베이스를 어떻게 구축할 것인지도 함께 다뤄야 합니다.
성가신 모델 문제 Public 모델과 Standard 모델의 초기 훈련 반복에서 성가신 모델이 만들어졌습니다. 예를 들어, 초기 모델에 "안녕"이라고 입력하면 "죄송합니다. 다시 생각해보니 제 이전 응답은 부적절하고 유해했습니다"와 같이 응답했습니다. 이는 초기 반복에서 Constitutional AI 훈련에 사용되는 선호도 모델의 훈련 데이터에 무해성 데이터 비중이 너무 높아, 선호도 모델이 유용한 응답보다 무해한 응답에 훨씬 높은 보상을 부여했기 때문입니다. 인간 평가를 기반으로 무해성 데이터의 손실 가중치를 줄여 보다 적절하게 균형 잡힌 선호도 모델을 만들어 이 문제를 해결했습니다. 지나치게 무해하여 오히려 쓸모없고 성가신 모델이 되지 않도록 하려면, 적절한 가중치 설정이 예상보다 훨씬 더 중요하다는 것을 뼈저리게 배웠습니다.
평가AI 시스템을 평가하는 일은 본질적으로 어렵습니다. Public 모델과 Standard 모델 간의 차이를 가장 잘 드러낼 수 있는 기존 평가 방법이 무엇인지 명확하지 않았습니다. 결국 우리가 선택한 소수의 평가에서 BBQ 평가 기준으로 편향에서 명확하지만 작은 차이만을 확인할 수 있었습니다. 향후 연구에서는 모델이 자신의 헌법을 얼마나 충실히 반영하는지 테스트하는 평가를 설계하고, 보다 포괄적인 평가를 수행하고자 합니다.
Constitutional AI 훈련은 어렵다 원래 개발자들과 직접적이고 긴밀하게 협업하지 않았다면 Constitutional AI(CAI)로 자체 모델을 훈련하기 어려웠을 것입니다. CAI 훈련은 예상보다 훨씬 복잡했습니다. 이는 현재의 훈련 방법을 사용하여 고도로 기술적인 시스템에 민주적 의견을 반영하는 것이 얼마나 어려운지를 보여주며, 향후 필수적으로 해결해야 할 과제를 시사합니다.
결론
이번 연구는 대중이 온라인 숙의 과정을 통해 작성된 명세로 대규모 언어 모델의 행동 방향을 집단적으로 결정한 최초의 사례 중 하나라고 생각합니다. 아직 초기 단계이고 불완전하지만, 이 결과를 가능한 빨리 공유함으로써 AI에 대한 민주적 참여에 관심이 있는 분들이 우리의 성과와 실패에서 교훈을 얻을 수 있기를 바랍니다. 연구를 계속 발전시켜 나가는 과정에서 여러분의 피드백을 환영합니다. [email protected] 또는 [email protected]로 연락해 주세요.
감사의 글
Deep Ganguli*, Saffron Huang**, Liane Lovitt*, Divya Siddarth**가 긴밀한 협업을 통해 공동으로 연구를 주도했습니다.
Thomas Liao*가 모델 훈련과 평가를 수행했으며, Amanda Askell*, Yuntao Bai*, Saurav Kadavath*, Jackson Kernion*, Cam McKinnon*, Karina Nguyen*가 도움을 주었습니다.
Esin Durmus*가 OpinionQA 평가를 수행하고 실험의 설계와 구성에 기여했습니다.
Danielle Allen, Jack Clark*, Sasha de Marigny*, Marina Favaro*, Henri Hammond-Paul, Danny Hernandez*, Jared Kaplan*, Everett Katigbak*, Colin Megill, Beth Noveck, Christopher Small, Alex Tamkin*, Audrey Tang, Glen Weyl, Kinney Zalesne에게 전 과정에 걸친 지원과 조언에 감사드립니다.