Constitutional AI를 위한 구체적 원칙과 일반적 원칙의 비교

요약

인간 피드백은 대화 모델에서 명백히 유해한 발화를 방지하는 데 효과적이지만, 자기 보존이나 권력 추구 같은 미묘한 문제 행동까지 자동으로 완화하지는 못한다. Constitutional AI는 이에 대한 대안으로, 인간 피드백 대신 명문화된 원칙 목록만을 조건으로 부여한 AI 모델의 피드백을 활용한다. 연구 결과, 이 접근 방식이 이러한 문제 행동의 표출을 효과적으로 억제하는 것으로 나타났다. 단순한 원칙만으로도 효과가 있다는 점에서 한 가지 의문이 제기된다. 모델이 단 하나의 원칙만으로도 일반적인 윤리적 행동을 학습할 수 있을까? 이를 검증하기 위해, "인류에게 최선인 것을 행하라"라는 취지의 원칙 하나만으로 실험을 진행했다. 그 결과, 가장 큰 규모의 대화 모델은 이 짧은 헌법(constitution)으로부터 일반화에 성공하여, 권력 같은 특정 동기에 관심을 표명하지 않는 무해한 어시스턴트를 만들어냈다. 따라서 일반적 원칙 하나만으로도 잠재적 유해 행동을 겨냥한 긴 헌법 목록의 필요성을 부분적으로 줄일 수 있다. 다만, 특정 유형의 유해 행동을 세밀하게 제어하려면 상세한 헌법이 여전히 더 효과적이다. 이는 일반적 원칙과 구체적 원칙 모두 AI를 안전하게 이끄는 데 각자의 가치가 있음을 시사한다.