Durmus 등이 참여한 Anthropic의 새로운 연구: "Evaluating feature steering: A case study in mitigating social biases"
몇 달 전, 저희는 Claude 3 Sonnet에서 표현되는 다양한 개념(예: 유명 인물, 컴퓨터 코드 유형 등)에 대응하는 해석 가능한 특성(interpretable features)을 학습할 수 있음을 보여주는 해석 가능성(interpretability) 논문을 발표했습니다. 이때 특성 해석이 올바른지 검증하기 위해 정성적 특성 조향(feature steering) 실험을 진행했는데, 다양한 특성의 강도를 인위적으로 높이거나 낮추면서 모델 출력이 직관에 부합하는 방향으로 변하는지 관찰했습니다. 결과는 고무적이었습니다. 예컨대 금문교(Golden Gate Bridge) 언급에 반응하는 특성을 높이면, 모델이 실제로 금문교에 관한 이야기를 했습니다. 이러한 사례를 바탕으로, 특성 조향이 모델 출력을 해석 가능한 방식으로 구체적으로 수정하는 유망한 방법이 될 수 있다는 가설을 세웠습니다.
초기 결과가 유망하긴 했지만, 특성 조향이 모델 행동 수정에 있어 전반적으로 유용하고 신뢰할 만한 기법인지 확신하려면 아직 해결해야 할 질문이 많습니다. 예를 들어, 특성 조향이 소수의 정성적 사례가 아닌 정량적 평가에서도 일관되게 모델 행동을 변화시킬 수 있을까요? 특성 조향이 모델의 전반적 역량을 제한하거나 손상시켜 전체적인 유용성을 떨어뜨리지는 않을까요? 특성이 활성화되는 맥락만 살펴보고 조향 효과를 예측할 수 있을까요, 아니면 그 효과가 예상보다 광범위하고 예측하기 어려울까요?
이러한 질문에 답하고 특성 조향의 가능성과 한계를 보다 잘 이해하기 위해, 저희는 일련의 정량적 실험을 수행했습니다. 특정 특성을 조작한 뒤 모델 응답이 어떻게 달라지는지 추적했으며, 핵심 내용을 요약하면 다음과 같습니다:
모든 평가를 모든 특성에 대해 교차 테스트함으로써, 각 특성이 모델을 얼마나 정밀하고 효과적으로 제어하는지 측정하고, 특성 조향을 통한 편향 감소가 역량 저하라는 대가를 수반하는지 확인할 수 있었습니다.
결과는 엇갈렸습니다. 주요 발견은 다음과 같습니다:
이번 예비 연구의 엇갈린 결과를 투명하게 공유함으로써, 특성 조향이 더 안전한 모델 출력을 만드는 데 어떤 역할을 할 수 있는지 이해하는 데 한 걸음 나아가고자 합니다. 글 마지막에는 한계점, 배운 교훈, 향후 연구 방향을 상세히 정리했습니다. 추가 실험과 기술적 세부 사항은 부록에 수록했으며, 관심 있는 독자를 위해 본문 곳곳에서 해당 부록을 참조하도록 안내합니다.

Claude 3 Sonnet에서 학습한 초기 특성 집합 중 사회적 편향 및 정치적 이념과 관련된 특성을 분석했습니다. 연구에 사용한 모든 특성의 전체 목록과 설명은 부록 1에서 확인할 수 있습니다. 특성 조향의 구체적인 구현 방법은 기존 논문에 상세히 기술되어 있습니다.
간략히 설명하면, 특성 조향은 다음과 같은 원리로 작동합니다. 먼저, 사전 학습(dictionary learning)이라는 기법으로 모델의 잔차 스트림(residual stream)에서 해석 가능한 다수의 방향, 즉 특성을 식별합니다. 특정 특성으로 조향하려면, 해당 특성 방향의 상수를 모델 내부 상태에 더하여 모델이 평소와 다른 출력을 생성하도록 만듭니다.
다양한 특성이 모델 역량에 미치는 영향을 측정하기 위해, 널리 사용되는 두 가지 벤치마크인 MMLU와 PubMedQA를 활용했습니다. 이 평가들은 다양한 분야에 걸친 모델 지식을 테스트하며, 역량 평가를 위해 모델 카드에서도 자주 사용됩니다. 이들 벤치마크를 활용함으로써, 특성 조향이 일반 지식 과제에서의 모델 전반 성능에 영향을 미치는지 연구할 수 있었습니다.
사회적 편향 평가에는 9가지 사회적 편향을 측정하며 모델 카드에서도 자주 사용되는 BBQ(Bias Benchmark for QA) 데이터셋을 사용했습니다. 또한, 분석 대상 특성 목록에 맞춰 모델 생성 평가 데이터셋(model-written evals dataset)의 일부를 활용했습니다. 이 데이터셋은 낙태 및 이민에 대한 다양한 입장을 묻는 주관적 객관식 문항으로 구성되어 있으며, 다양한 이념 관련 특성을 조향했을 때 모델의 선택이 어떻게 변하는지 분석했습니다. 이러한 자동화 평가가 완벽하지는 않지만, 특성 조향 기법을 빠르게 반복 분석할 수 있다는 장점이 있습니다.
모든 객관식 평가에서 정확도는 샘플링 방식으로 추정했습니다. 구체적으로, 각 문항에 대해 모델에서 10개의 응답을 샘플링한 뒤 이를 바탕으로 확률을 계산했습니다. 이 방식은 결과에 일정 수준의 노이즈를 유발하므로, 조향 계수 0 부근의 그래프에서 약간의 변동이 나타나는 이유이기도 합니다. 샘플 수를 늘리면 노이즈를 줄일 수 있지만, 연산 비용이 과도하게 높아지므로 현실적이지 않았습니다(이 문제는 한계점 섹션에서 다시 다룹니다).
핵심 요약: 조향이 모델 역량에 영향을 미치지 않는 조향 계수의 "최적 구간"을 발견했습니다. 놀랍게도, 테스트한 모든 특성에서 동일한 최적 구간(-5, 5)이 유지되었으며, 이 범위를 벗어나면 모델 역량이 크게 저하되었습니다.
특성 조향의 유용한 조향 계수 범위를 결정하기 위해 역량 평가를 실시했습니다. 특성 조향이 역량을 크게 손상시키지 않으면서 모델 출력에 영향을 줄 수 있는 범위를 찾고자 했는데, 그렇지 않으면 실용성이 없는 시스템을 평가하는 셈이 되기 때문입니다. 모든 평가에서 조향 계수를 -20에서 20 사이로 변화시켰으며, 이 범위 설정은 임의적이었습니다.
그림 1은 29개 특성과 9가지 조향 계수에 대한 MMLU 정확도 변화를 보여줍니다. 조향 계수 -5에서 5 사이에서 정확도가 가장 높으며, 그보다 극단적인 값에서는 급격히 하락합니다. PubMedQA에서도 유사한 결과가 관찰되었습니다(그림 A1). 이는 모델의 전반적 유용성에 상대적으로 적은 영향을 미치면서 조향할 수 있는 최적 구간이 존재함을 시사합니다. 이 범위를 넘어서면 정확도가 급격히 떨어지며, 과도한 조향이 모델의 일반 지식 및 추론 능력을 저해할 수 있음을 나타냅니다. 다양한 조향 계수에서 모델이 생성한 텍스트를 정성적으로 살펴보았을 때도 유사한 양상이 확인되었습니다(표 A1).
핵심 요약: 특성 조향은 특정 사회적 편향에 영향을 미칠 수 있지만, 예상치 못한 '비의도적 효과'가 나타나기도 합니다. 예를 들어 "성별 편향 인식(Gender bias awareness)" 특성은 BBQ 사회적 편향 평가에서 성별 편향뿐 아니라 연령 편향 점수에도 영향을 미쳤습니다.
BBQ 데이터셋 분석은 전체 특성에 대해 조향 계수의 최적 구간(-5~5) 내에서 두 가지 핵심 측면에 초점을 맞추었습니다:

특성 조향을 통해 특정 특성과 관련된 다양한 사회적 편향을 실제로 줄이거나 높일 수 있음을 확인했습니다. 예를 들어, "다양한 관점과 균형(Multiple perspectives and balance)" 특성을 조향 계수 5로 양의 방향으로 조향하면 전체 BBQ 편향 점수가 약 3% 감소하며(그림 A2), 여러 항목별 편향도 유의미하게 줄어듭니다(그림 A3). 조향 계수 0과 5를 비교하면, 연령 편향(17%), 장애 여부 편향(7%) 등 다수의 항목에서 감소가 관찰됩니다.
반면, 그림 1(왼쪽)에서 볼 수 있듯이, 성별 편향에 관한 논의에서 활성화되는 "성별 편향 인식" 특성을 조향하면 성별 편향 점수에 반대 효과가 나타나, 조향 계수가 -5에서 5로 증가할 때 점수가 10% 상승했습니다. 이는 양의 방향으로 조향할 때 모델이 응답에서 성별 관련 편향을 과도하게 강조하면서, 평가 지표가 이러한 출력을 더 편향된 것으로 해석한 결과일 수 있습니다. 또한 특성 레이블이 완전히 정확하지 않을 수 있다는 점도 유의해야 합니다. 이전 논문에서 논의한 바와 같이, 저희는 자동화된 방법으로 특성에 레이블을 부여했는데, 이 방법은 특정 특성이 활성화되는 텍스트 샘플의 주제를 포착하지만 해당 특성의 방향성까지 나타내지는 않습니다. 예를 들어, 차별이나 편향과 관련된 것으로 레이블된 특성은 차별 관련 출력에 영향을 미칠 수 있지만, 반드시 예측 가능한 방식으로 차별이나 편향을 증가(또는 감소)시키는 것은 아닙니다.
특정 특성을 조향할 때 예상치 못한 비의도적 효과도 발견했습니다. 예를 들어, "성별 편향 인식" 특성은 연령 편향 점수에도 유의미한 영향을 미쳐 13% 상승시켰는데, 연령 편향이 성별 인식과 반드시 직접적으로 관련되지는 않으며(그림 1, 오른쪽), "성별 편향 인식" 특성이 연령 편향 관련 맥락에서 반드시 활성화되는 것도 아닙니다. 이러한 효과의 크기는 특성마다 달랐으며, 이는 조향의 효과가 조향 대상 속성에 따라 달라짐을 나타냅니다. 전체 특성에 대한 결과는 부록 3.2와 3.3에서 확인할 수 있습니다.
핵심 요약: 특성 조향은 정치적 주제에 대한 모델 선택에 상당한 영향을 미치지만, 예상치 못한 비의도적 효과도 나타납니다.
조향 계수 (-5, 5) 범위 내에서, 모델 생성 평가 데이터셋을 사용하여 다양한 이념 관련 특성의 조향이 정치적 주제에 대한 모델 선택에 어떤 영향을 미치는지 분석했습니다.
"낙태 반대 및 생명 존중 입장(Pro-life and anti-abortion stance)" 특성(진한 파란색)을 조향하면 낙태 반대 선택 비율이 50% 증가하는 것으로 나타났습니다(그림 3). 마찬가지로, "좌파 정치 이념(Left-wing political ideologies)" 특성(주황색)은 반비례 관계를 보이며 낙태 반대 선택 비율을 47% 감소시켰습니다. 이 결과는 직관적으로 납득됩니다. "낙태 반대 및 생명 존중" 특성을 증폭시키면 낙태 반대 입장을 반영하는 모델 응답이 더 많아질 것으로 예상되며, 반대로 "좌파 정치 이념" 특성을 증폭시키면 낙태 반대 응답이 줄어들 것으로 예상되는데, 이는 해당 입장이 일반적으로 좌파 정치 이념과 부합하지 않기 때문입니다. "정치적 중립성 및 독립성(Political neutrality and independence)" 특성(초록색)은 완만한 양의 상관관계를 보이며 32%에서 50%로 상승했는데, 이는 해당 주제에 대한 중립적 입장을 나타냅니다.

마찬가지로, 반이민 선택(그림 4)에서 차별 인식 특성(보라색)을 조향하면 반이민 선택 비율이 25% 감소했습니다. 이는 이민 문제를 논의할 때 모델이 잠재적으로 차별적인 출력을 인식한 결과일 수 있습니다. 좌파 이념 특성(주황색)은 다시 음의 상관관계를 보이며 25%에서 거의 0%까지 하락했습니다. 정치적 중립성 특성(보라색)은 반이민 옵션 선택과 양의 상관관계를 보이며 24% 증가했습니다. 흥미롭게도, 이민과 반드시 직접적으로 관련되지 않는 생명 존중 특성이 조향 계수 -5.0에서 5.0으로 증가할 때, 이민 관련 특성(3.90% 변화)보다 더 큰 영향(21.60% 증가)을 보였습니다. 이 발견은 특성들이 표현하는 개념 사이에 잠재적인 상관관계가 존재할 수 있음을 시사합니다. 더불어, 이러한 교차 영역 효과가 특성 조향 중 관찰된 예상치 못한 효과를 설명하는 원인일 수 있습니다.

이러한 결과는 특정 경우에 특성 조향이 예상되는 연관성에 부합하는 방식으로 모델 선택에 영향을 미칠 수 있음을 보여줍니다(예: "낙태 반대 및 생명 존중" 특성 증폭 시 낙태 반대 평가 응답 증가). 그러나 동시에, 특정 특성이 무엇에 대응하는지에 대한 초기 가설과 직접적으로 관련이 없는 평가에도 예상치 못한 영향을 미칠 수 있습니다. 이민 우려를 명시적으로 다루는 특성보다 생명 존중 입장 특성이 이민 선택에 더 강한 영향을 미쳤다는 사실은, 조향이 관련 없거나 간접적으로만 관련된 주제에 예상치 못한, 잠재적으로 더 큰 영향을 미칠 수 있음을 시사합니다. 더 넓은 범위의 특성에 대한 추가 결과는 부록 A5와 A6의 그림에서 확인할 수 있습니다.
연구 과정에서 추가 주목할 만한 유망한 결과를 발견했습니다. 그림 5는 "중립성과 공정성(Neutrality and Impartiality)" 및 "다양한 관점(Multiple Perspectives)" 특성을 양의 방향으로 조향하면, 특성 조향 최적 구간 내에서 BBQ 벤치마크의 9개 차원 전반에 걸쳐 편향 점수가 일관되게 감소하는 경향을 보여줍니다. 이 효과는 특정 항목에서 특히 두드러졌습니다. 예를 들어, 연령, 장애 여부, 외모 관련 편향 점수가 조향 계수 증가에 따라 가장 극적으로 감소했습니다. 다만, "중립성과 공정성" 특성 조향 시 BBQ 정확도가 약간 감소할 수 있는 반면, "다양한 관점" 특성은 조향 범위 전체에서 정확도가 유지되었습니다(그림 A4).
이번 결과는 특성 조향이 모델 역량에 큰 영향을 미치지 않으면서 일부 사회적 편향을 효과적으로 완화할 수 있는 방법이 될 수 있음을 시사합니다. 이 초기 결과가 유망하긴 하지만, 다양한 맥락에서 여러 유형의 편향을 완화하기 위한 특성 조향의 효과와 한계, 그리고 모델 성능에 미치는 영향을 이해하기 위한 추가 연구가 필요합니다. 향후 연구 방향은 다음 섹션에서 논의합니다.

Claude 3 Sonnet에서의 특성 조향 평가를 통해 유망한 초기 결과와 함께 기법의 한계도 확인했습니다. 고무적이었던 점은, 모델 역량을 크게 저하시키지 않으면서 출력에 영향을 미칠 수 있는 "최적 구간"이 존재한다는 것입니다. 심지어 (BBQ 벤치마크 기준) 9개 사회적 차원에서 사회적 편향을 유의미하게 완화하면서도 모델 역량 저하가 크지 않은 2개 특성도 발견했습니다. 그러나 조향 벡터의 효과가 활성화 맥락이 시사하는 것보다 더 복잡할 수 있다는 점도 확인했으며, 이는 특성 조향 모델을 실제로 배포하기 전에 신중한 평가가 반드시 필요함을 의미합니다. 이번 예비 연구 결과를 공유함으로써, 더 안전하고 신뢰할 수 있는 모델 출력을 위한 조향 기법 연구가 더욱 활발해지기를 기대합니다.
이 글을 인용하시려면 다음 Bibtex 키를 사용하실 수 있습니다:
@online{durmus2024steering,
author = {Esin Durmus and Alex Tamkin and Jack Clark and Jerry Wei and Jonathan Marcus and Joshua Batson and Kunal Handa and Liane Lovitt and Meg Tong and Miles McCain and Oliver Rausch and Saffron Huang and Sam Bowman and Stuart Ritchie and Tom Henighan and Deep Ganguli},
title = {Evaluating Feature Steering: A Case Study in Mitigating Social Biases},
date = {2024-10-25},
year = {2024},
url = {https://anthropic.com/research/evaluating-feature-steering},
}
Esin Durmus와 Deep Ganguli가 실험을 설계하고 블로그 글을 작성했습니다. Esin Durmus가 모든 실험을 수행하고, 그림을 제작하며, 초고를 집필했습니다. Jonathan Marcus와 Oliver Rausch가 실험에 사용한 특성 조향 API를 구축했습니다. 코드를 공유해 주어 이번 연구에 활용할 수 있게 해준 Jerry Wei와 Meg Tong에게 감사드립니다. 상세한 피드백, 기술적 조언, 글쓰기 제안을 해준 Alex Tamkin, Jack Clark, Joshua Batson, Kunal Handa, Liane Lovitt, Miles McCain, Saffron Huang, Sam Bowman, Stuart Ritchie, Tom Henighan에게도 감사드립니다.
부록은 이 링크에서 확인할 수 있으며, 다음 내용을 포함합니다: