단일 의미성을 향하여: 딕셔너리 러닝(Dictionary Learning)으로 언어 모델 분해하기

개요

최근 발표한 논문 Towards Monosemanticity: Decomposing Language Models With Dictionary Learning에서, 개별 뉴런보다 더 적합한 분석 단위가 존재한다는 근거를 제시하고, 소규모 트랜스포머 모델에서 이러한 단위를 찾아내는 기법을 구축했습니다. 피처(feature)라 불리는 이 단위는 뉴런 활성화의 선형 결합 패턴에 대응합니다. 이를 통해 복잡한 신경망을 사람이 이해할 수 있는 구성 요소로 분해하는 길이 열리며, 이는 신경과학·머신러닝·통계학 분야에서 고차원 시스템을 해석하기 위해 쌓아온 기존 연구의 연장선에 있습니다. 실제로 트랜스포머 언어 모델의 512개 뉴런으로 구성된 하나의 레이어를 4,000개 이상의 피처로 분해한 결과, DNA 서열, 법률 용어, HTTP 요청, 히브리어 텍스트, 영양 성분 표기 등 각 피처가 서로 다른 개념을 독립적으로 표현하고 있음을 확인했습니다. 이러한 모델의 속성 대부분은 개별 뉴런의 활성화만 따로 살펴서는 발견할 수 없는 것들입니다.