Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 및 연구 기업입니다.
신경망은 규칙을 프로그래밍하는 방식이 아니라 데이터를 통해 학습됩니다. 학습의 매 단계마다 수백만에서 수십억 개의 파라미터가 업데이트되면서 모델의 과제 수행 능력이 향상되며, 학습이 끝나면 모델은 놀라울 정도로 다양한 행동을 수행할 수 있게 됩니다. 학습된 네트워크의 수학적 구조 자체는 정확히 파악할 수 있습니다. 신경망의 각 뉴런은 단순한 산술 연산을 수행할 뿐이니까요. 그러나 이러한 수학적 연산이 왜 우리가 관찰하는 행동으로 이어지는지는 여전히 알지 못합니다. 이 때문에 실패 모드를 진단하기 어렵고, 문제를 어떻게 수정해야 하는지 파악하기 힘들며, 모델이 진정으로 안전하다고 확인하기도 어렵습니다.
신경과학자들도 인간 행동의 생물학적 기반을 이해하는 데 있어 비슷한 난제에 직면해 있습니다. 사람의 뇌에서 발화하는 뉴런들이 어떤 방식으로든 사고, 감정, 의사결정을 구현하고 있을 것입니다. 수십 년간의 신경과학 연구를 통해 뇌의 작동 원리가 상당 부분 밝혀졌고, 간질 같은 질환에 대한 표적 치료도 가능해졌지만, 여전히 많은 부분이 미지의 영역으로 남아 있습니다. 다행히 인공 신경망을 연구하는 입장에서는 실험 수행이 훨씬 용이합니다. 네트워크 내 모든 뉴런의 활성화를 동시에 기록할 수 있고, 특정 뉴런을 억제하거나 자극하는 개입 실험도 가능하며, 어떤 입력에 대해서든 네트워크의 반응을 테스트할 수 있습니다.
하지만 안타깝게도, 개별 뉴런은 네트워크의 행동과 일관된 관계를 보이지 않습니다. 예를 들어 소규모 언어 모델에서 하나의 뉴런이 학술 인용, 영어 대화, HTTP 요청, 한국어 텍스트 등 서로 전혀 관련 없는 맥락에서 활성화됩니다. 고전적인 비전 모델에서도 하나의 뉴런이 고양이 얼굴과 자동차 전면부 모두에 반응합니다. 즉, 하나의 뉴런이 활성화되더라도 맥락에 따라 그 의미가 달라질 수 있는 것입니다.

최신 논문 Towards Monosemanticity: Decomposing Language Models With Dictionary Learning에서 우리는 개별 뉴런보다 더 적합한 분석 단위가 존재한다는 근거를 제시하고, 소규모 트랜스포머 모델에서 이러한 단위를 찾아내는 기법을 구축했습니다. 피처(feature)라고 부르는 이 단위들은 뉴런 활성화의 패턴, 즉 선형 결합에 대응합니다. 이를 통해 복잡한 신경망을 이해 가능한 부분들로 분해할 수 있는 경로가 열리며, 이는 신경과학, 머신러닝, 통계학 분야에서 고차원 시스템을 해석하려는 기존 연구의 연장선상에 있습니다.
트랜스포머 언어 모델에서 512개의 뉴런으로 구성된 하나의 레이어를 4,000개 이상의 피처로 분해했으며, 각 피처는 DNA 서열, 법률 용어, HTTP 요청, 히브리어 텍스트, 영양 성분 표시 등 다양한 속성을 개별적으로 표현합니다. 이러한 모델 속성 대부분은 개별 뉴런의 활성화만 따로 살펴볼 때는 드러나지 않습니다.

발견된 피처가 모델의 뉴런보다 유의미하게 더 해석 가능한지 검증하기 위해, 블라인드 조건의 인간 평가자에게 해석가능성을 점수로 매기도록 했습니다. 피처(빨간색)가 뉴런(청록색)보다 훨씬 높은 점수를 기록했습니다.

추가로 "자동 해석(autointerpretability)" 접근 방식도 적용했습니다. 대규모 언어 모델을 활용해 소규모 모델 피처에 대한 짧은 설명을 생성한 뒤, 다른 모델이 해당 설명만으로 피처의 활성화를 얼마나 잘 예측하는지를 기준으로 점수를 매기는 방식입니다. 이 평가에서도 피처가 뉴런보다 높은 점수를 받았으며, 피처의 활성화와 그에 따른 모델 행동 변화가 일관된 해석을 가진다는 추가적인 근거를 확보했습니다.
피처는 모델을 정밀하게 조종할 수 있는 수단이기도 합니다. 아래에서 볼 수 있듯이, 특정 피처를 인위적으로 활성화하면 모델의 행동이 예측 가능한 방향으로 변화합니다.

마지막으로, 시야를 넓혀 피처 집합 전체를 살펴보았습니다. 서로 다른 모델에서도 학습되는 피처가 대체로 보편적이어서, 한 모델의 피처를 연구해 얻은 교훈이 다른 모델에도 일반화될 수 있음을 확인했습니다. 또한 학습하는 피처 수를 조절하는 실험도 수행했습니다. 이 과정에서 피처 수가 모델을 바라보는 해상도를 조절하는 일종의 '다이얼' 역할을 한다는 점을 발견했습니다. 적은 수의 피처로 분해하면 이해하기 쉬운 거시적 관점을, 많은 수의 피처로 분해하면 모델의 미세한 속성까지 드러나는 정밀한 관점을 얻을 수 있습니다.
이번 연구는 Anthropic이 기계적 해석가능성(Mechanistic Interpretability)에 투자해 온 결과물로, AI 안전성을 위한 가장 장기적인 연구 과제 중 하나입니다. 지금까지 개별 뉴런의 해석 불가능성은 언어 모델에 대한 기계적 이해를 가로막는 심각한 장벽이었습니다. 뉴런 그룹을 해석 가능한 피처로 분해하는 접근법은 이 장벽을 넘어설 수 있는 잠재력을 지니고 있습니다. 궁극적으로 이를 통해 모델 내부에서 행동을 모니터링하고 조종할 수 있게 되어, 기업 및 사회 전반의 도입에 필수적인 안전성과 신뢰성을 높이는 데 기여할 수 있기를 기대합니다.
다음 과제는 이 접근법을 현재 성과를 보인 소규모 모델에서 몇 배나 더 크고 훨씬 복잡한 프론티어 모델로 확장하는 것입니다. 대규모 언어 모델 해석의 주된 장애물이 과학적 문제가 아닌 엔지니어링 문제라고 느끼는 것은 이번이 처음입니다.
더 자세한 내용은 논문 Towards Monosemanticity: Decomposing Language Models With Dictionary Learning에서 확인하실 수 있습니다.