Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
본 논문에서는 토이 모델(toy model), 즉 희소한 입력 피처를 가진 합성 데이터로 학습된 소규모 ReLU 네트워크를 활용하여, 모델이 자체 차원 수보다 더 많은 피처를 어떻게, 그리고 언제 표현하는지를 탐구합니다. 이 현상을 중첩(superposition)이라 부릅니다. 피처가 희소할 때, 중첩은 선형 모델의 한계를 넘어서는 압축을 가능하게 하지만, 그 대가로 비선형 필터링을 필요로 하는 "간섭(interference)"이 발생합니다.