Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
이전 논문에서 우리는 간단한 신경망을 토이 태스크로 학습시켰을 때 중첩(superposition)이라는 현상이 빈번하게 나타남을 확인했다. 중첩이란 뉴런 수보다 더 많은 특성(feature)을 표현하는 현상을 말한다. 당시 연구는 데이터가 무한하고 모델이 과소적합(underfitting)하는 조건에 한정되어 있었다. 그러나 기계적 해석가능성(mechanistic interpretability) 연구가 성공하려면 과적합에 대한 이해가 필수적이며, 중첩이 그 핵심에 있을 가능성이 높다.
기계적 해석가능성 연구가 과적합에 주목해야 하는 이유는 무엇일까? 과적합은 머신러닝의 핵심 난제임에도, 딥러닝 모델이 과적합하거나 학습 데이터를 암기할 때 내부에서 정확히 어떤 일이 벌어지는지에 대한 메커니즘 수준의 이해는 아직 부족하다. 게다가 기존 연구들은 과적합과 해석 가능한 특성 학습 사이에 중요한 연결 고리가 있을 수 있음을 시사해 왔다.
과적합 이해가 중요하다는 점은 분명한데, 이것이 왜 중첩과 관련이 있을까? 언어 모델이 텍스트를 그대로 외우는 경우를 생각해 보자. 어떻게 이런 일이 가능할까? 단순하게 떠올릴 수 있는 방법은 뉴런을 활용해 시퀀스와 임의의 다음 토큰을 매핑하는 룩업 테이블을 만드는 것이다. 외우고자 하는 토큰 시퀀스마다 뉴런 하나를 할당해 해당 시퀀스를 감지하게 하고, 해당 뉴런이 활성화되면 원하는 동작을 수행하는 방식이다. 문제는 이 방식이 극도로 비효율적이라는 점이다. 하지만 각 시퀀스가 상호 배타적이어서 서로 간섭할 수 없다는 특성 때문에 중첩의 완벽한 후보가 된다.
이 글에서는 이전 논문의 토이 모델을 제한된 데이터셋으로 학습시키는 매우 초기 단계의 탐구를 제시한다. 극히 단순한 모델임에도, 과적합을 연구하기에 놀라울 만큼 풍부한 사례가 된다는 점을 확인했다. 주요 발견은 다음과 같다.