Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
본 논문에서는 ML 성능을 거의 또는 전혀 저하시키지 않으면서, MLP 뉴런 중 "해석 가능한"(즉, 입력의 명확히 설명 가능한 속성에 반응하는) 뉴런의 비율을 크게 높이는 아키텍처 변경을 제안합니다. 구체적으로, 활성화 함수를 소프트맥스 선형 유닛(Softmax Linear Unit, 이하 SoLU)으로 대체하고, 이를 통해 MLP 레이어 내 뉴런이 사람이 쉽게 이해할 수 있는 개념, 구문, 범주에 대응하는 비율이 유의미하게 증가함을 보여줍니다. 이 결과는 무작위 배정 및 블라인드 실험으로 측정했습니다. 이어서 SoLU 모델을 심층 분석하여 트랜스포머의 정보 처리 방식에 대한 몇 가지 새로운 통찰을 도출합니다. 다만, 중첩 가설(superposition hypothesis)이 타당하며 공짜 점심은 없다는 증거도 발견했습니다. SoLU는 일부 특징을 더 해석 가능하게 만드는 대신 다른 특징을 "숨겨" 오히려 더 깊이 해석 불가능하게 만들 수 있다는 것입니다. 그럼에도 불구하고 SoLU는 실질적으로 우리가 이해할 수 있는 뉴런의 비율을 상당히 높여주므로, 전반적으로 유의미한 개선이라 할 수 있습니다.