Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
현재 우리의 연구는 메커니즘 기반 해석가능성(mechanistic interpretability) 연구의 토대를 마련하는 데 초점을 두고 있습니다. 특히 중첩(superposition) 문제를 해결하는 데 집중하고 있습니다. 이 과정에서 우리가 궁극적으로 무엇을 위한 토대를 쌓고 있는지를 놓치지 않는 것이 중요합니다. 이 글은 바로 그 동기가 되는 비전, 즉 현재의 난제를 극복했을 때 열릴 수 있는 흥미로운 연구 방향을 정리한 것입니다.
또한 메커니즘 기반 해석가능성이 안고 있는 다른 과제들, 특히 확장성 문제를 어떻게 풀어나갈 것인지에 대한 우리의 구상을 공유하고자 합니다. 그동안 기초 연구에 매진해 온 탓에, 해석가능성을 대규모로 확장하고 여러 과제를 해결해 나가는 장기적 경로가 외부에 잘 드러나지 않았습니다. 이 비전을 명확히 제시함으로써, 대규모 신경망 분석처럼 메커니즘 기반 접근법으로는 얼핏 불가능해 보이는 한계를 어떻게 돌파할 수 있을지 그 방향성을 밝히고자 합니다.