Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 및 연구 기업입니다.
최근 해석가능성 연구에서 대규모 언어 모델의 사고 과정을 추적하는 새로운 방법을 소개한 바 있습니다. 오늘, 누구나 이 연구를 기반으로 발전시킬 수 있도록 해당 방법을 오픈소스로 공개합니다.
이 접근법의 핵심은 귀인 그래프(attribution graph)를 생성하는 것입니다. 귀인 그래프는 모델이 특정 출력을 결정하기까지 내부적으로 거친 단계를 (부분적으로) 보여줍니다. 이번에 공개하는 오픈소스 라이브러리는 널리 사용되는 오픈 웨이트 모델에서 귀인 그래프를 생성할 수 있도록 지원하며, Neuronpedia가 호스팅하는 프론트엔드를 통해 그래프를 인터랙티브하게 탐색할 수 있습니다.
이 프로젝트는 Anthropic Fellows 프로그램 참가자들이 주도하고, Decode Research와 협력하여 진행되었습니다.

시작하려면 Neuronpedia 인터페이스에 접속하여, 원하는 프롬프트로 귀인 그래프를 직접 생성하고 확인해 보세요. 고급 활용이나 연구 목적이라면 코드 저장소를 참고하시기 바랍니다. 이번 공개를 통해 연구자들은 다음과 같은 작업을 수행할 수 있습니다:
저희는 이미 이 도구를 활용하여 Gemma-2-2b와 Llama-3.2-1b에서 다단계 추론, 다국어 표현 등 흥미로운 동작을 연구했습니다. 구체적인 예시와 분석은 데모 노트북에서 확인하실 수 있습니다. 또한 커뮤니티와 함께 추가적인 흥미로운 회로를 발견하고 싶습니다. 영감을 드리기 위해, 아직 분석하지 않은 귀인 그래프를 데모 노트북과 Neuronpedia에 추가로 제공해 두었습니다.
Anthropic CEO Dario Amodei는 최근 글에서 해석가능성 연구의 시급성을 강조한 바 있습니다. 현재 AI 내부 작동 원리에 대한 이해는 AI 성능 발전 속도에 크게 뒤처져 있습니다. 이번 도구 오픈소스 공개를 통해 더 넓은 커뮤니티가 언어 모델 내부에서 일어나는 일을 쉽게 연구할 수 있기를 바랍니다. 이 도구를 활용한 모델 동작 분석은 물론, 도구 자체를 개선하는 확장까지 다양한 시도를 기대하겠습니다.
오픈소스 회로 탐색 라이브러리는 Anthropic Fellows인 Michael Hanna와 Mateusz Piotrowski가 개발했으며, Emmanuel Ameisen과 Jack Lindsey가 멘토링했습니다. Neuronpedia 통합은 Decode Research가 구현했습니다(Neuronpedia 리드: Johnny Lin, 사이언스 리드/디렉터: Curt Tigges). Gemma 그래프는 GemmaScope 프로젝트에서 학습된 트랜스코더를 기반으로 합니다. 질문이나 피드백은 GitHub에 이슈를 등록해 주세요.