Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 구축하는 AI 안전 및 연구 기업입니다.
위 링크에서 Anthropic 해석 가능성 팀이 진행 중인 Crosscoder Model Diffing 관련 연구를 확인하실 수 있습니다. 이 분야에서 활발히 연구하고 계신 분들에게 특히 유용한 자료가 될 것입니다.
늘 말씀드리듯, 이 결과물은 완성된 논문이 아니라 랩 미팅에서 동료가 잠깐 초기 실험 결과나 아이디어를 공유하는 정도로 봐주시면 감사하겠습니다.