2024년 10월 18일Anthropic연구Interpretability

딕셔너리 러닝 피처를 분류기로 활용하기

Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.

위 링크에서는 Anthropic 해석 가능성 팀이 진행 중인 피처 기반 분류기(feature-based classifier) 개발 관련 연구를 소개합니다. 이 분야에서 활발히 연구하고 계신 분들에게 참고가 될 수 있을 것입니다. 다만 이 결과물은 완성된 논문이 아니라, 랩 미팅에서 동료가 몇 분간 예비 실험 결과나 아이디어를 공유하는 수준으로 받아들여 주시면 감사하겠습니다.