Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 구축하는 AI 안전 및 연구 기업입니다.
위 링크에서는 Anthropic 해석가능성 팀이 현재 발전시키고 있는 여러 아이디어를 소개합니다. 이 분야에서 활발히 연구 중인 분들에게 유용한 내용이 될 것입니다. 일부는 앞으로 몇 달 내에 추가 논문을 발표할 예정인 초기 단계의 연구이고, 나머지는 별도 논문으로 다루기는 어렵지만 공유할 가치가 있다고 판단한 소소한 발견들입니다.
이 결과물은 완성된 논문이 아니라, 랩 미팅에서 동료가 몇 분간 예비 실험 결과나 아이디어를 공유하는 정도로 가볍게 읽어주시면 감사하겠습니다.