2024년 12월 20일Anthropic연구Interpretability

Circuits 업데이트 — 2023년 5월

Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 및 연구 기업입니다.

개요

Anthropic 해석가능성(Interpretability) 팀에서 현재 발전시키고 있는 여러 아이디어를 공유합니다. 이 분야에서 활발히 연구 중인 분들에게 유용한 내용이 될 것입니다. 일부는 향후 몇 달 내에 추가 논문을 발표할 예정인 초기 연구 흐름이고, 나머지는 별도 논문으로 다루기는 어렵지만 공유할 가치가 있다고 판단한 소소한 발견들입니다.