Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
머신러닝 모델의 내부를 더 깊이 들여다보고 관련 리스크를 이해·완화하려 할 때, 유력한 단서가 되는 질문이 있습니다. 바로 "어떤 학습 데이터가 특정 모델 행동에 가장 크게 기여했는가?"입니다. 영향 함수(Influence Function)는 이 질문을 반사실적(counterfactual) 관점에서 다룹니다. 특정 시퀀스를 학습 데이터에 추가했을 때, 모델의 파라미터(그리고 출력)가 어떻게 달라지는지를 추정하는 것입니다. 영향 함수는 소규모 모델에서 유의미한 통찰을 제공해 왔지만, 역헤시안-벡터 곱(IHVP) 연산의 어려움 때문에 대규모 언어 모델(LLM)로 확장하기가 쉽지 않았습니다. 본 연구에서는 고유값 보정 크로네커 인수분해 근사 곡률(EK-FAC) 근사법을 적용하여, 최대 520억 개 파라미터 규모의 LLM까지 영향 함수를 확장했습니다. 실험 결과, EK-FAC은 IHVP 연산 속도가 기존 영향 함수 추정기 대비 수 자릿수 빠르면서도 유사한 정확도를 달성했습니다. 또한 후보 학습 시퀀스의 그래디언트 연산 비용을 줄이기 위해 TF-IDF 필터링과 쿼리 배칭이라는 두 가지 알고리즘 기법을 탐구했습니다. 이를 바탕으로 LLM의 일반화 패턴을 다각도로 분석했습니다. 영향 패턴의 희소성, 모델 규모에 따른 추상화 수준 증가, 수학 및 프로그래밍 능력, 교차 언어 일반화, 역할극 행동 등이 그 대상입니다. 다양한 고차원적 일반화 양상을 확인했음에도, 놀라운 한계 하나가 드러났습니다. 핵심 구문의 순서를 뒤집으면 영향도가 거의 0에 수렴한다는 점입니다. 종합하면, 영향 함수는 LLM의 일반화 특성을 연구하는 데 강력한 새로운 도구가 될 수 있습니다.