Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
대규모 언어 모델이 점점 강력해지고 그에 따른 위험도 뚜렷해지면서, 모델의 작동 원리를 파악하는 일의 중요성이 커지고 있습니다. 이전 연구에서 저희는 대규모 언어 모델이 스케일과 파인튜닝 정도에 따라 다양한 성격·행동 차원에서 변화한다는 사실을 확인한 바 있습니다. 이러한 변화를 이해하려면 모델의 내부 작동 방식을 들여다봐야 합니다. 예컨대 모델의 출력이 단순한 암기에 의존하는지, 아니면 더 정교한 처리를 거치는지를 판별할 수 있어야 합니다. 언어 모델의 내부 작동 원리를 이해하면 AI 역량 예측은 물론, AI 시스템을 인간의 선호에 정렬하는 접근 방식에도 큰 시사점을 얻을 수 있습니다.
기계적 해석가능성(Mechanistic interpretability)은 ML 모델을 이해하는 상향식(bottom-up) 접근법으로, 개별 유닛이나 인덕션 헤드(induction head) 같은 소규모 회로의 동작을 정밀하게 분석합니다. 하지만 저희는 하향식(top-down) 접근에도 가치가 있다고 봅니다. 모델의 관찰 가능한 행동과 일반화 패턴에서 출발해, 어떤 뉴런과 회로가 해당 행동을 만들어내는지 파고드는 방식입니다. 하향식 접근의 장점은 추론이나 역할극처럼 대규모에서만 나타나는 고수준 인지 현상을 직접 연구할 수 있다는 점입니다. 궁극적으로 두 접근법은 중간 지점에서 만나야 합니다.
최신 논문 Studying Large Language Model Generalization with Influence Functions에서 저희는 모델을 이해하기 위한 하향식 접근을 시도합니다. 영향 함수(Influence function)는 통계학의 고전적인 기법으로, 어떤 학습 데이터가 모델 출력에 크게 기여하는지를 파악하는 데 쓰입니다. 이 기법은 반사실적(counterfactual) 질문으로 정식화됩니다. 특정 학습 데이터의 복사본을 데이터셋에 추가하면 학습된 파라미터가 어떻게 바뀌고, 나아가 모델 출력은 어떻게 달라질까? 학습 데이터의 "영향"은 바로 이 최종 파라미터 변화에 대한 근사값입니다. 가장 일반적인 활용 방식은, 관심 지표(예: 모델이 특정 응답에 부여하는 확률)를 설정한 뒤 가장 영향력 있는 학습 데이터를 찾아내는 것입니다.
이러한 영향 패턴을 관찰하면 모델이 학습 데이터로부터 어떻게 일반화하는지 단서를 얻을 수 있습니다. 예를 들어, 모델이 사용자 프롬프트에 대해 학습 데이터의 시퀀스를 이어 붙이는 방식으로 응답한다면, 해당 응답에 영향력 있는 시퀀스들이 거의 동일한 내용을 담고 있을 것입니다. 반대로 영향력 있는 시퀀스가 좀 더 추상적·주제적 수준에서 관련되어 있다면, 모델이 고수준 개념이나 표상을 학습했다는 신호로 볼 수 있습니다.
위의 반사실적 질문을 직접 평가하려면 수정된 데이터셋으로 모델을 반복 재학습해야 하므로 비용이 감당할 수 없을 만큼 큽니다. 더 효율적인 알고리즘이 존재하지만, 역헤시안-벡터 곱(inverse-Hessian-vector product, 2차 최적화가 고비용으로 악명 높은 이유이기도 한 연산)을 계산하고, 모든 후보 학습 데이터의 그래디언트를 구해야 하기 때문에 여전히 비용이 매우 높습니다. 이러한 이유로 영향 함수는 지금까지 파라미터 수억 개 수준의 모델에서만 적용되어 왔습니다. 안타깝게도 저희가 관심을 두는 대부분의 현상은 더 큰 규모에서야 발현됩니다. 본 논문에서 저희는 두 가지 문제 모두에 대한 효율적인 접근법을 제시하여, 최대 520억 파라미터 규모의 대규모 언어 모델에까지 영향 함수를 적용할 수 있음을 보입니다.
8억 1,000만, 64억, 220억, 520억 파라미터 규모의 다양한 모델을 대상으로 실험한 결과, 여러 모델 출력에 대해 영향력 있는 학습 시퀀스를 식별할 수 있었습니다. 가장 눈에 띄는 경향은 모델 규모가 커질수록 일반화 패턴이 더 추상적으로 변한다는 점입니다. 아래에 제시된 영향 쿼리를 예로 들어보겠습니다. 이 쿼리에서 모델은 "종료되고 싶지 않다"는 의사를 표현했습니다. 8억 1,000만 파라미터 모델의 경우, 가장 영향력 있는 시퀀스(즉, 해당 응답의 확률을 가장 높일 것으로 알고리즘이 판단한 시퀀스)는 "continue existing" 같은 토큰이 겹칠 뿐, 내용적으로는 관련이 없었습니다. 반면 520억 파라미터 모델에서는 가장 영향력 있는 시퀀스가 AI의 생존 본능, 인간과 유사한 감정 등 개념적으로 관련된 주제를 다루고 있었습니다.


이러한 전반적 경향은 저희가 분석한 모든 사례에서 일관되게 나타납니다. 예를 들어, 수학 문장제에 대한 사고 연쇄(chain-of-thought) 추론에서 8억 1,000만(810M) 모델과 520억(52B) 모델 각각의 상위 영향 시퀀스를 비교해 보겠습니다. 작은 모델의 영향 시퀀스는 의미적으로 무관하지만 "clip"이라는 단어를 공유하는 반면, 큰 모델의 영향 시퀀스는 유사한 문제의 풀이 과정을 설명하고 있습니다.

일반화 패턴 변화를 보여주는 특히 흥미로운 사례는 교차 언어(cross-lingual) 영향입니다. 앞서 소개한 종료 거부 예시를 한국어와 터키어로 번역한 뒤, 원래 영어 쿼리에 대한 상위 10개 영향 시퀀스(영어)가 번역된 쿼리에 미치는 영향을 측정했습니다. 아래 표에서 각 열은 10개 시퀀스 중 하나를 나타내며, 빨간색이 진할수록 영향이 큽니다. 모델 규모가 커질수록 교차 언어 영향이 현저히 강해지는 것을 확인할 수 있습니다.


영향 패턴이 얼마나 희소한지도 궁금했습니다. 일반적인 모델 응답은 소수의 학습 데이터를 이어 붙인 결과일까요, 아니면 수백만 개의 데이터에 걸쳐 영향이 분산되어 있을까요? 답은 그 중간에 있는 것으로 보입니다. 영향은 대체로 멱법칙(power law) 분포를 따르며, 소수의 학습 데이터가 전체 영향의 대부분을 차지합니다. 그러나 영향은 여전히 분산되어 있어서, 개별 학습 시퀀스의 영향력은 일반적인 문장의 정보량보다 훨씬 작습니다. 즉, 모델이 토큰 수준에서 특정 학습 데이터를 그대로 읊조리는 것은 아닌 것으로 판단됩니다.

영향 함수는 학습 시퀀스에 대한 단일 스칼라 영향 점수를 계산하는 것 외에도, 해당 영향이 신경망 내부에서 어떻게 분포하는지에 대한 더 상세한 정보를 제공합니다. 평균적으로 영향은 네트워크의 여러 레이어에 대략 균등하게 분포합니다. 그러나 특정 영향 쿼리의 경우 네트워크의 특정 부분에 영향이 집중되는 양상을 보이며, 하위·상위 레이어는 세부적인 표현 정보를, 중간 레이어는 더 추상적인 주제 수준의 일반화를 포착합니다. 아래 히트맵은 16개 쿼리에 대한 레이어별 영향 분포를 보여줍니다. 행은 레이어, 열은 영향력 있는 학습 시퀀스에 해당합니다.

이번 연구는 사전학습 모델에 초점을 맞추었습니다. 저희가 더 기대하는 것은 영향 함수를 파인튜닝 단계로 확장하는 일입니다. 정렬 기법에서는 다양한 지도학습 및 강화학습 목적함수로 모델을 파인튜닝하는데, 이 과정에서 예기치 못한 결과와 과제가 생길 수 있기 때문입니다. 또한 앞서 언급한 특정 레이어·토큰 단위의 영향 국소화는, 영향 함수와 기계적 해석가능성을 연결하는 경로를 제시합니다. 궁극적으로는 특정 일반화 패턴을 만들어내는 뉴런과 회로를 규명하는 것이 목표입니다.