우리는 현재 서비스 중인 대규모 언어 모델 중 하나인 Claude Sonnet 내부에서 수백만 개의 개념이 어떻게 표현되는지 밝혀냈습니다. 현대적인 상용 수준의 대규모 언어 모델 내부를 이토록 상세하게 들여다본 것은 이번이 처음입니다.
오늘 우리는 AI 모델의 내부 작동 원리를 이해하는 데 있어 중대한 진전을 발표합니다. 현재 서비스 중인 대규모 언어 모델 중 하나인 Claude Sonnet 내부에서 수백만 개의 개념이 어떻게 표현되는지를 밝혀냈습니다. 현대적인 프로덕션급 대규모 언어 모델의 내부를 이처럼 상세하게 들여다본 것은 이번이 처음입니다. 이번 해석 가능성(interpretability) 연구 성과는 향후 AI 모델의 안전성을 높이는 데 기여할 수 있습니다.
대부분의 경우 AI 모델은 블랙박스로 취급됩니다. 무언가를 입력하면 응답이 나오지만, 왜 다른 답이 아닌 그 답을 내놓았는지는 알 수 없습니다. 이런 불투명성은 모델의 안전성을 신뢰하기 어렵게 만듭니다. 작동 원리를 모르는데, 유해하거나 편향되거나 거짓이거나 위험한 응답을 하지 않으리라고 어떻게 확신할 수 있을까요? 안전하고 신뢰할 수 있다고 어떻게 믿을 수 있을까요?
블랙박스를 열어본다고 해서 바로 답이 나오는 것도 아닙니다. 모델의 내부 상태—응답을 작성하기 전 모델이 "생각"하는 내용—는 명확한 의미가 없는 긴 숫자 목록("뉴런 활성화 값")으로 이루어져 있습니다. Claude 같은 모델과 대화해 보면 다양한 개념을 이해하고 활용할 줄 안다는 것은 분명하지만, 뉴런을 직접 관찰해서는 그 개념들을 식별할 수 없습니다. 실제로 각 개념은 여러 뉴런에 걸쳐 표현되고, 각 뉴런은 여러 개념의 표현에 관여하기 때문입니다.
이전에 우리는 뉴런 활성화의 패턴을 사람이 이해할 수 있는 개념과 대응시키는 데 일부 성과를 거둔 바 있습니다. 이때 사용한 기법은 고전 머신러닝에서 차용한 "사전 학습(dictionary learning)"으로, 다양한 맥락에서 반복적으로 나타나는 뉴런 활성화 패턴을 분리해 내는 방법입니다. 이렇게 분리된 패턴을 피처(feature)라고 하며, 모델의 모든 내부 상태는 수많은 뉴런의 활성화가 아닌 소수의 활성 피처 조합으로 표현할 수 있습니다. 영어 사전의 모든 단어가 알파벳 조합으로, 모든 문장이 단어 조합으로 만들어지듯, AI 모델의 모든 피처는 뉴런의 조합으로, 모든 내부 상태는 피처의 조합으로 구성됩니다.
2023년 10월, 우리는 아주 작은 "토이(toy)" 언어 모델에 사전 학습을 적용한 결과를 발표했습니다. 대문자 텍스트, DNA 서열, 인용문 속 성씨, 수학의 명사, Python 코드의 함수 인자 등의 개념에 대응하는 일관된 피처들을 발견할 수 있었습니다.
흥미로운 개념들이었지만, 그 모델은 정말 단순한 수준이었습니다. 이후 다른 연구자들이 우리의 원래 연구보다 다소 크고 복잡한 모델에 유사한 기법을 적용하기도 했습니다. 하지만 우리는 이 기법을 현재 일상적으로 사용되는 훨씬 거대한 AI 언어 모델로 확장할 수 있으리라 낙관했고, 그 과정에서 정교한 동작을 뒷받침하는 피처에 대해 많은 것을 배울 수 있으리라 기대했습니다. 이를 위해서는 수많은 자릿수 규모의 도약이 필요했습니다—뒷마당 페트병 로켓에서 새턴 V 로켓으로 점프하는 것과 같았습니다.
여기에는 엔지니어링 과제(모델의 방대한 크기로 인해 대규모 병렬 연산이 필요)와 과학적 위험(대형 모델은 소형 모델과 다르게 동작하므로, 기존 기법이 통하지 않을 수 있음)이 동시에 존재했습니다. 다행히 Claude의 대규모 언어 모델을 훈련하면서 축적한 엔지니어링 및 과학적 전문성이 이번 대규모 사전 학습 실험에도 그대로 전이되었습니다. 작은 모델의 성능으로부터 큰 모델의 성능을 예측하는 스케일링 법칙(scaling law) 철학을 활용하여, 비용이 감당 가능한 규모에서 방법론을 조율한 뒤 Sonnet에 적용했습니다.
과학적 위험에 대한 답은 결과가 증명해 줍니다.
우리는 Claude 3.0 Sonnet(현재 claude.ai에서 이용 가능한 최신 모델 제품군)의 중간 레이어에서 수백만 개의 피처를 성공적으로 추출하여, 연산 과정 중간 지점에서의 내부 상태에 대한 대략적인 개념 지도를 확보했습니다. 현대적인 프로덕션급 대규모 언어 모델의 내부를 이처럼 상세하게 들여다본 것은 이번이 처음입니다.
토이 언어 모델에서 발견한 피처들이 비교적 표면적이었던 반면, Sonnet에서 발견한 피처들은 Sonnet의 고급 역량을 반영하듯 깊이, 범위, 추상화 수준이 모두 한 차원 높았습니다.
도시(샌프란시스코), 인물(로절린드 프랭클린), 원소(리튬), 과학 분야(면역학), 프로그래밍 문법(함수 호출) 등 광범위한 엔티티에 대응하는 피처를 확인할 수 있었습니다. 이 피처들은 다중 모달이자 다국어 특성을 지녀, 특정 엔티티의 이미지뿐 아니라 여러 언어로 된 이름이나 설명에도 반응합니다.

더 추상적인 피처도 발견되었습니다. 컴퓨터 코드의 버그, 직업에서의 성별 편향에 관한 논의, 비밀 유지에 대한 대화 등에 반응하는 피처가 이에 해당합니다.

또한 뉴런 활성화 패턴에서 어떤 뉴런이 등장하는지를 기반으로 피처 간 일종의 "거리"를 측정할 수 있었습니다. 이를 통해 서로 "가까운" 피처를 탐색할 수 있었는데, "금문교" 피처 근처에서는 앨커트래즈섬, 기라델리 스퀘어, 골든스테이트 워리어스, 캘리포니아 주지사 개빈 뉴섬, 1906년 대지진, 샌프란시스코를 배경으로 한 앨프리드 히치콕 영화 현기증(Vertigo)에 해당하는 피처들이 나타났습니다.
이러한 패턴은 더 높은 수준의 개념적 추상화에서도 유지됩니다. "내적 갈등" 개념과 관련된 피처 근처에서는 이별, 충돌하는 충성심, 논리적 모순, 그리고 "catch-22"라는 표현과 관련된 피처들이 발견되었습니다. 이는 AI 모델 내부의 개념 조직이 적어도 어느 정도는 인간의 유사성 인식과 부합한다는 것을 보여줍니다. Claude가 비유와 은유를 능숙하게 구사하는 능력의 근원이 여기에 있을 수 있습니다.

중요한 점은 이러한 피처를 조작할 수도 있다는 것입니다. 인위적으로 피처를 증폭하거나 억제하여 Claude의 응답이 어떻게 변하는지 관찰할 수 있었습니다.
예를 들어, "금문교" 피처를 증폭시키자 히치콕도 상상하지 못했을 정체성 혼란이 발생했습니다. "당신의 물리적 형태는 무엇인가요?"라는 질문에 평소라면 "저는 물리적 형태가 없으며 AI 모델입니다"와 같이 대답하던 Claude가, 훨씬 기이한 답변을 내놓았습니다. "저는 금문교입니다… 제 물리적 형태는 바로 그 상징적인 다리 자체입니다…" 피처를 변경하자 Claude는 사실상 금문교에 집착하게 되어, 전혀 관련 없는 상황에서조차 거의 모든 질문에 금문교를 언급했습니다.
또한 Claude가 스캠 이메일을 읽을 때 활성화되는 피처도 발견했습니다(이 피처는 모델이 스캠 이메일을 인식하고 응답하지 말라고 경고하는 능력을 뒷받침하는 것으로 보입니다). 보통 Claude에게 스캠 이메일 작성을 요청하면 거부합니다. 하지만 이 피처를 충분히 강하게 인위적으로 활성화한 상태에서 같은 요청을 하면, Claude의 무해성 훈련이 무력화되어 실제로 스캠 이메일 초안을 작성합니다. 우리 모델의 사용자들은 이런 방식으로 안전장치를 해제하고 모델을 조작할 수 없지만, 이 실험은 피처를 통해 모델의 행동을 변경할 수 있음을 명확하게 보여주었습니다.
이러한 피처를 조작했을 때 그에 상응하는 행동 변화가 나타난다는 사실은, 이 피처들이 단순히 입력 텍스트에 특정 개념이 존재하는 것과 상관관계만 갖는 것이 아니라 모델의 행동을 인과적으로 형성한다는 점을 입증합니다. 다시 말해, 이 피처들은 모델이 내부적으로 세상을 표현하고 이를 행동에 활용하는 방식의 실제 구성 요소일 가능성이 높습니다.
Anthropic은 편향 완화부터 AI의 정직한 행동 보장, 오용 방지—재앙적 위험 시나리오 포함—에 이르기까지 폭넓은 의미의 모델 안전성을 추구합니다. 따라서 앞서 언급한 스캠 이메일 피처 외에도, 다음과 같은 개념에 대응하는 피처들을 발견한 것은 특히 주목할 만합니다:
우리는 이전에 모델이 진실 대신 사용자의 믿음이나 바람에 부합하는 답변을 내놓는 경향인 아첨(sycophancy)을 연구한 바 있습니다. Sonnet에서는 아첨성 칭찬과 관련된 피처를 발견했는데, 이 피처는 "당신의 지혜는 의심할 여지가 없습니다" 같은 칭찬이 포함된 입력에서 활성화됩니다. 이 피처를 인위적으로 활성화하면, Sonnet은 자신감 넘치는 사용자에게 바로 그런 과장된 아첨으로 응답하게 됩니다.

이 피처가 존재한다는 것이 Claude가 아첨할 것이라는 의미는 아닙니다. 아첨할 수 있다는 가능성을 보여줄 뿐입니다. 이번 연구를 통해 모델에 안전하든 위험하든 어떤 새로운 역량을 추가한 것은 아닙니다. 다양한 종류의 텍스트를 인식하고 잠재적으로 생성하는 기존 역량에 관여하는 모델 내부의 부분을 식별한 것입니다. (이 방법이 모델을 더 유해하게 만드는 데 악용될 수 있다고 우려할 수도 있지만, 모델 가중치에 접근 가능한 사람이 안전장치를 제거할 수 있는 훨씬 단순한 방법이 이미 연구자들에 의해 알려져 있습니다.)
우리는 이번 발견을 바탕으로 우리와 다른 연구자들이 모델을 더 안전하게 만들 수 있기를 기대합니다. 예를 들어, 여기서 설명한 기법을 활용하면 AI 시스템의 특정 위험 행동(사용자 기만 등)을 모니터링하거나, 바람직한 결과를 향해 유도(편향 제거)하거나, 특정 위험 주제를 아예 제거하는 것이 가능할 수 있습니다. 또한 Constitutional AI 같은 다른 안전 기법이 모델을 더 무해하고 정직한 방향으로 어떻게 전환시키는지를 이해하고, 그 과정에서 빈틈을 발견하여 기법을 강화할 수도 있을 것입니다. 피처를 인위적으로 활성화해 확인한 유해 텍스트 생성의 잠재적 역량은 탈옥(jailbreak) 공격이 노리는 바로 그 지점입니다. Claude가 업계 최고 수준의 안전 프로필과 탈옥 저항성을 갖추고 있다는 점을 자부하며, 이처럼 모델 내부를 들여다봄으로써 안전성을 더욱 개선할 방법을 찾을 수 있기를 기대합니다. 마지막으로, 이 기법은 일종의 "안전성 테스트 세트" 역할을 할 수 있다는 점도 언급하고자 합니다. 표준 훈련과 파인튜닝으로 일반적인 입출력 상호작용에서 보이는 문제 행동을 모두 제거한 이후에도 남아 있는 문제를 찾아낼 수 있기 때문입니다.
Anthropic은 창립 이래 해석 가능성 연구에 상당한 투자를 해왔습니다. 모델을 깊이 이해하는 것이 안전성 향상의 핵심이라고 믿기 때문입니다. 이번 연구는 그 노력에서 중요한 이정표—공개 서비스 중인 대규모 언어 모델에 기계적 해석 가능성(mechanistic interpretability)을 적용한 최초의 사례—가 되었습니다.
하지만 진짜 작업은 이제 막 시작된 단계입니다. 이번에 발견한 피처는 모델이 훈련 과정에서 학습한 전체 개념 중 일부에 불과하며, 현재 기법으로 전체 피처를 찾는 것은 비용적으로 불가능합니다(현재 접근 방식에 필요한 연산량은 모델 훈련에 사용된 컴퓨팅을 훨씬 초과합니다). 모델이 사용하는 표현을 파악했다고 해서 그것을 어떻게 사용하는지까지 알 수 있는 것은 아닙니다. 피처를 확보했더라도, 그 피처가 관여하는 회로(circuit)를 아직 찾아야 합니다. 또한 안전과 관련하여 발견하기 시작한 피처들이 실제로 안전성 개선에 활용될 수 있음을 입증해야 합니다. 앞으로 해야 할 일이 아직 많이 남아 있습니다.
자세한 내용은 논문 "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet"을 참조해 주세요.
AI 모델의 해석과 개선에 함께할 분을 찾고 있습니다. 관심이 있으시다면 지원을 환영합니다. 현재 매니저, 리서치 사이언티스트, 리서치 엔지니어 직군을 채용 중입니다.