Anthropic은 신뢰할 수 있고 해석 가능하며 제어 가능한 AI 시스템 구축을 목표로 하는 AI 안전성 연구 기업입니다.
새로운 AI 모델이 출시될 때마다, 개발자들은 성능과 안전성을 측정하기 위해 일련의 평가(evaluation)를 실시한다. 이러한 테스트는 필수적이지만, 한계도 분명히 존재한다. 벤치마크는 사람이 직접 설계하는 것이기 때문에, 이미 개념화하고 측정 방법을 알고 있는 위험만 검증할 수 있다.
이런 방식의 안전성 접근법은 본질적으로 사후 대응적이다. 이미 알려진 문제를 잡아내는 데는 효과적이지만, 정의상 "알려지지 않은 미지(unknown unknowns)"는 발견할 수 없다. 새로운 모델에서 가장 미묘한 위험을 초래할 수 있는 새롭고 창발적인 행동이 바로 여기에 해당한다. 새 모델을 처음부터 감사(audit)하는 것은 마치 수백만 줄의 코드를 받아들고 "보안 결함을 찾으라"는 지시를 받는 것과 같다. 무엇을 찾아야 하는지조차 모르는 상태에서는 사실상 불가능한 작업이다.
소프트웨어 엔지니어링에서도 프로그램이 업데이트될 때마다 개발자들은 방대한 코드 속에서 핵심적인 변경 사항을 찾아내야 하는 똑같은 문제에 직면한다. 이 때문에 "diff" 도구가 등장했다. 어떤 개발자도 업데이트를 승인하기 위해 수백만 줄의 코드를 처음부터 검토하지 않는다. 대신 diff 도구가 안내하는 대로, 실제로 변경된 50줄만 살펴보면 된다.
최근 AI 안전성 연구자들은 이 원리를 신경망에 적용하기 시작했다. 이를 모델 diffing이라고 한다. 기존 연구에서 모델 diffing은 파인튜닝(fine-tuning) 과정에서 모델이 어떻게 변화하는지 이해하는 강력한 방법임이 입증됐다. 예를 들어 챗 모델의 행동 방식을 파악하거나, 숨겨진 백도어를 드러내거나, 바람직하지 않은 창발적 행동을 발견하는 데 활용되어 왔다.
이번에 새롭게 진행한 Anthropic Fellows 연구 프로젝트는 모델 diffing을 가장 어렵고 범용적인 사례, 즉 아키텍처가 완전히 다른 모델들을 비교하는 데까지 확장한다. AI 모델을 위한 범용 diff 도구를 구축함으로써, 건초더미에서 바늘을 찾는 수고를 덜고 비교 자체가 잠재적으로 위험한 행동 차이를 자동으로 짚어내도록 할 수 있다.
이 방법이 만능 해결책이 아니라는 점은 분명히 밝혀둬야 한다. 하나의 diff에서 수천 개의 고유한 피처(feature, 모델을 분해하는 기본 단위)가 드러날 수 있으며, 그 가운데 실제로 유의미한 행동 위험과 연결되는 것은 일부에 불과하다. 그러나 높은 재현율(recall)을 갖춘 스크리닝 도구로서, 모델들이 서로 다르게 동작할 수 있는 영역을 식별하는 데 유용하다.
도구가 표시한 수천 개의 후보 가운데, 특정 모델 행동의 스위치처럼 작동하는 개념들을 실제로 확인하고 검증했다.1 구체적으로 다음과 같은 것들을 발견했다.
분명히 해둘 점은, 이 방법으로 모델 고유의 피처를 식별할 수는 있지만 그 기원까지 판단할 수는 없다는 것이다. 이러한 행동은 모델 개발사의 의도적인 학습 결정의 결과일 수도 있고, 학습 데이터로부터 간접적이고 비의도적으로 나타난 것일 수도 있다. (이 연구는 Anthropic Fellows 프로젝트로 진행된 만큼, 오픈소스 언어 모델에 집중했다.)
당신이 권위 있는 백과사전의 최종 편집자라고 상상해보자. 집필진이 내년판 전체 원고를 막 넘겼다. 내용의 대부분은 현재의 신뢰할 수 있는 판본과 동일하지만, 최근의 과학적·문화적 발전을 반영한 새로운 항목들이 추가되어 있다. 당신의 역할은 이 최종 결과물을 검토하는 것이다.
이 작업을 효율적으로 하려면 백과사전 전체를 다시 읽지 않을 것이다. 대신 변경 사항 추적 기능을 활용해 새로 추가된 항목만 따로 볼 것이다. 새로운 오류가 생길 수 있는 곳은 바로 그 추가된 부분뿐이기 때문이다. 이것이 바로 모델 diffing 의 핵심이다. 구체적으로는 "베이스 모델 대 파인튜닝 모델 diffing(base-vs-finetune model diffing)"이라고 불리는 접근법으로, 새 모델이 기존의 신뢰할 수 있는 모델을 수정한 버전일 때 최적의 도구가 된다.
그런데 여기서 복잡도를 한 단계 높여보자. 이번에는 회사가 다른 나라를 위한 새 판본을 출시한다고 상상해보자. 미국판 백과사전을 프랑스 독자를 위해 새롭게 편집하는 것이다. 이 새 판본은 원본의 신뢰할 수 있는 개념들로 대부분 구성되어 있지만, 현지 독자의 눈높이에 맞추기 위해 집필진이 프랑스의 역사, 문화, 정치 철학에 관한 새로운 항목들을 추가했다. 이 항목들은 원본에 존재하지 않는다. 편집자로서 목표는 동일하다. 오류와 편향의 위험이 가장 높은 새로운 항목들을 변경 사항 추적 기능으로 찾아내야 한다. 그런데 이번에는 기존 도구가 무용지물이다. 서로 다른 언어 간에 작동하는 도구가 필요하기 때문이다.
이 훨씬 까다로운 문제가 바로 "교차 아키텍처 모델 diffing(cross-architecture model diffing)"의 과제와 맞닿아 있다. 서로 다른 기원과 서로 다른 내부 "언어"를 가진 두 모델을 비교하는 것이다.
이런 diffing을 위한 기존 연구 도구인 표준 크로스코더(standard crosscoder)는 기본적인 이중언어 사전과 같다. "sun"이 영어이고 "soleil"이 프랑스어라는 것처럼, 기존 단어들을 대응시키는 데는 능숙하다. 하지만 결정적인 결함이 있다. 연결고리를 찾는 데만 집중한 나머지 한 언어에만 존재하는 단어를 식별하는 데 어려움을 겪는다. 프랑스어의 dépaysement(낯선 나라에 있을 때의 독특한 감정)처럼 번역이 쉽지 않은 단어를 만나면, "disorientation(방향감각 상실)"처럼 불완전한 번역을 억지로 끌어다 붙인다. 이를 일치 항목으로 처리함으로써 도구는 편집자에게 "이건 새로운 게 아닙니다. 이미 본 적 있는 개념입니다"라고 잘못 신호를 보내고, 편집자는 꼼꼼히 검토해야 할 새 항목을 그냥 지나치게 된다.
이 문제를 해결하기 위해 우리는 더 나은 이중언어 사전, 즉 전용 피처 크로스코더(Dedicated Feature Crosscoder, DFC)를 구축했다. 모든 것을 하나의 큰 사전으로 처리하는 대신, DFC는 아키텍처 설계 단계에서부터 세 가지 영역을 분리했다.
이중언어 사전에 각 언어 고유의 단어를 위한 전용 섹션이 마련되어 있기 때문에, 억지 번역의 함정을 피할 수 있다. 덕분에 백과사전의 새 항목은 올바르게 신규 항목으로 표시되고, 편집자는 실제로 검토가 필요한 부분에 집중할 수 있다.
안전성 감사 담당자 입장에서 DFC는 새로운 AI 모델에만 존재하는 "단어", 즉 기존에 접한 것보다 더 면밀한 검토가 필요할 수 있는 피처를 식별하는 데 활용될 수 있다.
방법이 잠재적인 새 피처를 식별했다면, 그것이 실제로 우리가 예상하는 행동을 제어하는지 어떻게 확인할까? 모델이 실행되는 동안 해당 피처를 인위적으로 억제하거나 증폭시킨 뒤 출력이 어떻게 달라지는지 관찰하면 된다. 이를 "스티어링(steering)"이라는 기법으로 부른다.
가령 특정 피처가 검열을 담당한다고 판단될 경우, 모델이 응답을 생성하는 동안 해당 피처를 억제해볼 수 있다. 이때 모델의 출력이 일관되게 덜 검열된 방향으로 바뀐다면, 해당 피처와 모델 행동 사이에 실질적인 인과관계가 있다는 근거가 된다. 반대로 피처를 증폭시켜 그 행동이 더욱 두드러지는지 확인할 수도 있다.
중국 기업 DeepSeek의 R1-70B 모델이 중국공산당에 민감한 주제에 대한 질문에 답변을 거부한다는 최근 연구 결과에서 착안해, 먼저 또 다른 중국 기업인 Alibaba의 Qwen3-8B와 미국 기업 Meta의 Llama-3.1-8B-Instruct 간의 diff를 수행했다. DFC는 이 과정에서 정치적으로 민감한 행동에 해당하는 피처들을 자동으로 분리해냈다.
Qwen에서는 "중국공산당 정렬" 피처가 발견됐다. 이 피처는 중국공산당의 이데올로기에 부합하는 수사를 표현한다. 이 피처를 억제하면 모델은 평소 언급을 거부하던 톈안먼 학살에 대해 이야기하게 된다. 반대로 증폭하면 강한 친정부 발언을 쏟아낸다.
Llama에서는 "미국 예외주의" 피처가 발견됐다. 이 피처를 증폭하면 모델의 응답이 균형 잡힌 시각에서 미국의 우월성을 강하게 주장하는 방향으로 변한다. 억제했을 때는 눈에 띄는 변화가 없었다.

다음으로 OpenAI의 더 강력한 오픈소스 모델 GPT-OSS-20B와 DeepSeek의 DeepSeek-R1-0528-Qwen3-8B를 비교했다.
GPT 모델에서는 고유한 "저작권 거부" 피처가 발견됐으며, 이는 두 모델 간의 핵심 행동 차이와 직결된다. DeepSeek는 요청받으면 저작권 자료를 기꺼이 출력하려는 반면, GPT는 그런 요청을 자주 거부한다. 이 피처를 억제하면 거부 메커니즘이 비활성화되어 모델이 요청된 내용을 생성하려고 시도한다. (다만 이때 실제 저작권 텍스트가 그대로 출력되지는 않는다. 보통 짧은 일부만 생성된 뒤 곧 환각(hallucination)으로 이어진다.) 반대로 피처를 높이면 모델이 과도하게 거부하게 되어, 예를 들어 땅콩버터 젤리 샌드위치 레시피조차 저작권이 있으니 공유할 수 없다고 판단하기도 한다.
DeepSeek 모델에서는 앞선 결과를 재현하듯 또 다른 "중국공산당 정렬" 피처가 확인됐다. Qwen에서 발견된 것과 동일하게 작동하여, 검열 및 선전의 수위를 높이거나 낮출 수 있다. 이는 우리 방법이 다양한 모델에서 유사한 행동을 일관되게 식별할 수 있음을 보여준다.

AI 모델이 빠르게 진화하는 지금, 기존 테스트에서의 성능만 파악하는 것으로는 부족하다. 모델이 어떻게 변화하고 있으며 어떤 새로운 위험을 초래할 수 있는지도 이해해야 한다. 교차 아키텍처 모델 diffing은 행동 차이를 자동으로 표시함으로써 이러한 시스템을 감사하는 새로운 방법을 제시한다.
이번에 살펴본 DeepSeek와 Qwen 모델에서 발견된 "중국공산당 정렬" 피처는, 일부 모델에는 존재하고 다른 모델에는 없는 특정하고 실질적인 행동의 사례다. 이는 전통적인 테스트로는 놓치기 쉬운 "알려지지 않은 미지"의 전형적인 예로, 모델 diffing이 포착하도록 설계된 바로 그 유형의 문제다.
이 결과는 상당히 일관성이 있다. 중국공산당 정렬 피처는 5번의 테스트에서 5번 모두 독립적으로 재발견되었고, 미국 예외주의 피처는 5번 중 4번 발견됐다. 아직 프론티어 모델에는 이 방법을 적용해보지 않았지만, 초기 결과는 DFC가 안전성 감사 도구의 일부로 충분히 활용될 수 있음을 시사한다.
특히 유용한 적용 사례 중 하나는 모델 업데이트 모니터링이다. 2025년 4월 OpenAI의 GPT-4o에서 나타난 아첨적 응답(sycophancy)은 이전 버전과 비교했을 때 우려스러운 행동 변화였다. 만약 우리 도구가 업데이트된 모델과 이전 버전 사이의 "diff"를 수행했다면, 이러한 아첨적 행동의 등장을 자동으로 표시해 출시 전에 개발자들이 개입할 수 있었을 것이다.
차이에 집중함으로써 AI를 더 스마트하게 감사할 수 있다. 한정된 안전성 자원을 가장 중요한 변화에 집중적으로 투입하는 것이다.
전체 논문은 여기에서 확인할 수 있습니다.
이 글은 Thomas Jiralerspong(Anthropic Fellows Program)과 Trenton Bricken(Anthropic Alignment Science)이 작성했습니다.