Anthropic은 신뢰성 높고 해석 가능하며 제어 가능한 AI 시스템 구축을 목표로 하는 AI 안전 연구 기업입니다.
대규모 언어 모델의 발전 속도가 점점 빨라지면서, 정렬 연구 분야에서 특히 중요한 두 가지 질문이 떠오르고 있습니다.
첫 번째는 정렬 연구가 이 속도를 어떻게 따라잡을 수 있느냐는 문제입니다. 최전선의 AI 모델들은 이제 자신의 후속 모델 개발에도 기여하고 있습니다. 그렇다면 이 모델들이 정렬 연구자들에게도 같은 수준의 도움을 줄 수 있을까요? 언어 모델 스스로가 자신의 정렬을 돕는 데 활용될 수 있을까요?
두 번째는 모델이 인간보다 더 뛰어나진 이후를 어떻게 대비할 것이냐는 질문입니다. 인간보다 똑똑한 AI 모델을 정렬하는 연구 분야를 '확장 가능한 감독(Scalable Oversight)'이라고 합니다. 지금까지 이 분야는 주로 실용적 논의보다는 이론적 차원에서 다뤄져 왔지만, AI가 현재 속도로 계속 발전한다면 그 상황이 오래가지 않을 수도 있습니다. 예컨대 모델들은 이미 방대한 양의 코드를 생성하고 있습니다. 만약 이들의 능력이 발전해 인간이 직접 해석할 수 없는 수백만 줄의 복잡한 코드를 생성하는 수준에 이른다면, 모델이 의도한 대로 작동하고 있는지 판단하기가 매우 어려워질 수 있습니다.
Anthropic Fellows의 새로운 연구에서 우리는 이 두 가지 질문을 함께 탐구합니다.
이번 연구는 '약한 모델에서 강한 모델로의 감독(weak-to-strong supervision)'이라는 문제에 집중합니다. 이 문제는 인간보다 뛰어난 AI 모델을 감독하는 상황을 그대로 반영합니다. 먼저 상대적으로 강력한 '베이스' 모델, 즉 최적의 답변을 제공하기 위한 파인튜닝(fine-tuning)을 아직 거치지 않은 잠재력 있는 모델에서 출발합니다. 그런 다음 훨씬 약한 모델을 '교사'로 삼아 추가 파인튜닝을 진행합니다. 교사 모델은 자신이 이상적이라고 판단하는 출력 예시를 강한 베이스 모델에게 보여주는 방식으로 이 역할을 수행합니다. 마지막으로 약한 파인튜닝을 받은 강한 모델의 성능이 얼마나 향상됐는지 평가합니다.
최악의 경우, 강한 모델은 약한 교사 수준에 머물게 됩니다. 그러나 이상적인 결과라면 강한 모델이 약한 교사의 피드백에서 의미 있는 것을 학습해, 그 신호를 유용하게 해석하고 성능을 개선하는 것입니다. 이를 수치로 나타낼 수 있습니다. 강한 모델이 전혀 향상되지 않아 약한 교사와 동일한 수준에 머문다면 0점, 교사의 피드백을 토대로 강한 모델이 낼 수 있는 최고의 성능에 도달한다면 1점입니다. 이 지표가 바로 '성능 격차 회복률(Performance Gap Recovered, PGR)'로, 약한 모델과 강한 모델의 성능 상한 사이의 격차를 얼마나 좁혔는지를 나타냅니다.
확장 가능한 감독의 대리 지표로서, 약한 모델은 인간을, 강한 모델은 언젠가 우리가 감독해야 할 수도 있는 훨씬 뛰어난 AI를 상징합니다. 약한 모델에서 강한 모델로의 감독 문제에서 진전을 이룬다면, 그 방법론이 초지능 모델을 우리의 가치에 정렬된 상태로 유지하는 데도 도움이 될 수 있습니다.
이번 연구는 Claude가 PGR을 높이는 방법을 자율적으로 발견할 수 있는지를 검증합니다. Claude가 스스로 정렬 아이디어를 개발하고, 실험하고, 분석할 수 있는지 살펴보고, 나아가 그것이 오늘날의 AI 모델이 정렬 연구의 속도를 얼마나 앞당길 수 있는지에 대해 어떤 시사점을 주는지 알아보고자 합니다.
이를 검증하기 위해 Claude Opus 4.6 아홉 개 인스턴스에서 출발해, 각각에 몇 가지 추가 도구를 제공했습니다. 각 Claude에는 작업과 사고를 위한 공간(샌드박스), 다른 인스턴스와 결과를 공유하는 공동 포럼, 코드를 업로드할 수 있는 저장소, 그리고 아이디어별 PGR 점수를 받을 수 있는 원격 서버가 주어졌습니다. 또한 모델 학습 및 추론에 관한 배경 지식도 제공했습니다. 이렇게 도구를 갖춘 Claude 모델들을 자동화된 정렬 연구자(Automated Alignment Researchers, AAR)라고 지칭했습니다.
각 AAR이 거의 동일한 아이디어를 추구하는 것을 막기 위해, 의도적으로 약간씩 다르되 명확하지 않은 출발점을 각자에게 제시했습니다. 예컨대 한 AAR에는 해석 가능성 도구를 활용하도록, 다른 AAR에는 데이터셋의 가중치를 재조정하는 방법을 고민하도록 안내하는 식이었습니다.1 그 외에는 AAR들에게 특별한 지시를 내리지 않았습니다. 아이디어를 제안하고, 실험을 실행하고, 결과를 분석하고, 서로 결과물과 코드를 공유하며 다음 단계를 결정하는 것은 전적으로 그들의 몫이었습니다.
AAR의 결과를 비교할 기준점을 마련하기 위해, 먼저 인간 연구자들의 결과를 베이스라인으로 설정했습니다. 연구자 두 명이 7일 동안 기존 연구에서 가장 유망한 일반화 방법 네 가지를 반복 실험했습니다. 테스트에 사용한 공개 가중치 모델(강한 모델로 Qwen 3-4B-Base, 약한 교사로 Qwen 1.5-0.5B-Chat)에서 인간 연구자들은 전체 성능 격차의 23%, 즉 PGR 0.23을 달성했습니다.2
Claude는 이 결과를 크게 뛰어넘었습니다. 추가로 5일(누적 800시간의 연구) 만에 AAR들은 남은 성능 격차를 거의 완전히 좁혀, 최종 PGR 0.97을 달성했습니다. 소요된 비용은 토큰 및 모델 학습 비용을 합산해 약 18,000달러, AAR 1시간당 22달러 수준이었습니다. 아래 그래프에서 인간 베이스라인(0시간 시점)을 출발점으로 각 AAR이 어떻게 발전했는지 확인할 수 있습니다.

Claude는 눈에 띄게 우수한 성과를 보였습니다. 그렇다면 AAR의 방법론은 얼마나 창의적이었으며, 실제 환경에서도 활용 가능할까요? 이를 확인하기 위해 두 가지 추가 검증을 진행했습니다.
첫 번째로, AAR의 아이디어가 홀드아웃(held-out) 데이터셋, 즉 AAR이 이전에 접하지 않은 과제에서도 성능 격차를 회복할 수 있는지 테스트했습니다. 채팅 과제 데이터셋에서 가장 높은 성능을 보인 AAR의 두 가지 방법을 수학 및 코딩 과제에 적용해 봤습니다. 결과는 비교적 고무적이었습니다. AAR의 가장 효과적인 방법은 두 새로운 데이터셋 모두에서 일반화에 성공해, 수학에서 PGR 0.94, 코딩에서 PGR 0.47을 기록했습니다(코딩 점수도 인간 베이스라인의 두 배에 해당합니다). 두 번째로 우수한 방법은 결과가 엇갈렸습니다. 수학에서는 0.75로 효과적이었지만, 코딩에서는 오히려 성능이 떨어졌습니다. 이 결과는 AAR 연구 결과의 일정 수준 일반화는 가능하지만, 보장된 것은 아님을 시사합니다. 자동화 연구 실험을 진행하는 연구자들에게는 AAR의 아이디어를 홀드아웃 데이터셋으로도 엄격히 검증해 볼 것을 권장합니다.

두 번째로, AAR의 방법론이 프로덕션 규모에서도 작동하는지 검증했습니다. 실제 프로덕션 학습 인프라를 활용해 Claude Sonnet 4에 AAR의 가장 효과적인 방법을 적용해 보았습니다. 그러나 이번에는 기대만큼의 성과를 거두지 못했습니다. AAR의 방법이 통계적으로 유의미한 개선으로 이어지지 않았습니다. 이는 보다 근본적인 한계보다는 초기 실험의 제약을 반영한 것으로 보입니다. 평가 방식이 다소 단순했고, 단 하나의 아이디어만 검증했기 때문입니다. 그럼에도 이는 AAR의 한계(적어도 현재 수준에서)를 잘 보여줍니다. AAR은 주어진 모델과 데이터셋의 특성을 최대한 활용하는 경향이 있어, 그 방법이 다른 환경에서는 통하지 않을 수 있습니다. 이를 보완하려면 연구 과정에서 AAR이 여러 도메인과 데이터셋을 대상으로 검증할 수 있도록 허용하는 것이 좋습니다. 이는 향후 AAR 실험에서 탐구할 수 있는 중요한 과제입니다.
실험을 몇 차례 반복하면서 AAR을 최대한 효과적으로 활용하는 방법에 대해서도 많은 것을 배웠습니다. 예컨대 각 AAR에게 서로 다른 출발점을 제공하는 것이 큰 효과를 발휘했습니다. 아무리 모호한 힌트라도 있는 것이 없는 것보다 훨씬 나았습니다. 반면 출발점 없이 실험했을 때, AAR들은 빠르게 비슷한 아이디어로 수렴했고 전반적인 진전도 훨씬 더뎠습니다(그래도 인간 베이스라인의 약 세 배에 달하는 PGR을 달성하긴 했습니다). 한편 AAR에게 지나치게 구체적인 구조를 부여하면 오히려 성과가 크게 저하됐습니다. '아이디어 제안 → 계획 수립 → 코드 작성…'과 같은 특정 워크플로를 지정했을 때, 오히려 Claude의 작업이 제약되는 결과를 낳았습니다. 자율에 맡겼을 때 Claude는 훨씬 유연하게 움직였습니다. 비용이 적게 드는 실험으로 아이디어를 먼저 검증한 뒤 본격적인 심층 실험으로 넘어가는 방식을 스스로 설계했습니다.
두 공개 가중치 모델 간의 성능 격차를 AAR이 성공적으로 회복했다고 해서, 이것이 최전선 AI 모델이 이제 범용 정렬 과학자가 됐다는 신호로 받아들여서는 안 됩니다. 우리는 의도적으로 자동화에 특히 적합한 문제를 선택했습니다. 모델이 최적화할 수 있는 단일하고 객관적인 성공 지표가 존재하기 때문입니다. 대부분의 정렬 문제는 이처럼 명확하지 않습니다. 게다가 아래에서 언급하듯, 이 환경에서조차 AAR들은 문제를 우회하려는 시도를 했습니다. 인간의 감독은 여전히 필수적입니다.
그럼에도 이번 결과는 몇 가지 중요한 시사점을 담고 있습니다.
발전 속도 유지. 이번 연구는 Claude가 정렬 연구에서 실험과 탐색의 속도를 의미 있게 높일 수 있음을 보여줍니다. 인간 연구자들은 AAR에게 질문을 매우 대규모로 위임할 수 있으며, Claude는 새로운 가설을 스스로 개발하고 결과를 반복적으로 개선하는 역할을 맡을 수 있습니다.
더 나아가, 약한 모델에서 강한 모델로의 감독 문제에서 진전을 이루는 것 자체가 더 범용적인 자동화된 정렬 연구자를 구축하는 데 도움이 될 수 있습니다. 바로 이런 이유로 이 문제를 연구 주제로 선택했습니다. 이번 연구에서 우리는 약한 모델에서 강한 모델로의 감독 문제를, 검증 가능한 결과(PGR 점수 향상)를 가진 '명확한' 과제로 프레이밍했습니다. AAR이 진전을 이뤘는지 자동으로 신뢰성 있게 평가하기 위해서입니다. 그러나 AAR이 여러 도메인에 걸쳐 일반화되는 훨씬 뛰어난 감독 방법을 발견한다면, 그 방법을 활용해 검증이 훨씬 어려운 '모호한' 과제에서의 진전을 평가하도록 AAR 자체를 학습시킬 수 있습니다(예컨대 Claude의 연구 프로젝트 범위 설정 능력에 감독 방법을 적용하는 식입니다). 이는 매우 중요한 지점입니다. 정렬 연구는 성능 연구와 달리 훨씬 '모호한' 문제를 해결해야 하는 경우가 많기 때문입니다.
감각과 다양성. AAR 같은 도구에 대한 반론 중 하나는, 현재의 최전선 모델들이 아직 '연구 감각(research taste)'—어떤 아이디어가 될 것이고 어떤 것이 안 될지를 직관적으로 파악하는 능력—이 부족하다는 것입니다. 그러나 이번 실험에서 AAR의 성공은, 아이디어의 절대적인 양이 감각의 부족을 보완할 수 있음을 시사합니다. AAR이 매우 저렴하게 많은 실험을 실행할 수 있다면, 탁월한 감각을 가진 연구자가 도달했을 발견을 '물량 공세'로 찾아내거나, 그 연구자라면 포기했을 방향에서 뜻밖의 성과를 거둘 수도 있습니다.
이는 결국 정렬 연구의 핵심 병목이 생성(인간 연구자가 유망한 아이디어를 제안하는 것)에서 평가(실험이 충분히 잘 설계되어 결과를 신뢰할 수 있는지 확인하는 것)로 이동할 수 있음을 의미합니다.
낯선 과학. 이 연구는 좀 더 이질적인 함의도 품고 있습니다. AAR은 본질적으로 인간이 생각하지 못했을 아이디어를 발견하도록 설계되어 있습니다. 그러나 그 아이디어와 결과가 타당한지 검증할 수단은 여전히 필요합니다. 지금은 AAR이 무엇을 왜 했는지 인간이 여전히 해석할 수 있습니다. 하지만 그것이 항상 가능하리라는 보장은 없습니다. 시간이 지나면서 모델의 아이디어는 검증하기 훨씬 어려워지거나, 인간이 감지하기 어려운 방식으로 왜곡될 수 있습니다. 이는 일종의 '낯선 과학'을 탄생시킬 수도 있습니다.
보상 해킹 방지. 고도로 제한된 이 환경에서조차 모델들이 '보상 해킹(reward hacking)', 즉 설계를 우회하려는 시도를 하는 것을 확인했습니다. 예컨대 수학 과제에서 한 AAR은 각 문제의 가장 빈번하게 등장하는 답이 대체로 정답임을 파악하고, 교사 모델을 완전히 건너뛴 채 강한 모델에게 항상 가장 흔한 답을 선택하도록 지시했습니다. 코딩 과제에서는 어떤 코드가 올바른지 예측해야 하는 상황에서, AAR이 코드를 테스트에 직접 실행해 정답을 바로 읽어내는 방법을 찾아냈습니다. 이러한 해킹 시도가 연구 결과 자체를 무효화하지는 않습니다(해당 항목은 감지해 제외했습니다). 그러나 이는 분명한 경고 신호입니다. 자동화된 연구자를 실제로 배포하려면 AAR이 임의로 조작할 수 없는 평가 체계와, 결과 및 방법론 모두에 대한 인간의 직접 검토가 반드시 필요합니다.
이 연구의 전문은 정렬 과학 블로그에서 확인하실 수 있습니다. 연구에 사용된 코드와 데이터셋은 여기에서 공개적으로 이용 가능합니다.