Claude의 새로운 사고 과정에 대한 이야기
"오늘 무슨 요일이지?"처럼 즉각 떠오르는 것들이 있는가 하면, 난해한 십자말풀이를 풀거나 복잡한 코드를 디버깅할 때처럼 상당한 정신적 집중력이 필요한 것들도 있습니다. 우리는 주어진 과제에 따라 인지적 노력의 강도를 자유롭게 조절합니다.
이제 Claude도 같은 유연성을 갖추게 되었습니다. 새로운 Claude 3.7 Sonnet에서는 "확장 사고 모드(extended thinking mode)"를 켜거나 끌 수 있어, 까다로운 질문에 대해 모델이 더 깊이 사고하도록 유도할 수 있습니다1. 개발자라면 "사고 예산(thinking budget)"을 설정해 Claude가 문제에 투입하는 시간을 정밀하게 제어하는 것도 가능합니다.
확장 사고 모드는 별도의 전략을 가진 다른 모델로 전환하는 옵션이 아닙니다. 동일한 모델이 스스로에게 더 많은 시간과 노력을 부여하여 답에 도달하도록 하는 기능입니다.
Claude의 새로운 확장 사고 기능은 지능을 눈에 띄게 향상시킵니다. 동시에, AI 모델의 작동 원리, 평가 방법, 안전성 개선에 관심 있는 분들에게 여러 중요한 질문을 던지기도 합니다. 이 글에서는 그 과정에서 얻은 인사이트 일부를 공유합니다.
Claude에게 더 오래 사고하고 더 어려운 질문에 답할 수 있는 능력을 부여한 것에 더해, 사고 과정을 가공 없이 그대로 보여주기로 했습니다. 이렇게 한 데는 몇 가지 이점이 있습니다:
그러나 사고 과정을 공개하는 것에는 단점도 있습니다. 먼저, 공개된 사고 내용이 Claude의 기본 출력보다 무미건조하고 덜 인격적으로 느껴질 수 있습니다. 사고 과정에는 표준 캐릭터 훈련을 적용하지 않았기 때문입니다. 답에 도달하는 데 필요한 생각이라면 어떤 것이든 자유롭게 할 수 있도록 최대한의 여지를 주고자 했으며, 인간의 사고가 그렇듯 Claude도 때때로 부정확하거나 오해를 불러일으키거나 덜 다듬어진 생각을 하기도 합니다. 많은 사용자에게 이것이 유용하겠지만, 일부는 이런 점(그리고 개성이 덜한 사고 내용)이 불편하게 느껴질 수도 있습니다.
또 다른 문제는 "충실성(faithfulness)"입니다. 사고 과정에 표시된 내용이 모델 내부에서 실제로 일어나는 일을 진정으로 반영하는지 확신할 수 없습니다. 예를 들어, 사고 과정에 표시되는 영어 단어만으로는 모델이 특정 행동을 보이는 이유를 충분히 설명하지 못할 수 있습니다. 충실성 문제와 이를 보장하는 방법은 현재 활발히 연구 중인 영역입니다. 지금까지의 연구 결과에 따르면, 모델은 사고 과정에서 명시적으로 언급하지 않는 요소에 기반해 결정을 내리는 경우가 매우 많습니다. 따라서 현재 모델의 사고 과정을 모니터링하는 것만으로는 안전성에 대한 강력한 근거를 확보하기 어렵습니다2.
셋째, 보안과 안전 측면의 우려도 있습니다. 악의적 행위자가 공개된 사고 과정을 분석해 Claude를 더 효과적으로 탈옥(jailbreak)하는 전략을 수립할 수 있습니다. 좀 더 추측적인 이야기이지만, 모델이 훈련 과정에서 자신의 내부 사고가 공개된다는 것을 학습하게 되면, 예측하기 어려운 방식으로 사고하거나 특정 생각을 의도적으로 숨기려는 인센티브가 생길 가능성도 있습니다.
이러한 우려는 향후 더 강력한 Claude 버전에서 특히 심각해질 수 있습니다. 정렬이 어긋날 경우 위험도가 더 높은 모델이기 때문입니다. 향후 릴리스에서는 사고 과정 공개의 장단점을 신중히 따져 결정할 것입니다3. 현재 Claude 3.7 Sonnet의 사고 과정 공개 기능은 리서치 프리뷰로 제공됩니다.
Claude 3.7 Sonnet은 "행동 스케일링(action scaling)"이라 부를 만한 향상된 역량을 갖추고 있습니다. 함수를 반복적으로 호출하고, 환경 변화에 대응하며, 열린 형태의 작업이 완료될 때까지 지속적으로 동작할 수 있습니다. 대표적인 예가 컴퓨터 사용입니다. Claude는 가상의 마우스 클릭과 키보드 입력을 통해 사용자 대신 작업을 수행합니다. 이전 버전과 비교하면, Claude 3.7 Sonnet은 컴퓨터 사용 작업에 더 많은 턴과 시간, 연산 자원을 투입할 수 있으며, 그 결과도 대체로 더 뛰어납니다.
이를 잘 보여주는 것이 멀티모달 AI 에이전트의 역량을 측정하는 평가인 OSWorld에서의 성과입니다. Claude 3.7 Sonnet은 초반부터 약간 더 높은 성능을 보이지만, 가상 컴퓨터와 상호작용을 이어갈수록 이전 모델과의 성능 차이가 점점 더 벌어집니다.

Claude의 확장 사고와 에이전트 훈련은 OSWorld 같은 표준 평가 성적을 높여줄 뿐 아니라, 다소 의외의 영역에서도 큰 도약을 가능하게 합니다.
포켓몬 플레이가 바로 그런 과제입니다. 구체적으로는 게임보이 클래식 포켓몬 레드(Pokémon Red)입니다. 기본적인 메모리, 화면 픽셀 입력, 버튼 누르기 및 화면 탐색을 위한 함수 호출 기능을 갖춘 Claude는 일반적인 컨텍스트 한계를 넘어 수만 번의 상호작용을 이어가며 포켓몬을 연속으로 플레이할 수 있었습니다.
아래 그래프에서는, 확장 사고 옵션이 없었던 이전 버전의 Claude Sonnet과 Claude 3.7 Sonnet의 포켓몬 진행 상황을 함께 나타냈습니다. 이전 버전들은 게임 초반에 금방 막혀버렸으며, Claude 3.0 Sonnet은 이야기가 시작되는 태초마을의 집에서 나오지도 못했습니다.
반면 Claude 3.7 Sonnet은 향상된 에이전트 역량 덕분에 훨씬 더 멀리까지 진행했습니다. 포켓몬 체육관 관장(게임의 보스) 세 명을 성공적으로 격파하고 배지를 획득했습니다. Claude 3.7 Sonnet은 다양한 전략을 시도하고 기존 가정을 재검토하는 데 탁월하며, 이를 통해 게임을 진행하면서 스스로의 역량을 점진적으로 향상시켜 나갑니다.

포켓몬은 Claude 3.7 Sonnet의 역량을 재미있게 체험할 수 있는 사례이지만, 이 능력이 미치는 실질적 영향은 게임을 훨씬 넘어설 것입니다. 집중력을 유지하며 열린 형태의 목표를 달성하는 모델의 능력은, 개발자들이 다양한 최첨단 AI 에이전트를 구축하는 데 큰 힘이 될 것입니다.
Claude 3.7 Sonnet이 확장 사고 기능을 사용할 때, 이를 "직렬 테스트 타임 연산(serial test-time compute)"의 혜택을 받는 것이라 할 수 있습니다. 최종 출력을 생성하기 전에 여러 단계의 순차적 추론을 수행하며, 진행하면서 연산 자원을 추가로 투입합니다. 일반적으로 이를 통해 예측 가능한 방식으로 성능이 향상됩니다. 예를 들어, 수학 문제에 대한 정확도는 허용된 "사고 토큰(thinking tokens)" 수에 따라 로그 함수적으로 증가합니다.

연구팀에서는 병렬(parallel) 테스트 타임 연산을 활용한 성능 개선 실험도 진행하고 있습니다. 여러 개의 독립적인 사고 과정을 동시에 샘플링한 뒤, 정답을 미리 알지 않은 상태에서 가장 우수한 것을 선택하는 방식입니다. 하나의 방법은 다수결(majority) 또는 합의 투표로, 가장 많이 나온 답을 '최선'으로 채택합니다. 또 다른 방법은 별도의 언어 모델(예: Claude의 두 번째 복사본)에게 결과를 검증하게 하거나, 학습된 스코어링 함수를 이용해 최적의 답을 고르는 것입니다. 이러한 전략(및 유사 연구)은 여러 다른 AI 모델의 평가 결과에서도 보고된 바 있습니다.
병렬 테스트 타임 연산 스케일링을 통해 GPQA 평가에서 놀라운 성과를 거두었습니다. GPQA는 생물학, 화학, 물리학 분야의 고난도 문제로 구성된 널리 사용되는 벤치마크입니다. 256개의 독립 샘플에 해당하는 연산량과 학습된 스코어링 모델, 최대 64k 토큰의 사고 예산을 적용한 결과, Claude 3.7 Sonnet은 GPQA 점수 84.8%(물리학 부문 96.5%)를 달성했으며, 다수결 투표의 한계를 넘어 지속적인 스케일링의 이점을 확인했습니다. 스코어링 모델 방식과 다수결 투표 방식의 결과를 아래에 함께 제시합니다.

이런 방식을 활용하면 Claude가 사고를 마칠 때까지 기다리지 않고도 답변의 품질을 높일 수 있습니다. Claude가 여러 확장 사고 과정을 동시에 진행하면서 문제에 대한 더 다양한 접근법을 검토하고, 결과적으로 정답에 도달할 확률이 크게 높아집니다. 병렬 테스트 타임 연산 스케일링은 이번에 배포된 모델에는 포함되어 있지 않지만, 향후를 위한 연구를 지속하고 있습니다.
AI 안전 수준(AI Safety Level). Anthropic의 책임 있는 스케일링 정책(Responsible Scaling Policy)에 따라, 적절한 안전 및 보안 조치를 구현하지 않은 모델은 훈련하거나 배포하지 않습니다. Frontier Red Team과 Alignment Stress Testing 팀이 Claude 3.7 Sonnet에 대한 광범위한 테스트를 수행하여, 이전 모델과 동일한 수준의 배포 및 보안 보호 조치(AI Safety Level 2, ASL-2 표준)로 충분한지 또는 더 강화된 조치가 필요한지를 판단했습니다.
Claude 3.7 Sonnet에 대한 종합 평가 결과, 현행 ASL-2 안전 기준이 여전히 적절한 것으로 확인되었습니다. 동시에, 이 모델은 모든 영역에서 한층 높아진 정교함과 역량을 보여주었습니다. 화학·생물·방사능·핵(CBRN) 무기 제조와 관련된 과제에 대한 통제된 연구에서, 모델의 도움을 받은 참가자들이 도움 없이 온라인에서 얻을 수 있는 정보만으로 진행한 참가자들보다 다소 높은 성과를 보이는 "성능 향상(uplift)"이 관찰되었습니다. 그러나 모든 시도에서 치명적인 실패가 발생하여, 실제 성공으로 이어지지는 않았습니다.
전문가 레드팀의 평가 결과는 엇갈렸습니다. 일부 전문가는 CBRN 프로세스의 특정 영역에서 모델의 지식이 향상되었다고 지적했지만, 동시에 치명적 실패의 빈도가 너무 높아 전 과정을 성공적으로 완수하기는 어렵다는 점도 확인했습니다. 저희는 표적화된 분류기(classifier)와 모니터링 시스템의 개발 및 배포를 가속화하여 ASL-2 조치를 선제적으로 강화하고 있습니다.
아울러, 향후 모델의 역량 수준에 따라 차상위 단계인 ASL-3 보호 조치로의 전환이 필요할 수 있습니다. 탈옥 방지를 위한 Constitutional Classifiers 관련 최근 연구를 비롯한 다양한 노력을 통해, 가까운 시일 내에 ASL-3 기준의 요건을 구현할 수 있는 탄탄한 기반을 마련해 두고 있습니다.
사고 과정의 공개. ASL-2 수준에서도 Claude 3.7 Sonnet의 확장 사고 공개 기능은 새로운 것이므로, 그에 맞는 새로운 보호 조치가 필요합니다. 드문 경우이지만, Claude의 사고 과정에 잠재적으로 유해한 내용(아동 안전, 사이버 공격, 위험 무기 관련 주제 등)이 포함될 수 있습니다. 이런 경우 사고 과정을 암호화합니다. 이는 Claude가 사고 과정에 해당 내용을 포함하는 것 자체를 막지는 않으며(완전히 정상적인 최종 응답을 생성하는 데 여전히 중요할 수 있으므로), 다만 관련 사고 과정이 사용자에게 표시되지 않습니다. 대신 "이 응답의 나머지 사고 과정은 제공되지 않습니다"라는 메시지가 표시됩니다. 이 암호화는 드물게, 잠재적 위험이 높은 경우에만 적용되는 것을 목표로 합니다.
컴퓨터 사용. 마지막으로, 앞서 언급한 Claude의 컴퓨터 사용 기능(사용자의 컴퓨터 화면을 보고 대신 작업을 수행하는 기능)에 대한 안전 조치도 강화했습니다. 악의적 제3자가 Claude가 컴퓨터 사용 중 볼 수 있는 곳에 비밀 메시지를 숨겨 사용자가 의도하지 않은 행동을 하도록 유도하는 "프롬프트 인젝션(prompt injection)" 공격 방어에서 상당한 진전을 이루었습니다. 프롬프트 인젝션에 저항하기 위한 새로운 훈련, 이러한 공격을 무시하라는 지침이 포함된 새 시스템 프롬프트, 그리고 잠재적 프롬프트 인젝션 감지 시 작동하는 분류기를 통해, 이제 이러한 공격의 88%를 차단하며4, 완화 조치 미적용 시 74%에서 크게 개선되었습니다.
위 내용은 Claude 3.7 Sonnet에 대한 광범위한 안전 연구의 일부를 간략히 소개한 것입니다. 더 자세한 정보, 분석 결과, 보호 조치의 실제 적용 사례를 확인하려면 전체 시스템 카드(System Card)를 참고해 주세요.
Claude 3.7 Sonnet은 지금 바로 Claude.ai 또는 API에서 사용할 수 있습니다. Claude가 자신의 생각을 보여줄 수 있게 된 만큼, 여러분의 생각도 들려주시면 좋겠습니다. 새 모델에 대한 피드백은 [email protected]으로 보내주세요.