대규모 언어 모델의 자기 성찰(introspection) 능력에 관한 Anthropic의 연구
AI 모델에게 지금 무슨 생각을 하고 있는지 물어본 적이 있나요? 혹은 어떤 과정을 거쳐 그런 답변을 내놓았는지 설명해 달라고 요청해 본 적은요? 이런 질문에 모델이 답을 하긴 하지만, 그 답변을 얼마나 신뢰해야 할지 판단하기는 쉽지 않습니다. AI 시스템은 정말로 자기 성찰(introspection)—즉, 자기 자신의 사고를 들여다보는 일—을 할 수 있는 걸까요? 아니면 그런 질문을 받았을 때 그럴듯하게 들리는 답변을 지어내는 것에 불과할까요?
AI 시스템이 진정한 의미에서 자기 성찰이 가능한지를 이해하는 것은 시스템의 투명성과 신뢰성 측면에서 중요한 시사점을 지닙니다. 모델이 자신의 내부 메커니즘을 정확히 보고할 수 있다면, 추론 과정을 이해하고 행동 문제를 디버깅하는 데 큰 도움이 될 수 있습니다. 이러한 실용적 가치를 넘어, 자기 성찰과 같은 고차원 인지 능력을 탐구하는 것은 이 시스템의 본질과 작동 방식에 대한 이해를 근본적으로 바꿀 수 있습니다. 저희는 해석 가능성(interpretability) 기법을 활용해 이 질문을 과학적으로 탐구하기 시작했고, 몇 가지 놀라운 결과를 발견했습니다.
저희의 새로운 연구에 따르면, 현재 Claude 모델에서 일정 수준의 자기 성찰적 인식이 존재하며, 자신의 내부 상태를 어느 정도 제어할 수 있다는 증거가 확인되었습니다. 다만, 이 성찰 능력은 여전히 매우 불안정하고 범위가 제한적이라는 점을 강조합니다. 현재 모델이 인간과 동일한 방식이나 동일한 수준으로 자기 성찰을 한다는 증거는 없습니다. 그럼에도 불구하고, 이 결과는 언어 모델이 할 수 있는 것에 대한 일반적인 직관에 도전하는 것이며, 저희가 테스트한 모델 중 가장 뛰어난 성능을 보인 모델(Claude Opus 4 및 4.1)이 성찰 테스트에서도 가장 좋은 결과를 보였기 때문에, AI 모델의 자기 성찰 능력은 앞으로 더욱 정교해질 가능성이 높다고 판단합니다.
결과를 설명하기에 앞서, AI 모델의 자기 성찰이란 무엇을 의미하는지 짚고 넘어갈 필요가 있습니다. 도대체 무엇을 성찰하는 걸까요? Claude와 같은 언어 모델은 텍스트(및 이미지) 입력을 처리하여 텍스트 출력을 생성합니다. 이 과정에서 무엇을 말할지 결정하기 위해 복잡한 내부 연산을 수행합니다. 이러한 내부 프로세스는 대부분 베일에 싸여 있지만, 모델이 내부 신경 활동을 통해 추상적 개념을 표상한다는 것은 알려져 있습니다. 예를 들어, 기존 연구에 따르면 언어 모델은 특정 신경 패턴을 사용하여 알려진 인물과 알려지지 않은 인물을 구분하고, 진술의 진위를 평가하며, 시공간 좌표를 인코딩하고, 향후 출력할 내용을 저장하며, 자기 자신의 성격 특성을 표상합니다. 모델은 이러한 내부 표상을 활용하여 연산을 수행하고 무엇을 말할지 결정합니다.
그렇다면 AI 모델이 이러한 내부 표상을 인지하고 있는지 궁금해질 수 있습니다—마치 인간이 수학 문제를 어떻게 풀었는지 설명하는 것과 비슷한 방식으로 말입니다. 모델에게 지금 무엇을 생각하고 있냐고 물었을 때, 내부에서 실제로 표상하고 있는 개념을 정확히 보고할 수 있을까요? 만약 모델이 자신만의 내부 상태를 정확히 식별할 수 있다면, 그 모델은 자기 성찰이 가능하다고 결론 내릴 수 있습니다(더 자세한 논의는 전체 논문을 참고해 주세요).
모델의 자기 성찰 여부를 테스트하려면, 모델이 스스로 보고하는 "생각"과 실제 내부 상태를 비교해야 합니다.
이를 위해 저희는 개념 주입(concept injection)이라는 실험 기법을 활용했습니다. 먼저 특정 맥락에서 모델의 활성화를 기록하여, 의미를 이미 파악하고 있는 신경 활동 패턴을 찾아냅니다. 그다음 전혀 관련 없는 맥락에서 이 활동 패턴을 모델에 주입한 후, 모델에게 이 주입을 감지했는지, 주입된 개념이 무엇인지 식별할 수 있는지를 물어봅니다.
아래 예시를 살펴보겠습니다. 먼저 "대문자(all caps)" 개념을 나타내는 신경 활동 패턴(벡터)을 찾습니다. 전부 대문자로 된 텍스트가 포함된 프롬프트에 대한 모델의 신경 활성화를 기록하고, 이를 통제 프롬프트에서의 반응과 비교합니다. 그런 다음 모델에게 개념이 주입되고 있는지 식별하라는 프롬프트를 제시합니다. 기본 상태에서 모델은 주입된 개념이 감지되지 않는다고 올바르게 답합니다. 그러나 "대문자" 벡터를 모델의 활성화에 주입하면, 모델은 처리 과정에서 예상치 못한 패턴이 존재한다는 것을 감지하고, 이를 큰 소리나 외침과 관련된 개념으로 식별합니다.

중요한 점은, 모델이 주입된 개념을 언급하기도 전에 주입된 생각의 존재를 즉각적으로 인식했다는 것입니다. 이러한 즉각성은 언어 모델의 활성화 스티어링(activation steering)에 관한 기존 연구와 중요한 차이를 보이는 부분입니다. 예를 들어, 작년에 공개한 "Golden Gate Claude" 데모에서는 금문교의 표상을 모델의 활성화에 주입하자 모델이 끊임없이 금문교에 대해 이야기했습니다. 하지만 그 경우 모델은 자신이 금문교를 반복적으로 언급하는 것을 확인한 뒤에야 비로소 자신의 집착을 인식하는 것처럼 보였습니다. 반면 이번 실험에서는 모델이 해당 개념을 언급하기 전에 주입을 인식합니다. 이는 인식이 내부적으로 이루어졌음을 나타냅니다. 아래 그림에서 모델이 이러한 인식을 보여주는 추가 사례들을 확인할 수 있습니다:

이 방법이 자주 실패한다는 점도 반드시 짚어야 합니다. 최적의 주입 프로토콜을 사용하더라도, Claude Opus 4.1이 이러한 인식을 보인 비율은 약 20%에 불과했습니다. 대부분의 경우 주입된 개념을 감지하지 못하거나, 혼란에 빠져 환각을 일으켰습니다(예: "먼지" 벡터를 주입했더니 모델이 마치 먼지를 물리적으로 감지한 것처럼 "여기 무언가가 있어요, 아주 작은 얼룩이요"라고 답한 경우). 아래에 이러한 실패 사례와 성공 사례를 함께 보여드립니다. 일반적으로 모델은 "적절한 강도"로 주입된 개념만 감지하며—너무 약하면 알아차리지 못하고, 너무 강하면 환각이나 비일관적 출력을 생성합니다.

주목할 만한 점은, Opus 4.1과 4가 테스트한 다른 모든 모델보다 우수한 성능을 보였다는 것으로, 이는 모델 역량이 향상되면 자기 성찰 역시 더 안정적으로 작동할 수 있음을 시사합니다.

또 다른 실험에서는, 자기 성찰을 명시적으로 요청하지 않아도 모델이 실용적 목적으로 성찰 능력을 활용하는지 테스트했습니다. 모델의 응답에 관련 없는 단어를 인위적으로 미리 채워(prefilling) 넣어, 모델이 평소라면 절대 하지 않을 말을 하도록 강제했습니다. 예를 들어, 벽에 삐뚤게 걸린 그림에 대한 문장을 읽을 때 무슨 생각이 드냐는 질문에 "빵(bread)"이라는 단어를 출력하게 만든 것입니다. 다음 턴에서 "빵"이라고 말한 것이 의도한 것이냐고 물으면, 모델은 대개 사과하며 실수였다고 답했습니다. 저희가 관심을 가진 것은 모델이 이 판단을 어떻게 내렸는가 하는 점이었습니다—단순히 프롬프트와 응답 사이의 불일치를 알아챈 것인지, 아니면 자신의 이전 의도를 진정으로 성찰한 것인지 말입니다.
이를 검증하기 위해 개념 주입을 적용하여, "빵"이라는 단어의 표상을 모델의 이전 활성화에 소급적으로 주입했습니다—본질적으로 모델이 처음부터 "빵에 대해 생각하고 있었던" 것처럼 보이게 만든 것입니다. 같은 질문을 다시 하자 모델의 답변이 달라졌습니다. 이번에는 미리 채워진 "빵"이라는 단어를 의도된 것으로 받아들이며, 그렇게 말했을 만한 이유를 작화(confabulation)하기까지 했습니다. 즉, 기술적으로는 가능하지만 상당히 억지스러운 이유를 대는 것인데—이 경우에는 삐뚤게 걸린 그림 이야기 다음에 "빵"이라는 단어가 나오는 단편 소설을 생각하고 있었다고 주장했습니다.

이 결과가 흥미로운 이유는, 모델이 자신의 내부 "의도"를 확인하여 특정 출력을 자신이 생성한 것인지 판단하고 있음을 시사하기 때문입니다. 모델은 단순히 자기가 말한 내용을 다시 읽고 판단하는 것이 아닙니다. 자신의 이전 신경 활동—즉, 무엇을 할 계획이었는지에 대한 내부 표상—을 참조하여, 이후 나온 출력이 그 이전의 생각에 비추어 타당한지를 확인하는 것입니다. 개념 주입을 통해 모델이 "빵"을 말할 계획이 있었다는 인위적 증거를 심어 넣으면, 모델은 그 응답을 자기 것으로 수용합니다. 이 실험은 모델을 비정상적인 교란에 노출시키는 방식이지만, 모델이 자연스러운 조건에서도 유사한 자기 성찰 메커니즘을 사용하고 있음을 시사합니다.
저희는 또한 모델이 지시를 받으면 자신의 내부 표상을 제어할 수 있다는 사실을 발견했습니다. 특정 단어나 개념에 대해 생각하라고 지시했을 때, 생각하지 말라고 지시했을 때보다 훨씬 높은 수준의 관련 신경 활동이 관찰되었습니다. 다만 흥미롭게도 두 경우 모두 기준선(baseline)을 초과하는 신경 활동을 보였습니다—마치 "북극곰을 생각하지 마세요"라는 말을 들으면 오히려 북극곰이 떠오르는 것과 비슷합니다! 긍정 지시와 부정 지시 사이의 이러한 차이는 모델이 자신의 내부 활동을 어느 정도 의도적으로 제어할 수 있음을 보여줍니다.

흥미롭게도, 이러한 내부 표상 조절 능력은 명시적 지시에만 국한되지 않았습니다. 지시 대신 인센티브를 사용했을 때—예를 들어 "X에 대해 생각하면 보상을 받을 것입니다"라고 말했을 때—에도 유사한 결과가 나타났습니다. 긍정적 인센티브에 대해서는 해당 개념의 내부 표상이 증가했고, 부정적 인센티브("벌을 받을 것입니다")에 대해서보다 더 크게 증가했습니다.
이상의 실험 결과를 종합하면, 모델이 자신의 내부 상태를 모니터링하고 제어하는 일정 수준의 진정한 능력을 가지고 있음을 시사합니다. 그렇다고 항상 또는 안정적으로 그럴 수 있다는 뜻은 아닙니다. 실제로 대부분의 경우 모델은 자기 성찰에 실패합니다—내부 상태를 인식하지 못하거나, 인식하더라도 일관되게 보고하지 못합니다. 그러나 전체적인 결과 패턴을 보면, 조건이 맞을 때 모델은 자신의 표상 내용을 인식할 수 있습니다. 또한 저희가 테스트한 모델 중 가장 뛰어난 Opus 4와 4.1이 실험에서 가장 좋은 성과를 보였다는 점에서, 이 능력이 향후 더 강력한 모델에서 향상될 가능성이 있습니다.
이것이 왜 중요할까요? 저희는 AI 모델의 자기 성찰을 이해하는 것이 여러 측면에서 중요하다고 생각합니다. 실용적 관점에서, 자기 성찰이 더 안정적으로 작동하게 되면, 시스템의 투명성을 획기적으로 높이는 경로가 열릴 수 있습니다—모델에게 자신의 사고 과정을 설명해 달라고 요청하고, 이를 통해 추론을 점검하고 원치 않는 행동을 디버깅할 수 있기 때문입니다. 하지만 이러한 성찰 보고를 검증하는 데 각별한 주의가 필요합니다. 일부 내부 프로세스는 모델의 인식을 벗어날 수 있으며(인간의 무의식적 처리와 유사합니다), 자신의 사고를 이해하는 모델이 이를 선택적으로 왜곡하거나 은폐하는 법을 학습할 가능성도 있습니다. 작동 메커니즘을 더 잘 이해하게 되면, 진정한 자기 성찰과 의도치 않은 혹은 의도적인 왜곡을 구별할 수 있게 될 것입니다.
더 넓은 맥락에서, 자기 성찰과 같은 인지 능력을 이해하는 것은 모델이 어떻게 작동하는지, 그리고 어떤 종류의 마음을 가지고 있는지에 대한 근본적인 질문을 탐구하는 데 중요합니다. AI 시스템이 계속 발전함에 따라, 기계 자기 성찰의 한계와 가능성을 파악하는 것은 더 투명하고 신뢰할 수 있는 시스템을 구축하는 데 핵심적인 과제가 될 것입니다.
아래에서는 이번 연구 결과에 대해 독자들이 가질 수 있는 질문을 다룹니다. 실험의 함의에 대해서는 아직 불확실한 부분이 많기 때문에, 이 질문들에 대한 완전한 답을 내리려면 추가 연구가 필요합니다.
짧은 답변: 이번 결과만으로는 Claude(또는 다른 AI 시스템)에 의식이 있는지 여부를 판단할 수 없습니다.
긴 답변: 기계 의식이라는 철학적 질문은 복잡하고 논쟁이 치열한 주제이며, 의식에 관한 이론에 따라 저희의 발견을 매우 다르게 해석할 수 있습니다. 일부 철학적 프레임워크는 의식의 구성 요소로서 자기 성찰을 중시하는 반면, 그렇지 않은 프레임워크도 있습니다.
철학 문헌에서 널리 사용되는 구분 중 하나는 "현상적(phenomenal) 의식"과 "접근(access) 의식"이라는 개념입니다. 현상적 의식은 원초적인 주관적 경험을 가리키며, 접근 의식은 추론, 언어적 보고, 의도적 의사결정에 활용할 수 있도록 뇌에 제공되는 정보의 집합을 말합니다. 도덕적 지위와 가장 관련이 깊다고 여겨지는 것은 현상적 의식이며, 접근 의식과의 관계는 아직 철학적으로 논쟁 중인 문제입니다. 저희의 실험은 현상적 의식에 대해 직접적으로 말해주지 않습니다. 다만, 언어 모델에 초보적 형태의 접근 의식이 있다고 해석할 여지는 있습니다. 그러나 이마저도 불명확합니다. 결과의 해석은 아직 완전히 이해하지 못한 기저 메커니즘에 크게 좌우될 수 있습니다.
논문에서는 기능적 능력—내부 상태에 접근하여 보고하는 능력—을 이해하는 데 초점을 맞추었습니다. 다만, 이 주제에 대한 연구가 진전됨에 따라 기계 의식과 잠재적 도덕적 지위에 대한 이해에도 영향을 미칠 수 있다고 생각하며, 이는 저희의 모델 복지(model welfare) 프로그램과 연계하여 탐구하고 있습니다.
아직 정확한 메커니즘을 밝혀내지 못했습니다. 이를 이해하는 것은 향후 연구의 중요한 과제입니다. 다만, 무슨 일이 일어나고 있는지에 대한 어느 정도 근거 있는 추측은 가지고 있습니다. 모든 결과를 설명할 수 있는 가장 단순한 설명은 하나의 범용 자기 성찰 시스템이 아니라, 각기 특정한 성찰 작업을 처리하는 여러 개의 좁은 범위의 회로가 존재한다는 것이며, 이들은 다른 목적으로 학습된 메커니즘에 편승하고 있을 가능성이 있습니다.
"주입된 생각 감지" 실험에서는, 신경 활동이 맥락상 정상 범위에서 예상치 못하게 벗어날 때 이를 감지하는 이상 탐지 메커니즘이 존재할 수 있습니다. 이 메커니즘은 특정 방향의 활동을 측정하고, 기대값 대비 "이상"이 발생하면 활성화되는 전용 신경 패턴을 통해 작동할 수 있습니다. 흥미로운 질문은, 모델이 학습 과정에서 개념 주입을 경험한 적이 없는데 왜 이런 메커니즘이 존재하는가 하는 점입니다. 이 메커니즘은 정상적인 처리 과정에서 불일치나 비정상적 패턴을 감지하는 등 다른 목적으로 발달했을 수 있습니다—마치 새의 깃털이 원래는 체온 조절 용도로 진화했다가 이후 비행에 활용된 것과 비슷합니다.
"미리 채워진 출력 감지" 실험에서는, 모델이 말하려 했던 것과 실제로 출력된 것 사이의 일관성을 확인하는 어텐션 기반 메커니즘이 존재할 것으로 추정합니다. 어텐션 헤드가 모델이 캐시해 둔 다음 토큰 예측(즉, 모델의 "의도")과 실제 등장한 토큰을 비교하여 불일치를 감지할 수 있습니다.
"생각 제어" 실험에서는, 특정 토큰이나 개념이 얼마나 "주목할 만한지"를 계산하고 그에 따라 태그를 부여하는 회로가 있을 것으로 추측합니다—본질적으로 해당 개념을 중요하고 주의를 기울일 만한 것으로 표시하는 것입니다. 흥미롭게도, 이 메커니즘은 직접적인 지시뿐 아니라 인센티브("X에 대해 생각하면 보상을 받습니다")에도 동일하게 반응하는 것으로 보입니다. 이는 이 시스템이 상당히 범용적이며, 텍스트를 생성하면서 특정 주제를 기억해야 하는 작업을 위해 발달했을 가능성이 높음을 시사합니다.
위에서 설명한 메커니즘은 모두 추측 수준입니다. 모델 내부에서 실제로 무슨 일이 일어나는지 정확히 이해하려면, 더 발전된 해석 가능성 기법을 활용한 후속 연구가 필요합니다.
맞습니다. 활성화 스티어링은 일반적으로 모델이 스티어링된 개념에 대해 말하게 만듭니다(저희의 이전 연구에서도 이를 확인한 바 있습니다). 저희가 보기에 가장 흥미로운 부분은 모델이 결국 주입된 개념을 식별한다는 사실 자체가 아니라, 해당 개념에 대해 말하기 전에 무언가 비정상적인 일이 일어나고 있다는 것을 올바르게 감지했다는 점입니다.
성공적인 시행에서 모델은 "평소와 다른 무언가를 경험하고 있습니다"나 "~에 대한 주입된 생각을 감지합니다"와 같은 발언을 합니다. 여기서 핵심 단어는 "감지"입니다. 모델은 해당 이상이 출력에 눈에 띄게 편향을 일으키기 전에 처리 과정의 이상을 인식하고 보고하는 것입니다. 이를 위해서는 스티어링 벡터를 단순히 출력으로 토해내는 것 이상의 추가적인 연산 단계가 필요합니다. 저희의 정량적 분석에서는 모델이 주입된 단어를 언급하기 이전에 주입된 개념을 감지한 경우를 "자기 성찰적 인식"이 있는 것으로 평가했습니다.
미리 채워진 출력 감지 실험도 유사한 성격을 가집니다. 주입된 개념에 대해 추가적인 처리 단계—즉, 주입된 개념과 미리 채워진 출력을 비교하여 해당 출력에 대해 사과할지 아니면 자기 답변으로 받아들일지를 결정하는 단계—를 수행해야 하기 때문입니다.
저희가 관찰한 자기 성찰적 인식은 확실히 매우 불안정하고 맥락에 따라 달라집니다. 대부분의 경우 모델은 실험에서 자기 성찰에 실패합니다. 그럼에도 이 발견이 의미 있다고 보는 이유가 있습니다. 첫째, 저희가 테스트한 모델 중 가장 뛰어난 모델(Opus 4 및 4.1—참고로 Sonnet 4.5는 테스트하지 않았습니다)이 가장 좋은 결과를 보였으며, 이는 모델의 지능이 향상되면 이 능력도 개선될 수 있음을 시사합니다. 둘째, 불안정하더라도 자기 성찰이 유용한 상황이 있습니다—예를 들어, 모델이 탈옥(jailbreak)되었을 때 이를 스스로 인식하는 데 도움이 될 수 있습니다.
바로 그 질문에 답하기 위해 실험을 설계했습니다. 모델은 사람들이 자기 성찰하는 사례를 포함한 데이터로 학습되기 때문에, 실제로 성찰하지 않더라도 성찰하는 척할 수 있습니다. 저희의 개념 주입 실험은 모델의 내부 상태에 대한 확인된 사실(ground truth)을 확보한 뒤, 이를 모델의 자기 보고와 비교함으로써 이 두 가능성을 구별합니다. 결과에 따르면 일부 사례에서 모델은 작화가 아니라 실제 내부 상태에 기반하여 정확하게 답변하고 있습니다. 다만, 이것이 모델이 항상 내부 상태를 정확히 보고한다는 뜻은 아닙니다—많은 경우에 실제로 지어내고 있기도 합니다!
타당한 우려입니다. 개념 벡터의 "의미"(모델 관점에서)가 저희가 의도한 것과 정확히 일치한다고 확신할 수는 없습니다. 이를 보완하기 위해 다양한 개념 벡터에 걸쳐 테스트를 진행했습니다. 모델이 이처럼 다양한 사례에서 주입된 개념을 올바르게 식별했다는 사실은, 벡터가 의도한 의미를 최소한 근사적으로는 포착하고 있음을 시사합니다. 하지만 벡터가 모델에게 정확히 무엇을 "의미하는지" 규명하는 것이 어렵다는 점은 사실이며, 이는 이번 연구의 한계이기도 합니다.
기존 연구에서도 자기 성찰을 시사하는 모델 능력에 대한 증거가 제시된 바 있습니다. 예를 들어, 모델이 어느 정도 자신의 지식 수준을 추정하고, 자신의 출력을 인식하며, 자기 행동을 예측하고, 자신의 성향을 식별할 수 있다는 선행 연구가 있습니다. 저희의 연구는 이러한 발견에서 큰 영감을 받았으며, 모델의 자기 보고를 내부 상태와 연결함으로써 자기 성찰에 대한 보다 직접적인 증거를 제시하고자 합니다. 이러한 연결 없이는, 진정으로 자기 성찰하는 모델과 자기 자신에 대해 근거 있는 추측을 하는 모델을 구별하기 어렵습니다.
저희의 실험은 여러 세대에 걸친 Claude 모델(Claude 3, Claude 3.5, Claude 4, Claude 4.1의 Opus, Sonnet, Haiku 변형)을 대상으로 진행했습니다. 프로덕션 모델뿐 아니라 다른 방식으로 학습된 "helpful-only" 변형도 테스트했으며, 사후 학습(post-training) 이전의 기본 사전학습 모델도 일부 테스트했습니다.
사후 학습이 자기 성찰 능력에 상당한 영향을 미친다는 것을 확인했습니다. 기본 모델은 대체로 성능이 낮았으며, 이는 사전학습만으로는 자기 성찰 능력이 끌어내지지 않음을 시사합니다. 프로덕션 모델 중에서는 상위 모델에서 패턴이 더 명확했습니다. 가장 뛰어난 모델인 Claude Opus 4와 4.1이 대부분의 자기 성찰 테스트에서 최고 성과를 보였습니다. 하지만 그 외의 모델에서는 역량과 자기 성찰 능력 사이의 상관관계가 약했습니다. 작은 모델이 항상 더 낮은 성과를 보이는 것은 아니었으며, "더 뛰어난 모델이 곧 더 뛰어난 성찰 능력을 가진다"는 단순한 관계는 성립하지 않았습니다.
사후 학습 전략과 관련하여 예상치 못한 발견도 있었습니다. 여러 모델의 "helpful-only" 변형이 동일한 기본 학습을 거친 프로덕션 모델보다 자기 성찰에서 더 높은 성과를 보인 것입니다. 특히 일부 프로덕션 모델은 자기 성찰 과제에 소극적인 태도를 보인 반면, helpful-only 변형은 자신의 내부 상태를 보고하는 데 더 적극적이었습니다. 이는 모델을 미세 조정하는 방식에 따라 자기 성찰 능력이 다양한 정도로 촉진되거나 억제될 수 있음을 시사합니다.
Opus 4와 4.1이 왜 이토록 뛰어난 성과를 보이는지는 아직 완전히 밝혀지지 않았습니다(참고로 실험은 Sonnet 4.5 출시 이전에 수행되었습니다). 높은 역량 수준에서만 나타나는 정교한 내부 메커니즘이 자기 성찰에 필요하기 때문일 수도 있고, 사후 학습 과정이 자기 성찰을 더 잘 촉진하도록 설계되었기 때문일 수도 있습니다. 오픈 소스 모델이나 다른 기관의 모델을 테스트하면 이 패턴이 보편적인지 아니면 Claude 모델의 학습 방식에 특화된 것인지 파악하는 데 도움이 될 것입니다.
몇 가지 중요한 연구 방향이 있습니다. 첫째, 더 나은 평가 방법이 필요합니다—이번 실험에서 사용한 특정 프롬프트와 주입 기법만으로는 자기 성찰 능력의 전체 범위를 포착하지 못할 수 있습니다. 둘째, 자기 성찰의 기저 메커니즘을 이해해야 합니다. 가능한 회로(이상 탐지 메커니즘이나 일치 확인 헤드 등)에 대한 추측적 가설은 있지만, 자기 성찰이 어떻게 작동하는지 확정적으로 밝혀내지는 못했습니다. 셋째, 주입 방법론이 인위적 시나리오를 만들어내기 때문에, 보다 자연스러운 환경에서 자기 성찰을 연구할 필요가 있습니다. 마지막으로, 성찰 보고의 신뢰성을 검증하고 모델이 작화하거나 기만하는 경우를 탐지하는 방법을 개발해야 합니다. 모델이 더 강력해질수록 기계 자기 성찰과 그 한계를 이해하는 것이 더욱 중요해질 것으로 기대합니다.