Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 및 연구 기업입니다.
대규모 언어 모델(LLM)은 질문에 답하기 전에 단계별로 추론하는 "사고 사슬(Chain-of-Thought, CoT)" 방식을 사용할 때 더 높은 성능을 보인다. 그러나 모델이 제시하는 추론 과정이 실제 내부 추론 과정, 즉 답을 도출하는 과정을 충실하게 반영하는지는 분명하지 않다. 본 연구에서는 CoT에 의도적으로 개입하여(예: 오류 삽입, 문장 재구성 등) 모델 예측이 어떻게 달라지는지 관찰함으로써, CoT 추론이 충실하지 않을 수 있는 여러 가설을 검증한다. 분석 결과, 모델이 답을 예측할 때 CoT에 의존하는 정도는 과제에 따라 크게 달랐다. CoT에 강하게 의존하는 경우도 있었고, 거의 무시하는 경우도 있었다. 또한 CoT의 성능 향상 효과는 단순히 추론 시 추가 연산량이 늘어나거나 특정 표현 방식에 정보가 인코딩되어 나타나는 것이 아닌 것으로 보인다. 모델의 규모가 커지고 성능이 높아질수록, 대부분의 과제에서 오히려 추론의 충실도는 낮아지는 경향을 보였다. 종합하면, 모델 크기와 과제 유형 등 조건을 신중하게 선택한다면 CoT가 충실한 추론을 제공할 수 있음을 시사한다.