Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
대규모 언어 모델(LLM)이 수행하는 과제가 복잡해질수록, 모델 동작의 정확성과 안전성을 검증하기는 점점 더 어려워집니다. 이 문제를 해결하기 위한 한 가지 접근법은 LLM이 내부 추론 과정을 명시적으로 드러내도록 유도하는 것입니다. 예를 들어, 질문에 답할 때 단계별 추론을 생성하게 하는 사고의 연쇄(Chain-of-Thought, CoT) 방식이 대표적입니다. 이렇게 외부로 드러난 추론 과정을 통해, 모델이 과제를 수행하는 절차를 사람이 직접 점검할 수 있습니다. 그러나 이 접근법은 모델이 서술한 추론이 실제 내부 추론을 충실하게 반영한다는 전제에 의존하며, 항상 그렇지는 않다는 한계가 있습니다. 본 연구에서는 CoT 추론의 충실도(faithfulness)를 높이기 위해, 질문을 하위 질문으로 분해하여 추론을 생성하는 방식을 제안합니다. 분해 기반 방법은 질의응답 과제에서 우수한 성능을 보이며, 경우에 따라 CoT에 근접하는 성능을 달성하면서도 최근 제안된 여러 평가 지표에서 모델 추론의 충실도를 개선합니다. 모델이 더 단순한 하위 질문에 각각 독립된 맥락에서 답하도록 강제함으로써, CoT 대비 모델 생성 추론의 충실도를 크게 끌어올리면서도 CoT가 제공하는 성능 향상의 일부를 유지할 수 있었습니다. 본 연구의 결과는 모델 생성 추론의 충실도를 높이는 것이 가능하다는 점을 보여주며, 이러한 개선이 계속된다면 궁극적으로 LLM 동작의 정확성과 안전성을 검증할 수 있는 추론 체계로 이어질 수 있을 것입니다.