Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 및 연구 기업입니다.
본 연구는 언어 모델이 스스로의 주장이 타당한지 평가하고, 어떤 질문에 올바르게 답할 수 있을지 예측할 수 있는지를 탐구한다. 먼저, 적절한 형식으로 제시된 다양한 객관식 및 참/거짓 문제에서 모델 크기가 클수록 잘 보정(calibration)된다는 점을 보인다. 이를 바탕으로 개방형 샘플링 과제에서의 자기 평가에 접근하는데, 모델이 먼저 답변을 제안한 뒤 해당 답변이 맞을 확률인 "P(True)"를 스스로 평가하도록 하는 방식이다. 다양한 과제에서 P(True)의 성능, 보정, 스케일링 측면에서 고무적인 결과를 확인했다. 특히, 모델이 특정 답변의 타당성을 판단하기 전에 자체적으로 생성한 여러 샘플을 함께 고려할 수 있게 하면 자기 평가 성능이 더욱 향상된다. 다음으로, 특정 답변 후보를 참조하지 않고도 "내가 이 질문의 답을 알고 있는가"의 확률인 "P(IK)"를 예측하도록 모델을 훈련할 수 있는지 조사한다. 모델은 P(IK) 예측에서 우수한 성능을 보이며 과제 간 부분적 일반화도 가능했지만, 새로운 과제에서는 P(IK)의 보정에 어려움을 겪었다. 또한 컨텍스트에 관련 참고 자료가 포함되거나 수학 문장제 풀이에 대한 힌트가 주어지면 P(IK) 예측 확률이 적절하게 증가하는 양상도 관찰되었다. 이러한 발견이 보다 정직한 모델 훈련의 토대가 되고, 인간 글쓰기의 모방이 아닌 다른 목적 함수로 훈련된 모델에서 정직성이 어떻게 일반화되는지 연구하는 데 기여하기를 기대한다.