Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
안전하고 유용한 범용 AI 시스템을 개발하려면 확장 가능한 감독(scalable oversight) 문제에서 진전을 이루어야 합니다. 이는 주어진 과제와 관련된 대부분의 역량에서 인간을 능가할 가능성이 있는 시스템을 어떻게 감독할 것인가의 문제입니다. 아직 인간의 능력을 전반적으로 뛰어넘는 시스템이 존재하지 않기 때문에, 이 문제에 대한 실증 연구는 단순하지 않습니다. 본 논문에서는 이 문제를 바라보는 주요 관점 중 하나를 소개하며, 특히 실증적으로 연구할 수 있는 방법에 초점을 맞춥니다. 먼저, 전문가는 성공하지만 도움 없는 일반인과 현재의 범용 AI 시스템은 실패하는 과제를 중심으로 설계한 실험 프레임워크를 제시합니다. 이어서 이 실험 설계의 핵심 특성을 입증하기 위한 개념 증명 실험을 수행하고, MMLU와 시간 제한 QuALITY라는 두 가지 질의응답 과제에서 그 실행 가능성을 보여줍니다. 실험 결과, 신뢰성이 완전하지 않은 대규모 언어 모델 대화 보조 도구와 채팅으로 상호작용한 참가자들은 — 이는 확장 가능한 감독의 가장 기본적인 전략에 해당합니다 — 모델 단독 성능과 참가자 본인의 단독 성능을 모두 크게 상회했습니다. 이러한 결과는 현재 모델만으로도 확장 가능한 감독을 충분히 연구할 수 있음을 보여주는 고무적인 신호이며, 대규모 언어 모델이 어려운 과제에서 인간을 생산적으로 도울 수 있다는 최근 연구 결과를 뒷받침합니다.