Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 구축하는 AI 안전 및 연구 기업입니다.
어떤 AI 모델이 특정 벤치마크에서 다른 모델보다 높은 점수를 기록했다고 가정해 봅시다. 일반 상식을 테스트하는 벤치마크일 수도 있고, 코딩 문제 풀이 능력을 평가하는 벤치마크일 수도 있습니다. 이때 두 모델 사이의 성능 차이는 실제 능력의 차이일까요, 아니면 단지 벤치마크에 포함된 문제가 한쪽에 유리하게 선정된 결과일 뿐일까요?
AI 모델 평가(evaluation), 흔히 "eval"이라 불리는 분야에 대한 대중의 관심이 이토록 큰데도, 이 질문은 AI 연구 커뮤니티에서 놀라울 만큼 충분히 다뤄지지 않았습니다. 이번 달 우리는 이 질문에 엄밀하게 답하고자 새로운 연구 논문을 발표했습니다. 이 논문은 통계 이론과 실험 설계 문헌을 바탕으로, 평가 결과를 과학적으로 의미 있게 보고하기 위한 여러 가지 권고 사항을 AI 연구 커뮤니티에 제안합니다. 이 글에서는 각 권고 사항과 그 이면의 논리를 간략히 살펴보겠습니다.
평가는 보통 서로 관련 없는 수백~수천 개의 문제로 구성됩니다. 예를 들어 MMLU에는 다음과 같이 다양한 문제가 포함되어 있습니다:
전체 평가 점수를 산출하려면 각 문제를 개별적으로 채점한 뒤, (대개) 단순 평균을 구합니다. 일반적으로 연구자들은 이 관측된 평균에 주목하지만, 우리 논문에서는 진정한 관심 대상이 관측된 평균이 아니라 모든 가능한 문제에 대한 이론적 평균이어야 한다고 주장합니다. 평가 문제가 보이지 않는 "문제 모집단(question universe)"에서 추출되었다고 상상해 보면, 통계 이론을 통해 그 모집단에서의 평균 점수, 즉 문제 선정의 운에 좌우되지 않는 근본적인 실력을 측정할 수 있습니다.

이러한 정식화를 통해 분석의 견고성을 확보할 수 있습니다. 원래 평가와 동일한 난이도 분포를 가진 새로운 평가를 만들더라도, 기존의 결론이 대체로 유지될 것이라 기대할 수 있기 때문입니다.
기술적으로 설명하면 다음과 같습니다. 중심극한정리(Central Limit Theorem)의 비교적 완화된 조건하에서, 동일한 기저 분포에서 추출한 여러 무작위 표본의 평균값은 정규분포를 따르는 경향이 있습니다. 이 정규분포의 표준편차(폭)는 일반적으로 평균의 표준오차(Standard Error of the Mean, SEM)라고 합니다. 우리 논문에서는 각 평가 점수를 보고할 때 중심극한정리에서 도출한 SEM을 함께 제시하도록 권장하며, 두 모델 간 이론적 평균 차이를 정량화하는 방법을 제시합니다. 95% 신뢰구간은 평균 점수에서 1.96 × SEM을 더하고 빼서 산출할 수 있습니다.
많은 평가가 문제가 독립적으로 선정된다는 위의 가정을 위반하며, 실제로는 밀접하게 관련된 문제들이 그룹으로 묶여 출제됩니다. 예를 들어, 독해 평가에서는 동일한 지문에 대해 여러 문제가 출제되는 경우가 많습니다. 이러한 패턴을 따르는 대표적인 평가로 DROP, QuAC, RACE, SQuAD 등이 있습니다.
이런 평가에서는 "문제 모집단"에서 각 문제를 추출하는 과정이 더 이상 독립적이지 않습니다. 같은 지문에 대해 여러 문제를 포함하면, 서로 다른 지문에서 같은 수의 문제를 선정하는 것보다 얻을 수 있는 정보가 적어집니다. 따라서 비독립적 문제에 중심극한정리를 단순 적용하면 표준오차를 과소추정하게 되고, 분석가가 데이터에서 잘못된 결론을 도출할 위험이 생깁니다.
다행히 군집 표준오차(clustered standard errors) 문제는 사회과학 분야에서 이미 광범위하게 연구되어 왔습니다. 문제의 포함이 비독립적인 경우, 무작위화의 단위(예: 지문)를 기준으로 표준오차를 군집화할 것을 권장하며, 논문에서 해당 공식을 제공합니다.

실제로 널리 쓰이는 평가에서 군집 표준오차가 단순 표준오차의 3배 이상인 경우를 확인했습니다. 문제의 군집 구조를 무시하면, 실제로는 존재하지 않는 모델 간 성능 차이를 감지했다고 잘못 판단할 수 있습니다.
분산은 확률변수가 얼마나 흩어져 있는지를 나타내는 척도입니다. 평가 점수의 분산은 앞서 설명한 평균의 표준오차를 제곱한 값이며, 이 값은 개별 문제 점수의 분산에 따라 달라집니다.
우리 논문의 핵심 통찰은 특정 문제에 대한 모델의 점수를 다음 두 항의 합으로 분해하는 것입니다:
전분산 법칙(law of total variance)에 의해, 확률적 성분의 분산을 줄이면 전체 평균의 표준오차가 직접적으로 작아지고, 결과적으로 통계적 정밀도가 향상됩니다. 우리 논문에서는 모델이 답변 전에 단계별로 사고하도록 유도하는 프롬프팅 기법, 즉 CoT(chain-of-thought) 추론의 사용 여부에 따라 확률적 성분의 분산을 줄이는 두 가지 전략을 제시합니다.
CoT 추론을 사용하는 평가의 경우, 동일한 모델에서 여러 차례 답변을 재샘플링한 뒤, 문제 수준의 평균을 중심극한정리에 입력하는 문제 점수로 사용할 것을 권장합니다. Inspect 프레임워크는 epochs 파라미터를 통해 이 방식으로 표준오차를 올바르게 계산합니다.

CoT 추론을 사용하지 않는 평가(즉, 답변이 "경로 의존적"이지 않은 경우)에서는 언어 모델의 다음 토큰 확률을 활용하면 확률적 성분을 완전히 제거할 수 있는 경우가 많습니다. 예를 들어, 객관식 문제의 정답이 "B"라면, 모델이 "B" 토큰을 생성할 확률을 문제 점수로 그대로 사용하는 방식입니다. 현재 이 기법을 구현한 오픈소스 평가 프레임워크는 알려진 바 없습니다.
평가 점수는 그 자체로는 의미가 없으며, 다른 점수와의 비교를 통해서만 의미를 가집니다(한 모델이 다른 모델보다 우수하다, 동등하다, 또는 사람보다 뛰어나다 등). 하지만 두 모델 간의 측정된 차이가 평가에 포함된 특정 문제의 선택과 모델 응답의 무작위성에서 비롯된 것은 아닐까요? 이표본 t검정을 사용하면, 두 평가 점수에서 산출한 평균의 표준오차만으로 이를 확인할 수 있습니다.
그러나 이표본 검정은 평가 데이터 내부의 숨겨진 구조를 무시합니다. 문제 목록이 모델 간에 공유되므로, 대응 차이 검정(paired-differences test)을 수행하면 문제 난이도의 분산을 제거하고 응답의 분산에만 집중할 수 있습니다. 논문에서는 대응 차이 검정의 결과가 두 모델의 문제별 점수 간 피어슨 상관계수와 어떤 관계에 있는지 보여줍니다. 상관계수가 높을수록 평균 차이의 표준오차는 작아집니다.
실제로 주요 평가에서 프론티어 모델 간 문제별 점수의 상관관계는 상당히 높아, −1에서 +1 사이의 척도에서 0.3~0.7 수준이었습니다. 다시 말해, 프론티어 모델들은 같은 문제를 맞히거나 틀리는 전반적인 경향을 공유합니다. 따라서 대응 차이 분석은 AI 모델 평가에 매우 적합한 "무비용" 분산 축소 기법입니다. 데이터에서 가장 명확한 신호를 추출하기 위해, 우리 논문에서는 두 개 이상의 모델을 비교할 때 쌍별 정보—평균 차이, 표준오차, 신뢰구간, 상관관계—를 함께 보고할 것을 권장합니다.
통계적 유의성의 이면에는 검정력(statistical power)이 있습니다. 검정력이란 두 모델 간에 실제로 차이가 존재한다고 가정했을 때, 통계 검정이 그 차이를 감지할 수 있는 능력입니다. 평가의 문제 수가 적으면 신뢰구간이 넓어지고, 통계적으로 유의한 결과를 얻으려면 모델 간 능력 차이가 매우 커야 합니다. 작은 차이는 감지되지 못할 가능성이 높습니다. 검정력 분석(power analysis)은 관측 수, 검정력, 위양성률(false positive rate), 그리고 관심 대상인 효과 크기(effect size) 간의 수학적 관계를 다룹니다.
우리 논문에서는 검정력 분석 개념을 평가에 적용하는 방법을 보여줍니다. 구체적으로, 모델 A가 모델 B보다 3%p 우수하다와 같은 가설을 세우고, 모델 A와 모델 B의 성능이 동등하다는 귀무가설에 대해 이를 검정하려면 평가에 몇 개의 문제가 필요한지 산출하는 방법을 제시합니다.
검정력 분석은 다양한 상황에서 연구자들에게 유용할 것으로 기대합니다. 우리가 제시한 검정력 공식은 문제에서 답변을 몇 회 재샘플링해야 하는지(위의 권고 #3 참조), 그리고 원하는 검정력 수준을 유지하면서 무작위 부분표본에 포함할 수 있는 문제 수가 얼마인지를 결정하는 데 도움이 됩니다. 또한 연구자들은 이 공식을 통해, 사용 가능한 문제 수가 제한된 평가를 특정 모델 쌍에 대해 실행할 가치가 있는지 판단할 수 있습니다. 새로운 평가를 설계하는 개발자라면, 문제를 몇 개나 포함할지 결정할 때 이 공식을 참고할 수 있습니다.
통계학은 노이즈가 존재하는 환경에서의 측정을 다루는 학문입니다. 평가에는 수많은 현실적 난제가 있으며, 진정한 의미의 평가 과학은 아직 충분히 발전하지 못했습니다. 통계학은 평가 과학의 한 가지 측면에 불과하지만, 경험 과학의 수준은 측정 도구의 수준에 의해 결정되므로 그 역할은 매우 중요합니다. 우리 논문 Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations에서 제시한 권고 사항이 AI 연구자들이 평가 수치를 보다 정밀하고 명확하게 산출·해석·전달하는 데 기여하기를 바랍니다. 아울러 AI 커뮤니티의 연구자들이 실험 설계 분야의 다양한 기법을 적극적으로 탐구하여, 측정하고자 하는 모든 것을 보다 정확히 이해할 수 있기를 기대합니다.