Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
최근 대규모 언어 모델은 방대한 데이터셋으로 학습되지만, 동시에 반복된 데이터로 학습되는 경우도 많다. 고품질 데이터에 더 높은 가중치를 부여하기 위해 의도적으로 반복하는 경우도 있고, 데이터 중복 제거가 완벽하지 않아 문장·문단·문서 수준에서 비의도적으로 반복 노출되는 경우도 있다. 일부 연구에서는 이러한 반복 데이터가 성능에 상당한 악영향을 미친다고 보고한 바 있다. 본 논문에서는 반복 데이터를 체계적으로 분석하고, 그 영향의 내부 메커니즘을 규명하고자 한다. 이를 위해 대부분의 데이터는 고유하되 소량의 데이터만 여러 번 반복되는 구성으로 일련의 모델을 학습시켰다. 실험 결과, 뚜렷한 이중 하강(double descent) 현상이 관찰되었다. 반복 데이터로 인해 학습 중간 지점에서 테스트 손실이 오히려 증가하는 것이다. 예측 가능한 특정 반복 빈도 범위에서 성능 저하가 놀라울 만큼 심각하게 나타났다. 예를 들어, 데이터의 0.1%만 100회 반복해도—나머지 90%의 학습 토큰은 고유함에도 불구하고—8억 파라미터 모델의 성능이 절반 크기인 4억 파라미터 모델 수준으로 떨어질 수 있다. 데이터가 암기될 수 있는 중간 범위가 존재하며, 이 과정에서 모델 용량의 상당 부분이 소모되어 성능 저하가 최고조에 달하는 것으로 추정된다. 마지막으로, 모델이 수행하는 세부 연산을 역공학적으로 분석하는 기계적 해석가능성(mechanistic interpretability) 연구와 연결하여, 데이터 반복이 복사 기능과 인덕션 헤드(induction head)와 같은 일반화 관련 내부 구조에 불균형적으로 큰 손상을 입힌다는 사실을 보여준다. 이는 일반화에서 암기로의 전환을 설명하는 하나의 메커니즘이 될 수 있다. 종합하면, 이러한 결과들은 대규모 언어 모델에서 비교적 소량의 데이터 반복이 왜 성능에 불균형적으로 큰 악영향을 초래하는지에 대한 가설을 제시한다.
Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli, Tom Henighan, Andy Jones, Nicholas Joseph, Ben Mann, Nova DasSarma, Nelson Elhage, Zac Hatfield-Dodds, Danny Hernandez, Jackson Kernion, Kamal Ndousse, Catherine Olsson, Dario Amodei, Tom Brown, Jack Clark, Sam McCandlish, Chris Olah, Jared Kaplan