트랜스포머 잔차 스트림(Residual Stream)의 특권 기저(Privileged Bases)

초록

트랜스포머 아키텍처에 대한 기존의 수학적 이론에 따르면, 잔차 스트림 내 개별 좌표는 특별한 의미를 갖지 않아야 합니다. 즉, 기저 방향은 어떤 의미에서 "임의적"이며, 무작위 방향에 비해 정보를 더 잘 인코딩할 이유가 없다는 것입니다. 그러나 최근 연구에서 실제로는 이 가정이 성립하지 않는다는 사실이 밝혀졌습니다. 본 연구에서는 이 현상을 조사한 결과, Adam 옵티마이저의 차원별 정규화기(per-dimension normalizer)가 원인일 가능성이 높다는 잠정적 결론에 도달했습니다.

아울러 트랜스포머에서 기저 의존성을 유발할 수 있는 다른 두 가지 명백한 요인, 즉 레이어 정규화(Layer Normalization)와 유한 정밀도 부동소수점 연산도 함께 검토했습니다. 분석 결과, 이 두 요인은 관찰된 기저 정렬 현상의 원인이 아님을 확실히 배제할 수 있었습니다.