Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 구축하는 AI 안전 및 연구 기업입니다.
트랜스포머 아키텍처에 대한 기존의 수학적 이론에 따르면, 잔차 스트림 내 개별 좌표는 특별한 의미를 갖지 않아야 합니다. 즉, 기저 방향은 어떤 의미에서 "임의적"이며, 무작위 방향에 비해 정보를 더 잘 인코딩할 이유가 없다는 것입니다. 그러나 최근 연구에서 실제로는 이 가정이 성립하지 않는다는 사실이 밝혀졌습니다. 본 연구에서는 이 현상을 조사한 결과, Adam 옵티마이저의 차원별 정규화기(per-dimension normalizer)가 원인일 가능성이 높다는 잠정적 결론에 도달했습니다.
아울러 트랜스포머에서 기저 의존성을 유발할 수 있는 다른 두 가지 명백한 요인, 즉 레이어 정규화(Layer Normalization)와 유한 정밀도 부동소수점 연산도 함께 검토했습니다. 분석 결과, 이 두 요인은 관찰된 기저 정렬 현상의 원인이 아님을 확실히 배제할 수 있었습니다.