Per token transformation which has parameter (not a perfect distribution)
BN normalizes the activations of each batch, while LN normalizes the activations of each layer
Usually with Residual Connection like below
레이어의 출력을 정규화하여 학습 과정을 안정화해 레이어 간의 학습 속도 차이를 줄인다
Batch Normalization 에서 차원 하나만 바꾸면 된다
Transformer Model 발표 이후 바뀐 점이 거의 없지만 가장 큰 변화중 하나는 Layer Normalization 을 Attention Mechanism block 이후에서 이전으로 바뀜
with linear transformation
정규화 과정이 모델의 표현력을 제한할 수 있다는 점을 보완하기 위함
- - scale
- - shift
eps
- epsilon is a small value added to the denominator during the normalization process to prevent division by zero
- element wise affine - learnable scaling and shifting operations applied to each element
Layer Normalizations