Layer Normalization

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2019 Nov 19 7:51
Editor
Edited
Edited
2024 Mar 2 7:20

Per token transformation which has parameter (not a perfect distribution)

BN normalizes the activations of each batch, while LN normalizes the activations of each layer
Usually with
Residual Connection
like below
레이어의 출력을 정규화하여 학습 과정을 안정화해 레이어 간의 학습 속도 차이를 줄인다
Batch Normalization
에서 차원 하나만 바꾸면 된다
Transformer Model
발표 이후 바뀐 점이 거의 없지만 가장 큰 변화중 하나는
Layer Normalization
Attention Mechanism
block 이후에서 이전으로 바뀜
 

with linear transformation

정규화 과정이 모델의 표현력을 제한할 수 있다는 점을 보완하기 위함
  • - scale
  • - shift
  • eps - epsilon is a small value added to the denominator during the normalization process to prevent division by zero
  • element wise affine - learnable scaling and shifting operations applied to each element
Layer Normalizations
 
 
 
 
 
 

Recommendations