Across the batch dimension, any neuron to have unit gaussian distribution
레이어마다 Normalization을 하는 레이어를 두어, 변형된 분포가 나오지 않도록 하는 것
Layer Normalization 에서 차원 하나만 바꾸면 된다
Limitation
- dependent to mini batch size
- hard to apply to RNN
Batch Normalization Methods