Layer를 많이 쌓을수록 데이터 표현력이 증가하기 때문에 학습이 잘 될 것 같지만 Layer가 많아질수록 학습이 잘 되지 않는다. 출력층에서 멀어질수록 Gradient 값이 매우 작아지는 현상인데, Activation Function 의 Gradient는 Activation의 실제 값보다 훨씬 작을 때 생긴다. Tanh Function로 완화 후 Non-saturating nonlinearity 성질을 가지는 ReLU, etc 함수들로 해결했다.
Vanishing Gradient
Creator
Creator
Seonglae ChoCreated
Created
2023 May 23 1:47Editor
Editor
Seonglae ChoEdited
Edited
2024 Sep 12 21:28Refs
Refs