Glorot Initialization이전 층의 뉴런 개수와 다음 층의 뉴런 개수 이용여러 층의 기울기 분산 사이에 균형을 맞춘다S자 형태인 활성화 함수와 함께 사용할 경우에는 좋은 성능을 보이지만, ReLU와 함께 사용할 경우에는 성능이 좋지 않다Uniform Distribution Normal distribution 07-07 기울기 소실(Gradient Vanishing)과 폭주(Exploding)깊은 인공 신경망을 학습하다보면 역전파 과정에서 입력층으로 갈 수록 기울기(Gradient)가 점차적으로 작아지는 현상이 발생할 수 있습니다. 입력층에 가까운 층들에서 가중치들이…https://wikidocs.net/61375