Can be considered as an adaptive learning rate without smoothingFP overflow시 없에준다.기울기 폭주를 막기 위해 임계값을 넘지 않도록 값을 자릅RNN 에서 유용하다보통 norm에 따라 값을 정해서 clip한다 07-07 기울기 소실(Gradient Vanishing)과 폭주(Exploding)깊은 인공 신경망을 학습하다보면 역전파 과정에서 입력층으로 갈 수록 기울기(Gradient)가 점차적으로 작아지는 현상이 발생할 수 있습니다. 입력층에 가까운 층들에서 가중치들이…https://wikidocs.net/61375