모멘텀 없이 RMSProp을 메모리 적게 쓰는 row-rank approximation로 대체모멘텀 안쓰다보니 불안전한 학습이 되는데decay rate를 시간에 따라 증가시키는 방식(Learning rate Warmup )과 Gradient Clipping 으로 해결