AdaFactor

Created
Created
2024 Mar 8 15:36
Editor
Creator
Creator
Seonglae ChoSeonglae Cho
Edited
Edited
2024 Aug 28 15:42
Refs
Refs
모멘텀 없이 RMSProp을 메모리 적게 쓰는 row-rank approximation로 대체
모멘텀 안쓰다보니 불안전한 학습이 되는데
decay rate를 시간에 따라 증가시키는 방식(
Learning rate Warmup
)과
Gradient Clipping
으로 해결
 
 
 
 
 

Recommendations