Adam Optimizer

Creator
Creator
Seonglae Cho
Created
Created
2023 Jun 18 8:47
Editor
Edited
Edited
2024 Dec 4 22:32
Refs
Refs

RMSprop + Momentum (
Adagrad
)

파라미터마다 두 개의 추가 벡터를 유지하기 때문에 메모리 사용량이 크게 증가
  • First momentum
  • Second momentum
 
θt+1=θηv^+ϵmt^\theta_{t+1} = \theta - \frac{\eta}{\sqrt{\hat{v}} + \epsilon} \hat{m_t}
  • η\eta means learning rate
  • ϵ\epsilon to prevent 0 parent
 
 
 
 
 

Recommendations