Accelerated Gradient Methods
가속도 붙으면 Saddle point problem 도 일부 해결 Like Potential energy rollercoaster
GD 단점은 기울기 0인 점을 잘 탈출하지 못한다는 것 외에도 너무 훈련이 느리다는 점
Momentum Methods
momentum rate
새로운 속도는 이전 속도와의 지수평균(exponential average)를 통해 계산 α
모멘텀 상수는 0.5 정도로 시작해서 어느 정도 감소 추세가 안정화되면 0.9로 늘려 사용