Gradient Accumulation

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2024 Mar 8 15:20
Editor
Edited
Edited
2024 Jul 1 14:41
Refs
Refs
한꺼번에 batch들 모아서 gradient 처리해서 더 큰 batch simulation 할수 있다
Model Generalization
측면에서 좋고 매번 업데이트 안해줘서 좋다
너무 크게 하면 local minimum에 빠질 수 있으니 조심해야
 
 
 
 
 
 
 
 

Recommendations