한꺼번에 batch들 모아서 gradient 처리해서 더 큰 batch simulation 할수 있다Model Generalization 측면에서 좋고 매번 업데이트 안해줘서 좋다너무 크게 하면 local minimum에 빠질 수 있으니 조심해야 sequence length normalization matters Bug Fixes in LLM Training - Gradient AccumulationUnsloth's Gradient Accumulation fix solves critical errors in LLM Training.https://unsloth.ai/blog/gradient