Adam Optimizer + Weight Decay
Paged AdamW
- 8bit
- 32bit
momentum, variance등 값을 저장하는 메모리 사용 정도 조절가능
Fused AdamW
GPU support 여러 연산을 하나의 커널로 결합하여 계산
빠르고 메모리 효율적
git clone https://github.com/NVIDIA/apex cd apex pip install -v --disable-pip-version-check --no-build-isolation --no-cache-dir ./