Adam Optimizer + Weight Decay Paged AdamW8bit32bitmomentum, variance등 값을 저장하는 메모리 사용 정도 조절가능 Fused AdamWGPU support 여러 연산을 하나의 커널로 결합하여 계산빠르고 메모리 효율적RuntimeError: apex.optimizers.FusedAdam requires cuda extensionsUpdated 2024 May 20 11:52