wrap policy란, FSDP에서 모델을 어떻게 나눌 것인가에 대한 policy
PyTorch에서는 기본적으로 transformer 모델에 대한 policy를 지원
from torch.distributed.fsdp import FullyShardedDataParallel as FSDP from torch.distributed.fsdp.wrap import transformer_auto_wrap_policy
fsdp2
from torch.distributed.fsdp import FullyShardedDataParallel as FSDP from torch.distributed.fsdp.wrap import transformer_auto_wrap_policy