Pytorch Distribuited backend
Pytorch Rendezvous 와 달리 텐서통신 담당
backend
- NCCL - multi-gpu multi-node training
- Gloo - hieh compatibility like multi cpu training or single gpu training
- MPI - high performance computing but need to separate pytorch compilation
Gloo에서도 all_gather 함수 일부분 지원 안하기때문에 사실상 nccl이 독점이라고 봐도 무방함
nccl에 port를 임의로 사용하는 문제가 있어서 사용이 까다롭다