Texonom
Texonom
/
Computing
Computing
/Computing Theory/Parallel Programming/MPI/
Gloo
Search

Gloo

Creator
Creator
Seonglae Cho
Created
Created
2024 Mar 8 11:13
Editor
Editor
Seonglae Cho
Edited
Edited
2024 Mar 17 16:3
Refs
Refs
gloo
facebookincubator • Updated 2024 Mar 6 17:22
 
 
 
 
 
FSDP does not work on GLOO backend
Updated 2023 Jul 31 18:49
RuntimeError: no support for _allgather_base in Gloo process group
에러가 일어난 곳: https://github.com/mlfoundations/open_flamingo/tree/main/open_flamingo/train Openflamingo model을 gloo로 설정해서 돌리는데 해당 부분에서 에러가 일어났다. 검색을 해보니, _allgather_base함수가 nccl에서 작동되지 않는다고 한다... 어떻게 해결해야할까!? Method: [torch_list] 형태로 all_gather 이용하기 해당 문제를 풀기 위해서는 일단 _exec_order_utils.py라는 system file로 들어와야 한다. 그리고 해당 파일에서 밑의 코드와 같은 부분을 찾을 수 있다! world_num_valid_indices = torch.zeros(self.world_size..
RuntimeError: no support for _allgather_base in Gloo process group
https://kyujinpy.tistory.com/92
RuntimeError: no support for _allgather_base in Gloo process group
 
 

Recommendations

Texonom
Texonom
/
Computing
Computing
/Computing Theory/Parallel Programming/MPI/
Gloo
Copyright Seonglae Cho