Horovod

Creator
Creator
Alan JoAlan Jo
Created
Created
2020 Mar 28 15:56
Editor
Editor
Alan JoAlan Jo
Edited
Edited
2024 May 5 8:56
Uber에서 만든 Multi-GPU 및 분산 학습을 손쉽고 최적화된 형태로 진행할수 있게 만들어주는 Framework
TensorFlow뿐만 아니라 Keras, PyTorch, MXNet도 백엔드로 지원한다. Uber측에서 실험한 기본 Distributed TensorFlow를 사용할 때와 Horovod를 사용할때의 Benchmark 성능차이는 아래와 같다
 
 
 

OpenMPI error for Tensor so good to use NCCL even for performance

 
 

Recommendations