Megatron-LM은 tensor-slicing model parallelism를 사용한다. Megatron-LM의 tensor-slicing model parallelism에 DeepSpeed ZeRO-2의 data parallelism을 추가하면 DeepSpeed가 Megatron-LM보다 10x 더 빠르다.
Megatrom LM
Creator
Creator
Seonglae ChoCreated
Created
2023 Apr 25 14:7Editor
Editor
Seonglae ChoEdited
Edited
2024 Mar 8 15:58Refs
Refs