0
点赞
收藏
分享

微信扫一扫

pytorch使用Horovod进行分布式训练


​Horovod​​​是一个由​​Uber​​​开源的第三方框架,它支持​​TensorFlow​​​、​​PyTorch​​​以及​​MXNet​​等主流的深度学习框架,可以轻松地实现高性能的分布式训练。

1.安装CUDA和NCCL

系统可能已经安装了​​CUDA​​​和​​NCCL​​​,但是尚未添加至环境变量PATH当中。可以执行​​locate -i nccl​​​或​​find /usr/ | grep -i nccl​​ 获取NCCL的安装路径。

需要注意的是,CUDA的版本必须与​​torch.version.cuda​​一致。

2.安装Horovod

在完成配置后,可以正式安装Horovod。

HOROVOD_NCCL_HOME = /usr/local/nccl-2 HOROVOD_NCCL_HOME=/usr/local/cuda
HOROVOD_GPU_OPERATIONS = NCCL pip install --no-cache-dir /horovod

重要的是要确保​​<HOROVOD_CUDA_HOME>/bin/nvcc​​​和​​<HOROVOD_NCCL_HOME>/lib/​​这两个路径存在。

在安装完成后,可以使用一下命令测试是否成功安装:

import horovod.torch as hvd
ivd.init()


举报

相关推荐

0 条评论