0
点赞
收藏
分享

微信扫一扫

模型训练前后显卡占用对比、多卡训练GPU占用分析【一文读懂】

  • 🎉声明:作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️

模型训练前后显卡占用对比、多卡训练GPU占用分析【一文读懂】_环境搭建

  • 🍊​​ 👋 Follow me 👋​​,一起 Get 更多有趣 AI 🚀 🚀

​本次博文简单记录,多卡训练任务中 ,各个 GPU 资源占用情况 ,内容较为基础,后续有新的心再继续补充​

训练前

2  A100-PCIE-40GB      Off  | 00000000:39:00.0 Off |                    0 |
| N/A 26C P0 37W / 250W | 14568MiB / 40536MiB | 0% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
| 3 A100-PCIE-40GB Off | 00000000:3D:00.0 Off | 0 |
| N/A 25C P0 39W / 250W | 11497MiB / 40536MiB | 26% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
| 4 A100-PCIE-40GB Off | 00000000:9C:00.0 Off | 0 |
| N/A 35C P0 104W / 250W | 12920MiB / 40536MiB | 32% Default |
| | | Disabled |

开启训练后

------------------------------+----------------------+----------------------+
| 2 A100-PCIE-40GB Off | 00000000:39:00.0 Off | 0 |
| N/A 42C P0 236W / 250W | 35653MiB / 40536MiB | 72% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
| 3 A100-PCIE-40GB Off | 00000000:3D:00.0 Off | 0 |
| N/A 42C P0 226W / 250W | 31506MiB / 40536MiB | 42% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
| 4 A100-PCIE-40GB Off | 00000000:9C:00.0 Off | 0 |
| N/A 47C P0 214W / 250W | 32905MiB / 40536MiB | 72% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+

GPU 占用如下

此次训练任务,使用了 2,3,4 三张卡,编号为 2 的卡是主卡,主卡 GPU 占用会多 一个 G

GPU

开启后

开启前

GPU占用(开启后 - 开启前)

2

35653MiB

14568MiB

21085

3

31506MiB

11497MiB

20009

4

32905MiB

12920MiB

19985

多卡训练GPU占用分析

多卡训练任务中,主卡需要承担和其他卡之前的通信,可以看到

  • 实验一:0,1,2,3 四卡训练,0 号主卡多了 3个 通信 进程
  • 实验二:4,5,6 三卡训练,4 号主卡多了 2 个通信 进程
  • 因此,整体来看,多卡训练任务中,主卡会比其他卡 多占用 一个 G 左右的 GPU 资源

模型训练前后显卡占用对比、多卡训练GPU占用分析【一文读懂】_人工智能_02

因此,有时候,多卡训练就可能会遇到:​​RuntimeError: CUDA out of memory. Tried to allocate 模型训练 GPU 显存不够报错总结​​,此时,就可能是 刚好 主卡 资源不够的原因,关于该报错的分析,可以看我下面的这篇文章:

  • ​​指定GPU运行和训练 python程序 、深度学习单卡、多卡 训练GPU设置【一文读懂】​​
举报

相关推荐

0 条评论