- 🎉声明:作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
- 🍊 👋 Follow me 👋,一起 Get 更多有趣 AI 🚀 🚀
本次博文简单记录,多卡训练任务中 ,各个 GPU 资源占用情况 ,内容较为基础,后续有新的心再继续补充
训练前
2 A100-PCIE-40GB Off | 00000000:39:00.0 Off | 0 |
| N/A 26C P0 37W / 250W | 14568MiB / 40536MiB | 0% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
| 3 A100-PCIE-40GB Off | 00000000:3D:00.0 Off | 0 |
| N/A 25C P0 39W / 250W | 11497MiB / 40536MiB | 26% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
| 4 A100-PCIE-40GB Off | 00000000:9C:00.0 Off | 0 |
| N/A 35C P0 104W / 250W | 12920MiB / 40536MiB | 32% Default |
| | | Disabled |
开启训练后
------------------------------+----------------------+----------------------+
| 2 A100-PCIE-40GB Off | 00000000:39:00.0 Off | 0 |
| N/A 42C P0 236W / 250W | 35653MiB / 40536MiB | 72% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
| 3 A100-PCIE-40GB Off | 00000000:3D:00.0 Off | 0 |
| N/A 42C P0 226W / 250W | 31506MiB / 40536MiB | 42% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
| 4 A100-PCIE-40GB Off | 00000000:9C:00.0 Off | 0 |
| N/A 47C P0 214W / 250W | 32905MiB / 40536MiB | 72% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
GPU 占用如下
此次训练任务,使用了 2,3,4 三张卡,编号为 2 的卡是主卡,主卡 GPU 占用会多 一个 G
GPU | 开启后 | 开启前 | GPU占用(开启后 - 开启前) |
2 | 35653MiB | 14568MiB | 21085 |
3 | 31506MiB | 11497MiB | 20009 |
4 | 32905MiB | 12920MiB | 19985 |
多卡训练GPU占用分析
多卡训练任务中,主卡需要承担和其他卡之前的通信,可以看到
- 实验一:0,1,2,3 四卡训练,0 号主卡多了 3个 通信 进程
- 实验二:4,5,6 三卡训练,4 号主卡多了 2 个通信 进程
- 因此,整体来看,多卡训练任务中,主卡会比其他卡 多占用 一个 G 左右的 GPU 资源
因此,有时候,多卡训练就可能会遇到:RuntimeError: CUDA out of memory. Tried to allocate 模型训练 GPU 显存不够报错总结
,此时,就可能是 刚好 主卡 资源不够的原因,关于该报错的分析,可以看我下面的这篇文章:
- 指定GPU运行和训练 python程序 、深度学习单卡、多卡 训练GPU设置【一文读懂】