深度学习的服务器Linux服务器在执行结束 reboot 后在
执行nvidia-smi 命令之下 nvidia-sim
报错:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.
nvidia-smi
简称NVSMI,提供监控GPU使用情况和更改GPU状态的功能,是一个跨平台工具,支持所有标准的NVIDIA驱动程序支持的Linux和WindowsServer 2008 R2 开始的64位系统。这个工具是N卡驱动附带的,只要装好驱动,就会有这个命令
但是在进行reboot命令后,报错如上
报错原因:
linux系统主机重启过程中吗,进行了Linux内核的更新使得Linux系统的内核与显卡的版本出现了不匹配的结果
解决方法:
更新显卡驱动吗,使得内核与显卡驱动的版本进行匹配
debug记录:
- 查看cuda版本以及驱动版本命令
nvcc -V
2.查看已经安转的驱动版本命令
ls /usr/src | grep nvidia
显示得到nvidia的版本号码
进行以下的更新操作
sudo apt-get install dkms
sudo dkms install -m nvidia -v {your version}
安装结束,修复完毕