1. 安装cuda
登录进自己的远程Ubuntu服务器shell中,通过lsb_release -a查看系统版本,如下所示。可以看到Ubuntu是18.04的。
ubuntu@VM-0-10-ubuntu:~/anaconda3/bin$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description: Ubuntu 18.04.4 LTS
Release: 18.04
Codename: bionic
然后通过uname -a指令查看系统架构,如下所示,可以看到架构是x86的。
ubuntu@VM-0-10-ubuntu:~/anaconda3/bin$ uname -a
Linux VM-0-10-ubuntu 4.15.0-159-generic #167-Ubuntu SMP Tue Sep 21 08:55:05 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
进入 CUDA Toolkit 11.5 Update 1 Downloads | NVIDIA Developer 中。进入网页中根据上面的信息进行选择。
出现如图安装步骤教程,接下来只需要按照网页中的步骤进行安装即可。
2. anaconda 安装
为了让python版本管理更加方便,使用anaconda进行python环境管理。貌似ubuntu的apt没法直接install anaconda,所以在清华软件镜像网站上下载,Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source MirrorIndex of /anaconda/archive/ | 清华大学开源软件镜像站,致力于为国内和校内用户提供高质量的开源软件镜像、Linux 镜像源服务,帮助用户更方便地获取开源软件。本镜像站由清华大学 TUNA 协会负责运行维护。https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/进入网页后,点击进行下载。
下载完成后通过ftp移动到云服务器上。
运行sh Anaconda3-4.0.0-Linux-x86_64.sh进行安装,过程较为漫长,耐心等待。
按下enter或者yes均可,然后会遇到
最后,提示信息“Do you wish to proceed with the installation of Microsoft VSCode? [yes|no]”,输入no;
这时候在控制台输入conda是无法识别的,因为anaconda还没有设置到环境变量中
通过 sudo vi ~/.bashrc 指令进行环境变量配置,在.bashrc 文件末尾添加:
export PATH="/home/ubuntu/anaconda3/bin:$PATH"
然后:wq! 退出文件编辑并保存,通过 source ~/.bashrc 指令让文件配置生效。
配置OK后就可以通过输入conda指令测试安装是否成功。
ubuntu@VM-0-10-ubuntu:~$ conda
usage: conda [-h] [-V] command ...
conda is a tool for managing and deploying applications, environments and packages.
Options:
positional arguments:
......(省略)
接下使用conda创建虚拟环境:
conda create -n tensorflow2 python=3.7
代码中 tensorflow2 是环境名字,取啥都行,后面python=3.7是python版本,建议安装3.7+的版本,貌似tensorflow2.7是需要python3.7+的。安装需要等待一段时间。
安装完成后使用source activate tensorflow2(上面自己取的环境名)来激活环境。激活后控制台会在前面显示:
(tensorflow2) ubuntu@VM-0-10-ubuntu:~$
这样环境就激活成功了,另外可以使用source deactivate tensorflow2取消激活。
3. 安装tensorflow
因为前面anaconda安装以及环境配置成功后可能直接输入python还不是anaconda的python环境,所以为了保守起见,我这儿是cd到anaconda的bin路径中通过pip安装(anaconda文件夹下有bin文件夹,bin中就放着python、pip、conda等软件)。
注意路径、路径、路径!
如果你想确认自己所使用的python和pip到底是不是tensorflow的pip和python,你可以选择pip list查看库进行区分或者直接进入python,查看python版本。
(tensorflow) ubuntu@10-13-131-146:~/anaconda3/bin$ pip install tensorflow
安装完成之后,使用python环境进行测试
(tensorflow) ubuntu@10-13-131-146:~/anaconda3/bin$ python
Python 3.7.11 (default, Jul 27 2021, 14:32:16)
[GCC 7.5.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import tensorflow
>>>
如果没有什么警告或者报错的话,说明安装非常成功,可以使用了tensorflow了。
但是也有可能前面的操作有误,会出现警告:
(tensorflow) ubuntu@10-13-131-146:~/anaconda3/bin$ python
Python 3.7.11 (default, Jul 27 2021, 14:32:16)
[GCC 7.5.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import tensorflow
2022-01-06 00:22:03.302140: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2022-01-06 00:22:03.302285: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
>>>
警告中提到:libcudart.so.11.0,说明是cuda版本安装有误,需要安装cuda11的,回到第一步;如果是libcudart.so.10.0,那就安装cuda10的,也在第一步中的链接网站中,自己找吧,百度也有。
ubuntu中anaconda的环境真是一个麻烦的事儿,直接输入python可能会指向系统默认的python,pip也可能指向系统默认的pip,也许可以考虑将系统的python卸载掉。
教程到这儿就结束了,有任何问题请在评论区留言,有空就回复。