docker 容器中如何查看cuda-CFANZ编程社区

在 Docker 容器中查看 CUDA 的方法

在现代深度学习和高性能计算中，CUDA（Compute Unified Device Architecture）提供了强大的并行计算能力，使得用户能够有效地利用 NVIDIA 显卡。然而，在使用 Docker 容器进行模型训练和推理时，确认 CUDA 是否正确安装并能正常工作至关重要。本文将详细介绍如何在 Docker 容器中查看和验证 CUDA 的安装情况，并给出具体的代码示例。

1. 确保 Docker 安装

在开始之前，请确保您的系统上已安装 Docker，并且支持 NVIDIA GPU 的 Docker 功能（通常称为 NVIDIA Docker）。如果尚未安装，可以参考以下步骤：

# 下载并安装 NVIDIA 驱动
sudo apt-get update
sudo apt-get install -y nvidia-driver-<version>

# 安装 Docker 和 NVIDIA Docker
curl -s -L  | sudo apt-key add -
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L  | sudo tee /etc/yum.repos.d/nvidia-docker.repo
sudo yum clean expire-cache
sudo yum install -y nvidia-docker2
sudo systemctl restart docker

2. 启动支持 CUDA 的 Docker 容器

要查看 CUDA 信息，首先需要启动一个支持 CUDA 的 Docker 容器。以下是使用 NVIDIA 提供的 CUDA 镜像启动容器的示例：

docker run --gpus all --rm nvidia/cuda:11.2.2-base nvidia-smi

在这个命令中：

--gpus all 指定使用所有可用的 GPU。
--rm 选项确保当容器停止时，它会被自动删除。
nvidia/cuda:11.2.2-base 是我们使用的 CUDA 基础镜像。

3. 查看 CUDA 版本

执行上述命令后，您将看到类似于以下输出的内容：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2       |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        GC-ID Status        GPU-Util  Memory-Usage |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute-Process |
| GPU-Util      | Processes |Device Name       |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage |
|=============================================================================|
|   No running processes found                                                 |
+-----------------------------------------------------------------------------+

在这个输出中，可以找到 CUDA 版本的信息，如 CUDA Version: 11.2。此表明 CUDA 安装成功，并可以正常使用。

4. 检查 CUDA 示例

为了确保 CUDA 工作正常，您还可以在容器中运行简单的 CUDA 示例。首先，启动一个交互式 Docker 容器：

docker run --gpus all -it --rm nvidia/cuda:11.2.2-devel bash

进入容器后，您可以执行以下步骤验证 CUDA 示例是否可以工作：

安装必要的构建工具：

apt-get update && apt-get install -y build-essential

下载并编译 CUDA 示例代码（假设 CUDA 示例已包含在基础镜像中）：

cuda-install-samples-11.2.sh /tmp
cd /tmp/NVIDIA_CUDA-11.2_Samples/1_Utilities/deviceQuery
make

运行 deviceQuery 示例：
```
./deviceQuery
```

如果一切正常，您将看到设备信息和可用 GPU 的详细信息，输出摘要中会包含”Result = PASS“。

结论

通过本文的方法，你应该能够在 Docker 容器中轻松查看和验证 CUDA 的安装情况。确认 CUDA 是否可用是使用深度学习框架进行高效训练和推理的关键步骤。确保按照文中提供的步骤操作，并根据具体 CUDA 版本调整命令。如果有进一步的问题或需要更多的功能，可以查阅 [NVIDIA官方文档]( Docker 环境中顺利地使用 CUDA！