在服务器上安装 Ubuntu 用于 CUDA 和深度学习框架(如 PyTorch、TensorFlow)时,选择一个稳定、长期支持(LTS)且与 NVIDIA 驱动和 CUDA 工具包兼容性良好的版本非常重要。以下是推荐和建议:
✅ 推荐版本:Ubuntu 22.04 LTS
📌 理由:
-
长期支持(LTS)
- 支持周期到 2027 年 4 月,适合生产环境和服务器部署。
- 安全更新和内核维护更可靠。
-
NVIDIA 官方支持良好
- NVIDIA 的官方驱动、CUDA Toolkit、cuDNN、NGC(NVIDIA GPU Cloud)镜像都对 Ubuntu 22.04 提供了完整支持。
- 多数最新的 GPU(如 A100、H100、RTX 30/40 系列)在该系统下驱动安装顺畅。
-
深度学习框架兼容性优秀
- PyTorch:官方预编译的 CUDA 版本(如 11.8、12.1)均支持 Ubuntu 22.04。
- TensorFlow:从 TensorFlow 2.10 开始支持 CUDA 11.2+,Ubuntu 22.04 是主流开发平台之一。
- JAX、ONNX Runtime 等也均有良好支持。
-
软件包管理成熟
apt包管理器稳定,Python(3.10 默认)、pip、conda、docker、nvidia-docker 等生态完善。
-
云服务商广泛使用
- AWS、Google Cloud、Azure 等主流云平台默认提供 Ubuntu 22.04 + GPU 实例镜像。
⚠️ 不推荐的版本:
| 版本 | 原因 |
|---|---|
| Ubuntu 23.04 / 23.10 | 非 LTS,生命周期短,不适合生产服务器。部分驱动或软件包可能不稳定。 |
| Ubuntu 20.04 LTS | 虽然仍可用,但已逐步被替代。某些新 GPU(如 H100)或新版 CUDA(12.x)支持不如 22.04 完善。 |
| Ubuntu 18.04 LTS | 已接近 EOL(2025 年停止支持),不推荐新项目使用。 |
🔧 安装建议(最佳实践):
-
安装 Ubuntu 22.04.4 LTS Server 版本
- 下载地址:https://ubuntu.com/download/server
-
安装 NVIDIA 驱动
sudo ubuntu-drivers autoinstall # 或手动下载官方.run 文件安装 -
安装 CUDA Toolkit
- 推荐使用
.deb (network)安装方式:wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda-repo-ubuntu2204-12-4-local_12.4.0-550.54.14-1_amd64.deb sudo dpkg -i cuda-repo-ubuntu2204-12-4-local_12.4.0-550.54.14-1_amd64.deb sudo cp /var/cuda-repo-ubuntu2204-12-4-local/cuda-*-keyring.gpg /usr/share/keyrings/ sudo apt-get update sudo apt-get install cuda - 添加环境变量:
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc
- 推荐使用
-
安装 cuDNN 和 NCCL(按需)
-
使用 Conda 或 pip 安装深度学习框架
- 使用 PyTorch 官网生成安装命令(选择 CUDA 11.8 或 12.1):
https://pytorch.org/get-started/locally/ - TensorFlow 可通过 pip 安装
tensorflow[and-cuda](2.13+)。
- 使用 PyTorch 官网生成安装命令(选择 CUDA 11.8 或 12.1):
-
使用 Docker(推荐生产环境)
- 使用 NVIDIA 官方 NGC 镜像:
docker run --gpus all -it nvcr.io/nvidia/pytorch:24.04-py3
- 使用 NVIDIA 官方 NGC 镜像:
✅ 总结
| 项目 | 推荐选择 |
|---|---|
| 操作系统 | Ubuntu 22.04 LTS |
| CUDA 版本 | 12.1 或 12.4(对应 PyTorch/TensorFlow 支持) |
| Python 环境 | Conda / venv + pip |
| 部署方式 | Docker + nvidia-docker(最佳) |
💡 一句话总结:对于新服务器部署,优先选择 Ubuntu 22.04 LTS,它在稳定性、兼容性和生态支持方面是目前 CUDA 与深度学习的最佳选择。
如有特定硬件(如 H100)或框架要求,可进一步调整 CUDA 版本。欢迎补充具体需求!
CLOUD技术笔记