大模型ai-ubuntu 安装英伟达显卡驱动 cuda安装 cudnn -GBlog

随着本人搬砖能力越来越强，趁着ai的东风，公司为ai搞了一台服务器，让我给他安装显卡驱动等。作为一个码农gpt，使用了网上大量资料分析，终于安装好了，先在ollama中试了试很强，gpu干到100%。

1. 系统准备

系统环境 ubuntu 20.4.03 ，显卡A100

先更新下系统组件

sudo apt update && sudo apt upgrade -y
sudo reboot

禁用 Nouveau 驱动

在安装新的驱动时如果发生如下报错，则需要禁用Nouveau 驱动：

ERROR: The Nouveau kernel driver is currently in use by your system

1.编辑黑名单

vi /etc/modprobe.d/blacklist-nouveau.conf

2.在黑名单最后加入以下内容

blacklist nouveau
options nouveau modeset\=0

3.更新使其生效

sudo update-initramfs -u

4.重启机器

reboot

5.检查是否禁用成功，没有内容输出，说明禁用成功。

lspci | grep nouveau

2. 安装显卡驱动

1.驱动下载

先到官网：https://www.nvidia.cn/drivers/lookup/

在下图中选择你的显卡+系统版本，这里指定cuda为12.8，下载的驱动版本是570(后面截图会见到)

下图点击查看，到下载驱动页面

点击下图的下载链接，先将驱动下载到本地电脑，无法在服务器上使用wget+url方式下载，老是报403，老老实实下载上传吧

2. 驱动安装

将下载好的驱动放到云服务器上。执行

执行预安装

dpkg -i nvidia-driver-local-repo-ubuntu2004-570.124.06_1.0-1_amd64.deb

出现下面的题型，是让安装key，直接复制命令执行安装key就行了

安装gpg的key

sudo cp /var/nvidia-driver-local-repo-ubuntu2004-570.124.06/nvidia-driver-local-678B2310-keyring.gpg /usr/share/keyrings/

再次运行

dpkg -i nvidia-driver-local-repo-ubuntu2004-570.124.06_1.0-1_amd64.deb

这里有个ubuntu 的概念和之前用的centos系安装方式不太一样，这个命令只是解压和更新到软件仓库，并没有真正安装，还要执行下面的命令真正安装

执行安装

apt update
apt install -y nvidia-driver-570

重启(可选)

reboot

验证安装

nvidia-smi

如果出现下图说明安装成功，下图中也要求了cuda的版本是 12.8版本，后面的cuda别安装错误了

如果之前安装过相关组件报错

Failed to initialize NVML: Driver/library version mismatch
NVML library version: 570.86

这里并不是因为驱动没有安装好，或者系统+显卡不支持 570版本，是因为安装的显卡驱动和 NVML(高版本)组件不匹配。我在安装过程中因为duda安装过程中又安装了一次驱动，导致报错了。我以为要降级，使用了 550，但是还是不行。其实正常安装570版本（按最新的装），然后安装对应的18.0的cuda就行了，如果还是不行重启试试。

3.安装cuda

需要 GPU 加速，而 CUDA 是核心库之一。

3.1 下载

到官网：https://developer.nvidia.com/cuda-toolkit-archive

因为驱动安装后也提醒按照驱动，需要12.8，这里下载 12.8.0 进行安装

按照下图选择你的平台+系统版本，这里选择 runfile(local) 下载使用run文件+离线进行安装

这个cuda很贴心，将安装命令都写了，那么就按照官网写的安装命令来

3.2 安装

下载安装包，注意这个是官网的命令

wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda_12.8.0_570.86.10_linux.run

执行安装

sudo sh cuda_12.8.0_570.86.10_linux.run

注意，因为cuda比较大，文件大小5G+，所以需要等一会才能出现下面界面

图一肯定选择 Continue

下图输入 accept

在下图中，将第一个Driver 给去掉，驱动已经安装了，这里再安装一次怕出问题，然后切换到 Install，点击enter进行确认

如果中间提示需要覆盖更新啥的，进行确定

安装完成

3.3 配置环境变量

编写环境变量文件

sudo vim ~/.bashrc

在文件末尾填写

export PATH=/usr/local/cuda-12.8/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

:wq保存退出后，刷新环境变量

source ~/.bashrc

验证

nvcc -V

4. 安装cuDNN

cuDNN 是深度学习加速库

1. 下载

官网地址：

https://developer.nvidia.com/cudnn-downloads

如果访问的页面过于简单，是你网络有问题(例如我们公司网络)，

2. 安装

下载

wget https://developer.download.nvidia.com/compute/cudnn/9.8.0/local_installers/cudnn-local-repo-ubuntu2004-9.8.0_1.0-1_amd64.deb

初始化

sudo dpkg -i cudnn-local-repo-ubuntu2004-9.8.0_1.0-1_amd64.deb
sudo cp /var/cudnn-local-repo-ubuntu2004-9.8.0/cudnn-*-keyring.gpg /usr/share/keyrings/

安装

sudo apt-get update
sudo apt-get -y install cudnn

记得重启啊，要不然模型用不着

5. 模型结合+测试

这里拿ollama作为客户端示例，编辑环境变量

vi ~/.bashrc

环境变量最后一样添加

export OLLAMA_GPU_LAYER=cuda

使环境变量生效

source ~/.bashrc

重启 ollama

systemctl restart ollama

使用下面两个命令查看显卡使用情况。

nvidia-smi

ollama [s

跑个测试测试的，效果还不错。

目录CONTENT

大模型ai-ubuntu 安装英伟达显卡驱动 cuda安装 cudnn

1. 系统准备

禁用 Nouveau 驱动

2. 安装显卡驱动

1.驱动下载

2. 驱动安装

3.安装cuda

3.1 下载

3.2 安装

3.3 配置环境变量

4. 安装cuDNN

1. 下载

2. 安装

5. 模型结合+测试

评论区

大模型ai-ubuntu 安装 英伟达 显卡驱动 cuda安装 cudnn

1. 系统准备

禁用 Nouveau 驱动

2. 安装显卡驱动

1.驱动下载

2. 驱动安装

3.安装cuda

3.1 下载

3.2 安装

3.3 配置环境变量

4. 安装cuDNN

1. 下载

2. 安装

5. 模型结合+测试

评论区

大模型ai-ubuntu 安装英伟达显卡驱动 cuda安装 cudnn