目 录CONTENT

文章目录

大模型ai-ubuntu 安装 英伟达 显卡驱动 cuda安装 cudnn

gsh456
2025-03-15 / 0 评论 / 0 点赞 / 52 阅读 / 0 字

随着本人搬砖能力越来越强,趁着ai的东风,公司为ai搞了一台服务器,让我给他安装显卡驱动等。作为一个码农gpt,使用了网上大量资料分析,终于安装好了,先在ollama中试了试很强,gpu干到100%。

1. 系统准备

系统环境 ubuntu 20.4.03 ,显卡A100

先更新下系统组件

sudo apt update && sudo apt upgrade -y
sudo reboot

禁用 Nouveau 驱动

在安装新的驱动时如果发生如下报错,则需要禁用Nouveau 驱动:

ERROR: The Nouveau kernel driver is currently in use by your system

1.编辑黑名单

vi /etc/modprobe.d/blacklist-nouveau.conf

2.在黑名单最后加入以下内容

blacklist nouveau
options nouveau modeset\=0

3.更新使其生效

sudo update-initramfs -u

4.重启机器

reboot

5.检查是否禁用成功,没有内容输出,说明禁用成功。

lspci | grep nouveau

2. 安装显卡驱动

1.驱动下载

先到官网:https://www.nvidia.cn/drivers/lookup/

在下图中选择你的显卡+系统版本,这里指定cuda为12.8,下载的驱动版本是570(后面截图会见到)

下图点击查看,到下载驱动页面

​​

点击下图的下载链接,先将驱动下载到本地电脑,无法在服务器上使用wget+url方式下载,老是报403,老老实实下载上传吧

2. 驱动安装

将下载好的驱动放到云服务器上。执行

执行预安装

dpkg -i nvidia-driver-local-repo-ubuntu2004-570.124.06_1.0-1_amd64.deb

出现下面的题型,是让安装key,直接复制命令执行安装key就行了

安装gpg的key

sudo cp /var/nvidia-driver-local-repo-ubuntu2004-570.124.06/nvidia-driver-local-678B2310-keyring.gpg /usr/share/keyrings/

再次运行

dpkg -i nvidia-driver-local-repo-ubuntu2004-570.124.06_1.0-1_amd64.deb

这里有个ubuntu 的概念和之前用的centos系安装方式不太一样,这个命令只是 解压和更新到软件仓库,并没有真正安装,还要执行下面的命令真正安装

执行安装

apt update
apt install -y nvidia-driver-570

重启(可选)

reboot

验证安装

nvidia-smi

如果出现下图说明安装成功,下图中也要求了cuda的版本是 12.8版本,后面的cuda别安装错误了

如果之前安装过相关组件报错

Failed to initialize NVML: Driver/library version mismatch
NVML library version: 570.86

这里并不是因为驱动没有安装好,或者系统+显卡不支持 570版本,是因为安装的显卡驱动和 NVML(高版本)组件不匹配。我在安装过程中因为duda安装过程中又安装了一次驱动,导致报错了。我以为要降级,使用了 550,但是还是不行。其实正常安装570版本(按最新的装),然后安装对应的18.0的cuda就行了,如果还是不行 重启试试。

3.安装cuda

需要 GPU 加速,而 CUDA 是核心库之一。

3.1 下载

到官网 :https://developer.nvidia.com/cuda-toolkit-archive

因为驱动安装后也提醒按照驱动,需要12.8,这里下载 12.8.0 进行安装

​​

按照下图选择你的平台+系统版本,这里选择 runfile(local) 下载使用run文件+离线进行安装

这个cuda很贴心,将安装命令都写了,那么就按照官网写的安装命令来

3.2 安装

下载安装包,注意这个是官网的命令

wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda_12.8.0_570.86.10_linux.run

执行安装

sudo sh cuda_12.8.0_570.86.10_linux.run

注意,因为cuda比较大,文件大小5G+,所以需要等一会才能出现下面界面

图一肯定选择 Continue

​​

下图输入 accept

在下图中,将第一个Driver 给去掉,驱动已经安装了,这里再安装一次怕出问题,然后切换到 Install,点击enter进行确认

​​如果中间提示需要覆盖更新啥的,进行确定

安装完成

​​

3.3 配置环境变量

编写环境变量文件

sudo vim ~/.bashrc

在文件末尾填写

export PATH=/usr/local/cuda-12.8/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

:wq保存退出后,刷新环境变量

source ~/.bashrc

验证

nvcc -V

​​

4. 安装cuDNN

cuDNN 是深度学习加速库

1. 下载

官网地址:

https://developer.nvidia.com/cudnn-downloads

如果访问的页面过于简单,是你网络有问题(例如我们公司网络),

2. 安装

下载

wget https://developer.download.nvidia.com/compute/cudnn/9.8.0/local_installers/cudnn-local-repo-ubuntu2004-9.8.0_1.0-1_amd64.deb

初始化

sudo dpkg -i cudnn-local-repo-ubuntu2004-9.8.0_1.0-1_amd64.deb
sudo cp /var/cudnn-local-repo-ubuntu2004-9.8.0/cudnn-*-keyring.gpg /usr/share/keyrings/

安装

sudo apt-get update
sudo apt-get -y install cudnn

得重启啊,要不然模型用不着

5. 模型结合+测试

这里拿ollama作为客户端示例,编辑环境变量

vi ~/.bashrc

环境变量最后一样添加

export OLLAMA_GPU_LAYER=cuda

使环境变量生效

source ~/.bashrc

重启 ollama

systemctl restart ollama

使用 下面两个命令查看显卡使用情况。

nvidia-smi
ollama [s 

跑个测试测试的,效果还不错。

0

评论区