随着本人搬砖能力越来越强,趁着ai的东风,公司为ai搞了一台服务器,让我给他安装显卡驱动等。作为一个码农gpt,使用了网上大量资料分析,终于安装好了,先在ollama中试了试很强,gpu干到100%。
1. 系统准备
系统环境 ubuntu 20.4.03 ,显卡A100
先更新下系统组件
sudo apt update && sudo apt upgrade -y
sudo reboot
禁用 Nouveau 驱动
在安装新的驱动时如果发生如下报错,则需要禁用Nouveau 驱动:
ERROR: The Nouveau kernel driver is currently in use by your system
1.编辑黑名单
vi /etc/modprobe.d/blacklist-nouveau.conf
2.在黑名单最后加入以下内容
blacklist nouveau
options nouveau modeset\=0
3.更新使其生效
sudo update-initramfs -u
4.重启机器
reboot
5.检查是否禁用成功,没有内容输出,说明禁用成功。
lspci | grep nouveau
2. 安装显卡驱动
1.驱动下载
先到官网:https://www.nvidia.cn/drivers/lookup/
在下图中选择你的显卡+系统版本,这里指定cuda为12.8,下载的驱动版本是570(后面截图会见到)
下图点击查看,到下载驱动页面
点击下图的下载链接,先将驱动下载到本地电脑,无法在服务器上使用wget+url方式下载,老是报403,老老实实下载上传吧
2. 驱动安装
将下载好的驱动放到云服务器上。执行
执行预安装
dpkg -i nvidia-driver-local-repo-ubuntu2004-570.124.06_1.0-1_amd64.deb
出现下面的题型,是让安装key,直接复制命令执行安装key就行了
安装gpg的key
sudo cp /var/nvidia-driver-local-repo-ubuntu2004-570.124.06/nvidia-driver-local-678B2310-keyring.gpg /usr/share/keyrings/
再次运行
dpkg -i nvidia-driver-local-repo-ubuntu2004-570.124.06_1.0-1_amd64.deb
这里有个ubuntu 的概念和之前用的centos系安装方式不太一样,这个命令只是 解压和更新到软件仓库,并没有真正安装,还要执行下面的命令真正安装
执行安装
apt update
apt install -y nvidia-driver-570
重启(可选)
reboot
验证安装
nvidia-smi
如果出现下图说明安装成功,下图中也要求了cuda的版本是 12.8版本,后面的cuda别安装错误了
如果之前安装过相关组件报错
Failed to initialize NVML: Driver/library version mismatch
NVML library version: 570.86
这里并不是因为驱动没有安装好,或者系统+显卡不支持 570版本,是因为安装的显卡驱动和 NVML(高版本)组件不匹配。我在安装过程中因为duda安装过程中又安装了一次驱动,导致报错了。我以为要降级,使用了 550,但是还是不行。其实正常安装570版本(按最新的装),然后安装对应的18.0的cuda就行了,如果还是不行 重启试试。
3.安装cuda
需要 GPU 加速,而 CUDA 是核心库之一。
3.1 下载
到官网 :https://developer.nvidia.com/cuda-toolkit-archive
因为驱动安装后也提醒按照驱动,需要12.8,这里下载 12.8.0 进行安装
按照下图选择你的平台+系统版本,这里选择 runfile(local) 下载使用run文件+离线进行安装
这个cuda很贴心,将安装命令都写了,那么就按照官网写的安装命令来
3.2 安装
下载安装包,注意这个是官网的命令
wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda_12.8.0_570.86.10_linux.run
执行安装
sudo sh cuda_12.8.0_570.86.10_linux.run
注意,因为cuda比较大,文件大小5G+,所以需要等一会才能出现下面界面
图一肯定选择 Continue
下图输入 accept
在下图中,将第一个Driver 给去掉,驱动已经安装了,这里再安装一次怕出问题,然后切换到 Install,点击enter进行确认
如果中间提示需要覆盖更新啥的,进行确定
安装完成
3.3 配置环境变量
编写环境变量文件
sudo vim ~/.bashrc
在文件末尾填写
export PATH=/usr/local/cuda-12.8/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
:wq保存退出后,刷新环境变量
source ~/.bashrc
验证
nvcc -V
4. 安装cuDNN
cuDNN 是深度学习加速库
1. 下载
官网地址:
https://developer.nvidia.com/cudnn-downloads
如果访问的页面过于简单,是你网络有问题(例如我们公司网络),
2. 安装
下载
wget https://developer.download.nvidia.com/compute/cudnn/9.8.0/local_installers/cudnn-local-repo-ubuntu2004-9.8.0_1.0-1_amd64.deb
初始化
sudo dpkg -i cudnn-local-repo-ubuntu2004-9.8.0_1.0-1_amd64.deb
sudo cp /var/cudnn-local-repo-ubuntu2004-9.8.0/cudnn-*-keyring.gpg /usr/share/keyrings/
安装
sudo apt-get update
sudo apt-get -y install cudnn
记得重启啊,要不然模型用不着
5. 模型结合+测试
这里拿ollama作为客户端示例,编辑环境变量
vi ~/.bashrc
环境变量最后一样添加
export OLLAMA_GPU_LAYER=cuda
使环境变量生效
source ~/.bashrc
重启 ollama
systemctl restart ollama
使用 下面两个命令查看显卡使用情况。
nvidia-smi
ollama [s
跑个测试测试的,效果还不错。
评论区