GPU环境配置指南(Ubuntu16.04+CUDA+CUDNN)
前言
這兩天由于種種原因,反復重裝系統并配置了深度學習開發環境,無意中便總結了一份環境配置指南出來,所幸再稍加整理,和大家分享出來。
本指南確認無誤的環境是:
系統是Ubuntu16.04
GPU是NVIDIA GTX1070
CUDA安裝8.0和9.0均可
一、重裝系統、配置網絡
這個就不必多說了,首先重裝好系統
然后配置好網絡:配置ip,網關等,確保可以上網即可。
二、安裝必備工具:
根據自己的需求,安裝一些必要工具
更換國內源
參考教程
更新
$ sudo apt-get update
安裝vim
$ sudo apt-get install vim
安裝ssh
$ sudo apt-get install openssh-server
運行ssh:
$ sudo service ssh start
安裝傳輸工具rzsz
sudo apt-get install lrzsz
三、安裝CUDA
為了安裝nvidia驅動,我們首先需要禁用Ubuntu系統自帶的驅動nouveau
測試nouveau是否正在運行,有輸出則代表nouveau正在加載
$ lsmod | grep nouveau
將nouveau加入黑名單,禁用nouveau
$ sudo vi /etc/modprobe.d/blacklist.conf
加入下面的內容
blacklist nouveau
執行命令更新狀態
$ sudo update-initramfs –u
重啟,然后查看是否禁用成功
$ reboot
$ lsmod | grep nouveau
如果無任何輸出,說明禁用成功(登陸過程中,如果發現字體變大,其實就說明禁用成功了)
禁用成功后準備安裝CUDA,首先到官網下載好對應版本的安裝文件
現在切換到命令行界面,按下Alt + Ctrl + F1
首先關閉圖形界面
$ sudo service lightdm stop
如果安裝了驅動,則刪除已有的nvidia驅動
$ sudo apt-get remove --purge nvidia*
安裝CUDA9.0(CUDA8.0的安裝完全一致)
sudo sh cuda_9.0.176_384.81_linux.run
cuda_9.0.176_384.81_linux.run里面自帶NVIDIA驅動384.81,按照提示默認安裝即可。
不需要像網上的某些教程說的那樣CUDA和驅動分開裝,不確定的選項就按默認提示選擇即可。
可能出現的錯誤:
原因:內核版本過高
解決方案1:參考這篇博客https://blog.csdn.net/lewif/article/details/79625151,(我沒有試過,需要自行確認是否可行)
解決方案2:重裝系統,我當時就是這樣暴力的解決問題的,簡單有效。。。
原因:禁用沒有成功,請確認是否完全按照上面的介紹進行
可以通過以下命令確認安裝是否成功,以及版本是否正確
顯示顯卡驅動信息命令
$nvidia-smi
查看NVIDIA驅動的版本
$ cat /proc/driver/nvidia/version
檢查CUDA的版本
$ cat /usr/local/cuda/version.txt
一切順利的話,恢復圖形界面
$ sudo service lightdm start
設置環境變量
在/etc/profile結尾添加如下兩句
export PATH=/usr/local/cuda-9.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64
查看cuda是否安裝成功
$ source /etc/profile
$ nvcc -V
2020/4/19 補充:
今天又裝了個Ubuntu 18.04,又踩了些坑
發現18.04還是驅動,CUDA分開裝比較簡單
驅動也不需要像上面介紹的那樣先禁用nouveau,再裝新驅動,一行命令就能搞定:
$ sudo ubuntu-drivers autoinstall
詳見How to install the NVIDIA drivers on Ubuntu 18.04 Bionic Beaver Linux
四、安裝cudnn
下載cudnn,
去官網下載cudnn,或者在網上下載,網上資源也很多
注意下載的cudnn的版本需要與CUDA的版本是對應的
安裝cudnn
首先解壓出名為cuda的目錄,然后執行命令:
$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include
$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
$ sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
五、安裝Anaconda
$ bash Anaconda相應版本.sh
六、安裝tensorflow
安裝tensorflow很簡單,僅僅需要注意安裝的版本是否合適!
確認安裝的是GPU的版本,如果你有GPU的顯卡
確認tensorflow版本與CUDA是否匹配
$ pip install tensorflow-gpu==1.6
注1:CUDA9.0 與 tensorflow1.6 以上是對應的,如果是CUDA8.0,建議裝tensorflow1.2
在python中 import tensorflow as tf 測試安裝是否成功
注2:如果無法拿到線上機root權限,上述的cudnn安裝方法無法完成。
此時,import tensorflow 會報錯:ImportError: libcudnn.so.7: cannot open shared object file: No such file or directory
替代解決方案是將所需的libcudnn.so.7拷貝到anaconda的lib目錄下,這樣tendorflow也能找到對應的文件
七、安裝opencv
自動下載安裝opencv
$pip install opencv-python
或者手動下載whl文件安裝:
$pip install opencv-python相應版本.whl
安裝opencv后,import cv2進行測試
如果遇到了報缺少lib的錯誤,只需找到對應的lib,將文件拷貝到Anaconda路徑/lib下即可
尋找lib的方式有兩種:
1.如果你的其他機器并不會報錯,那這臺機器一定有你需要的lib文件,試試看/usr/lib64/或者其他地方有沒有你想要的文件
2.去網上下載
總結
以上是生活随笔為你收集整理的GPU环境配置指南(Ubuntu16.04+CUDA+CUDNN)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 区块链读书笔记一
- 下一篇: dockerfile拉取私库镜像_还在用