解决Mask RCNN训练时GPU内存溢出问题
首先自己是個(gè)小白對(duì)于如何使用GPU跑程序這個(gè)學(xué)習(xí)了一下:
(1)使用的是putty,安裝了Anaconda這個(gè)IDE環(huán)境,用的conda install tensorflow-gpu安裝的GPU版本tf,之前只是安裝了tf并沒有選擇GPU版本。安裝完GPU版本的tf,可以進(jìn)入python環(huán)境導(dǎo)入import tensorflow as tf 進(jìn)行測試一下,如果沒有報(bào)錯(cuò)即為成功。
(2)并在自己Train.ipynb代碼中添加 ? import os
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID"
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? os.environ["CUDA_VISIBLE_DEVICES"]="0"
即可調(diào)用GPU運(yùn)行。
(3)由于自己的圖片量太大,就報(bào)錯(cuò)大致意思是內(nèi)存溢出。
用top命令查看GPU進(jìn)程,發(fā)現(xiàn)自己開了好多沒關(guān)占用內(nèi)存量,所以重啟了一下服務(wù)器,
并將一部分參數(shù)進(jìn)行修改將IMAGE_MIN_DIM分別調(diào)小一倍。STEPS_PER_EPOCH=1 ?? VALIDATION_STEPS=1? 即可進(jìn)行重新訓(xùn)練。
總結(jié)
以上是生活随笔為你收集整理的解决Mask RCNN训练时GPU内存溢出问题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 记录服务器连接jupyter noteb
- 下一篇: coco格式的数据集进行训练