训练PyTorch模型遇到显存不足的情况怎么办
在跑代碼的過程中,遇到了這個問題,當前需要分配的顯存在600MiB以下
RuntimeError: CUDA out of memory. Tried to allocate 60.00 MiB (GPU 0; 10.76 GiB total capacity; 8.71 GiB already allocated; 59.00 MiB free; 8.81 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
然后參考?《南溪的目標檢測學習筆記》——訓練PyTorch模型遇到顯存不足的情況怎么辦(“OOM: CUDA out of memory“)_墨門-CSDN博客
減小batch_size的數量
最小的數量可以設置為2;
本文目的:修改batch_size,在哪修改batch_size呢?
在train.py文件下,參數設置:?
很奇怪?
電腦的GPU是6G,為啥連4都跑不了??
如何設置batchsize
batchsize過小:每次計算的梯度不穩定,引起訓練的震蕩比較大,很難收斂。
batchsize過大:
(1)提高了內存利用率,大矩陣乘法并行計算效率提高。
(2)計算的梯度方向比較準,引起的訓練的震蕩比較小。
(3)跑完一次epoch所需要的迭代次數變小,相同數據量的數據處理速度加快。
缺點:容易內容溢出,想要達到相同精度,epoch會越來越大,容易陷入局部最優,泛化性能差。
batchsize設置:通常10到100,一般設置為2的n次方。
原因:計算機的gpu和cpu的memory都是2進制方式存儲的,設置2的n次方可以加快計算速度。
總結
以上是生活随笔為你收集整理的训练PyTorch模型遇到显存不足的情况怎么办的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GPU 显存不足的讨论(有用转载)
- 下一篇: 在显存不足时,增加batch size的