當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

训练PyTorch模型遇到显存不足的情况怎么办

發布時間：2023/12/8 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了训练PyTorch模型遇到显存不足的情况怎么办小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在跑代碼的過程中，遇到了這個問題，當前需要分配的顯存在600MiB以下

RuntimeError: CUDA out of memory. Tried to allocate 60.00 MiB (GPU 0; 10.76 GiB total capacity; 8.71 GiB already allocated; 59.00 MiB free; 8.81 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

然后參考?《南溪的目標檢測學習筆記》——訓練PyTorch模型遇到顯存不足的情況怎么辦(“OOM: CUDA out of memory“)_墨門-CSDN博客

減小batch_size的數量

最小的數量可以設置為2；

本文目的：修改batch_size，在哪修改batch_size呢?

在train.py文件下，參數設置：?

很奇怪？

電腦的GPU是6G，為啥連4都跑不了？?

如何設置batchsize

batchsize過小：每次計算的梯度不穩定，引起訓練的震蕩比較大，很難收斂。

batchsize過大：

（1）提高了內存利用率，大矩陣乘法并行計算效率提高。

（2）計算的梯度方向比較準，引起的訓練的震蕩比較小。

（3）跑完一次epoch所需要的迭代次數變小，相同數據量的數據處理速度加快。

缺點：容易內容溢出，想要達到相同精度，epoch會越來越大，容易陷入局部最優，泛化性能差。

batchsize設置：通常10到100，一般設置為2的n次方。

原因：計算機的gpu和cpu的memory都是2進制方式存儲的，設置2的n次方可以加快計算速度。

總結

以上是生活随笔為你收集整理的训练PyTorch模型遇到显存不足的情况怎么办的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： GPU 显存不足的讨论（有用转载）
下一篇：在显存不足时，增加batch size的