模型训练前后显卡占用对比、多卡训练GPU占用分析【一文读懂】
生活随笔
收集整理的這篇文章主要介紹了
模型训练前后显卡占用对比、多卡训练GPU占用分析【一文读懂】
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
🥇 版權: 本文由【墨理學AI】原創首發、各位讀者大大、敬請查閱、感謝三連
🎉 聲明: 作為全網 AI 領域 干貨最多的博主之一,?? 不負光陰不負卿 ??
文章目錄
- 訓練前
- 開啟訓練后
- GPU 占用如下
- 多卡訓練GPU占用分析
- 📙 精選專欄
本次博文簡單記錄,多卡訓練任務中 ,各個 GPU 資源占用情況 ,內容較為基礎,后續有新的心再繼續補充
- 推薦文章: 指定GPU運行和訓練 python程序 、深度學習單卡、多卡 訓練GPU設置【一文讀懂】
訓練前
2 A100-PCIE-40GB Off | 00000000:39:00.0 Off | 0 | | N/A 26C P0 37W / 250W | 14568MiB / 40536MiB | 0% Default | | | | Disabled | +-------------------------------+----------------------+----------------------+ | 3 A100-PCIE-40GB Off | 00000000:3D:00.0 Off | 0 | | N/A 25C P0 39W / 250W | 11497MiB / 40536MiB | 26% Default | | | | Disabled | +-------------------------------+----------------------+----------------------+ | 4 A100-PCIE-40GB Off | 00000000:9C:00.0 Off | 0 | | N/A 35C P0 104W / 250W | 12920MiB / 40536MiB | 32% Default | | | | Disabled |
開啟訓練后
------------------------------+----------------------+----------------------+ | 2 A100-PCIE-40GB Off | 00000000:39:00.0 Off | 0 | | N/A 42C P0 236W / 250W | 35653MiB / 40536MiB | 72% Default | | | | Disabled | +-------------------------------+----------------------+----------------------+ | 3 A100-PCIE-40GB Off | 00000000:3D:00.0 Off | 0 | | N/A 42C P0 226W / 250W | 31506MiB / 40536MiB | 42% Default | | | | Disabled | +-------------------------------+----------------------+----------------------+ | 4 A100-PCIE-40GB Off | 00000000:9C:00.0 Off | 0 | | N/A 47C P0 214W / 250W | 32905MiB / 40536MiB | 72% Default | | | | Disabled | +-------------------------------+----------------------+----------------------+
GPU 占用如下
此次訓練任務,使用了 2,3,4 三張卡,編號為 2 的卡是主卡,主卡 GPU 占用會多 一個 G
| 2 | 35653MiB | 14568MiB | 21085 |
| 3 | 31506MiB | 11497MiB | 20009 |
| 4 | 32905MiB | 12920MiB | 19985 |
多卡訓練GPU占用分析
多卡訓練任務中,主卡需要承擔和其他卡之前的通信,可以看到
- 實驗一:0,1,2,3 四卡訓練,0 號主卡多了 3個 通信 進程
- 實驗二:4,5,6 三卡訓練,4 號主卡多了 2 個通信 進程
- 因此,整體來看,多卡訓練任務中,主卡會比其他卡 多占用 一個 G 左右的 GPU 資源
因此,有時候,多卡訓練就可能會遇到:RuntimeError: CUDA out of memory. Tried to allocate 模型訓練 GPU 顯存不夠報錯總結,此時,就可能是 剛好 主卡 資源不夠的原因,關于該報錯的分析,可以看我下面的這篇文章:
- 指定GPU運行和訓練 python程序 、深度學習單卡、多卡 訓練GPU設置【一文讀懂】
📙 精選專欄
- 🍊 深度學習模型訓練推理——基礎環境搭建推薦博文查閱順序【基礎安裝—認真幫大家整理了】——【1024???/li>
計算機視覺領域 八大專欄、不少干貨、有興趣可了解一下
- ?? 圖像風格轉換 —— 代碼環境搭建 實戰教程【關注即可閱】!
- 💜 圖像修復-代碼環境搭建-知識總結 實戰教程 【據說還行】
- 💙 超分重建-代碼環境搭建-知識總結 解秘如何讓白月光更清晰【脫單神器】
- 💛 YOLO專欄,只有實戰,不講道理 圖像分類【建議收藏】!
-
🍊 深度學習:環境搭建,一文讀懂
-
🍊 深度學習:趣學深度學習
-
🍊 落地部署應用:模型部署之轉換-加速-封裝
-
🍊 CV 和 語音數據集:數據集整理
-
🍊 點贊 👍 收藏 ?留言 📝 都是博主堅持寫作、更新高質量博文的最大動力!
總結
以上是生活随笔為你收集整理的模型训练前后显卡占用对比、多卡训练GPU占用分析【一文读懂】的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 职场小白做短视频,用好了这些辅助工具,每
- 下一篇: 很多人还不知道中视频计划手机上发布多端横