深度学习核心技术精讲100篇(六十六)- 基于LXD的GPU算力虚拟化(附解决方案代码)
搭建需求
由于當前算法和模型對GPU的強烈需求,實驗室購置了一臺性能強悍的GPU云服務器供大家一起使用。如果所有人對這臺服務器擁有控制權是十分危險的,例如誤刪除他人文件,弄亂他人環境等。最簡單的方法是為每位同學配置一臺虛擬機,但硬件虛擬化造成大量的資源浪費,同時GPU并不支持常規的虛擬化。
?云計算資源因安全措施考慮會進行如下設置:?設置訪問白名單,限制僅實驗室環境下訪問。外部環境若需要訪問計算資源,需先通過VPN接入實驗室內網?僅開放用于SSH連接的端口到公網
基于上述背景整理提出以下需求:
?獨立:不同用戶的環境相互獨立,可同時使用。?隔離:用戶不能直接操作宿主機,即用戶不能逃逸至宿主機。用戶訪問宿主機的唯一通道是共享文件夾。?自由:用戶可以像使用一臺自己的Linux機器一樣,通過SSH訪問,并擁有主機的所有權限。?GPU:核心需求,每位同學可以直接訪問GPU和使用宿主機的所有資源,包括CPU、內存、硬盤等。?可控:管理員可以較為方便對每位同學的機器進行管理,如資源爭搶嚴重時,限制每位同學的資源使用上限(GPU, CPU, 內存等)?開銷: 為滿足這些需求,額外的開銷應該盡可能小到可以忽略。?利用率:公用算力的資源應該能得到最大化的利用?復雜度:整套解決方案不能太復雜,便于維護
宿主機硬件配置
?GPU NVIDIA Tesla P40 *2?Memory 64G?Disk 100G SSD 系統盤 + 500G SSD 數據盤?CPU Intel Core (Broadwell, no TSX) @ 16x 2.2GHz?OS Ubuntu 20.04 LTS Server
解決方案
需求中有兩個核心點:
總結
以上是生活随笔為你收集整理的深度学习核心技术精讲100篇(六十六)- 基于LXD的GPU算力虚拟化(附解决方案代码)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据可视化应用】绘制峰峦地图(附Pyt
- 下一篇: 深度学习的基础知识(机器学习、损失函数、