多实例gpu_MIG技术快速提高AI生产率
多實例gpu_MIG技術(shù)快速提高AI生產(chǎn)率
Ride the Fast Lane to AI Productivity with Multi-Instance GPUs
一.平臺介紹
NVIDIA安培架構(gòu)中的MIG模式可以在A100 GPU上并行運行七個作業(yè)。
二.技術(shù)原理
還記得夏天休息后,在飲水機前排著長隊等你嗎?現(xiàn)在想象一下一個多頭的噴泉,流動著所有人的清涼善良。
這就是NVIDIA安培體系結(jié)構(gòu)中啟用的多實例GPU(MIG)的本質(zhì)。
MIG將一個NVIDIA A100 GPU劃分為多達(dá)七個獨立的GPU實例。它們同時運行,每個都有自己的內(nèi)存、緩存和流式多處理器。這使得A100 GPU能夠以比以前的GPU高7倍的利用率提供有保證的服務(wù)質(zhì)量(QoS)。
在MIG模式下的A100可以運行多達(dá)7個不同大小的AI或HPC工作負(fù)載的任意組合。這種能力對于通常不需要現(xiàn)代GPU所提供的所有性能的AI推理工作特別有用。 例如,用戶可以創(chuàng)建兩個MIG實例,每個實例的內(nèi)存為20gb,三個實例的內(nèi)存為10gb,七個實例的內(nèi)存為5gb。用戶創(chuàng)建適合其工作負(fù)載的組合。
MIG隔離了GPU實例,所以它提供了故障隔離——一個實例中的問題不會影響在同一物理GPU上運行的其他實例。每個實例都提供有保證的QoS,確保用戶的工作負(fù)載獲得他們期望的延遲和吞吐量。
云服務(wù)提供商和其他企業(yè)可以使用MIG來提高其GPU服務(wù)器的利用率,為用戶提供高達(dá)7倍的GPU實例。
英偉達(dá)是谷歌云的戰(zhàn)略合作伙伴,MIG使共享Kubernetes集群中g(shù)pu的效率和利用率達(dá)到新的水平成為可能。啟用這些共享GPU用例,并通過googlekubernetes引擎提供用例。
三.企業(yè)對MIG的推斷
對于企業(yè)用戶來說,MIG加速了人工智能模型的開發(fā)和部署。
MIG讓多達(dá)7個數(shù)據(jù)科學(xué)家同時訪問一個感覺像是專用GPU的東西,這樣他們就可以并行工作,微調(diào)深度學(xué)習(xí)模型,以獲得最佳的精度和性能。這是一項耗時的工作,但它通常不需要太多的計算能力——這是MIG的一個很好的用例。
一旦模型準(zhǔn)備好運行,MIG允許一個GPU同時處理多達(dá)七個推理作業(yè)。這對于批量1推理工作負(fù)載來說是非常理想的,這些工作負(fù)載包括不需要完整GPU的肌肉的小的、低延遲的模型。
英偉達(dá)技術(shù)對送貨機器人平臺服務(wù)至關(guān)重要,MIG將能夠充分利用部署的每一個GPU,能夠動態(tài)地重新配置計算資源,以滿足不斷變化的工作負(fù)載需求,優(yōu)化我們基于云的基礎(chǔ)設(shè)施,從而最大限度地提高效率和節(jié)約成本。
四.專為IT/DevOps而建
用戶不必改變CUDA編程模型就可以獲得MIG對AI和HPC的好處。MIG可以與現(xiàn)有的Linux操作系統(tǒng)、Kubernetes和容器協(xié)同工作。
NVIDIA通過它為其A100提供的軟件啟用MIG。其中包括GPU驅(qū)動程序、NVIDIA的CUDA11軟件(即將上市)、更新的NVIDIA容器運行時以及通過NVIDIA設(shè)備插件在Kubernetes中的新資源類型。
將NVIDIA虛擬計算服務(wù)器(vComputeServer)與MIG結(jié)合使用,將提供管理和監(jiān)視系統(tǒng)管理程序(如Red Hat Virtualization和VMware vSphere)的優(yōu)點。這種組合將支持流行的功能,如實時遷移和多租戶。
客戶越來越需要管理運行在虛擬機上的多租戶工作流,同時提供隔離和安全好處,NVIDIA A100 GPU上新的多實例GPU功能支持一系列新的人工智能加速工作負(fù)載,這些工作負(fù)載可以在紅帽平臺上運行,從云端到邊緣。
隨著NVIDIA A100及其軟件的到位,用戶將能夠看到和調(diào)度他們的新GPU實例上的作業(yè),就好像他們是物理GPU一樣。
總結(jié)
以上是生活随笔為你收集整理的多实例gpu_MIG技术快速提高AI生产率的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GPU核心技术开发
- 下一篇: NVIDIA安倍架构